고려대학교 DMQA 연구실

Knowledge Distillation Methods for Industrial Image Anomaly Detection

2026년 3월 19일 오전 12:47
조회수: 353

REFERENCES

260320_DMQA_Openseminar_Knowledge Distillation Methods for Industrial Image Anomaly Detection.pdf

INFORMATION

2026년 3월 20일
오전 12시 ~
온라인 비디오 시청 (YouTube)

발표자:

고재영

TOPIC

Knowledge Distillation Methods for Industrial Image Anomaly Detection

On-Line Video

OVERVIEW

산업 현장의 이미지 이상치 탐지(Industrial Image Anomaly Detection) 분야는 정상 데이터에 비해 이상치 데이터의 획득이 극히 어렵다는 데이터 불균형의 특성을 가진다. 이러한 제약으로 인해 실무에서는 주로 정상 데이터만을 활용하는 비지도 학습 방식이 채택되며, 효율적이고 빠른 처리를 위해 사전 학습된 모델을 특징 추출기(Feature Extractor)로 활용하는 전략이 일반화되어 있다. 이러한 맥락에서 Knowledge Distillation(KD) 기법은 사전 학습된 모델(Teacher)의 풍부한 표현력을 활용해 학습 모델(Student)이 정상 데이터의 특징만을 집중적으로 학습할 수 있다는 점에서 큰 주목을 받아왔다. 특히, 이상 데이터가 입력되었을 때 Teacher와 Student 간에 발생하는 특징 맵(Feature map)의 차이(Discrepancy)를 이상치 점수로 활용하는 구조는 기존 재구축(Reconstruction) 기반 모델들의 복원 오차(Reconstruction error) 한계를 극복하고 픽셀 단위의 매우 정교한 이상 영역 국소화(Anomaly Localization)를 가능하게 한다는 강점을 가진다. 본 세미나에서는 대표적인 4개의 논문을 통해 초기 KD 기반 모델에서 최신 구조로의 발전 과정을 심도 있게 살펴봄으로써, 아키텍처의 변화 및 성능 개선 요인을 분석하고 향후 산업용 이상치 탐지 기술의 발전 방향을 논의하고자 한다.

참고자료:

[1] Bergmann, P., et al. "Uninformed students: Student–teacher anomaly detection with discriminative latent embeddings." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020.

[2] Salehi, M., et al. "Multiresolution knowledge distillation for anomaly detection." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021.

[3] Deng, H., & Li, X. "Anomaly detection via reverse distillation from one-class embedding." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022.

[4] Rudolph, M., et al. "Asymmetric student-teacher networks for industrial anomaly detection." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023.

청취자 후기

김혜준

이번 세미나에서는 산업 현장의 이미지 이상치 탐지 문제를 데이터 불균형이라는 실질적 제약에서 출발해 설명한 것이 인상깊었다. 이상 데이터를 충분히 수집하기 어려운 환경에서 정상 데이터만으로 학습하는 비지도 방식이 왜 중요한지, 그리고 그 과정에서 사전 학습 모델과 Knowledge Distillation이 어떤 역할을 하는지 흐름이 잘 드러나서 쉽게 이해할 수 있었다. 특히 Teacher와 Student의 feature discrepancy를 이상치 점수로 활용해 reconstruction 기반 방법의 한계를 넘고, 픽셀 단위로 이상 영역을 정교하게 찾는 방식이 흥미로웠다. 초기 KD 기반 접근에서 최신 구조로 발전하는 과정을 대표 논문들을 통해 비교해 준 점도 이해에 큰 도움이 되었다. 앞으로는 각 논문에서 어떤 architectural choice가 localization 성능 향상에 가장 크게 기여했는지, 또 실제 산업 환경에서 속도·정확도·일반화 성능 사이의 trade-off가 어떻게 달라지는지 더 깊이 알아보고 싶다.

김현이

이번 세미나는 산업용 이미지 이상탐지 분야에서 Knowledge Distillation(KD) 기법이 어떤 흐름으로 발전해 왔는지 체계적으로 짚어볼 수 있는 유익한 시간이었다. 기존의 재구성 기반 모델들이 픽셀 단위의 단순 오차에 의존해 미세한 불량을 놓치곤 했던 한계를 극복하기 위해, 사전 학습된 Teacher 모델의 풍부한 표현력을 활용하는 KD 방식의 발전 과정을 심도 있게 이해할 수 있었다.

특히 세미나에서 소개된 4가지 핵심 방법론들의 기술적 흐름이 매우 인상적이었다.

- Uninformed Students가 KD를 이상탐지에 처음 도입하였다면,
- MKD는 다중 해상도(Multi-resolution)와 중간 레이어(Intermediate layer) 활용을 통해 지식 전달을 높이려 했던 점이 돋보였다.
- 이어지는 RD4AD에서는 Teacher와 Student의 아키텍처를 대칭적이면서도 역전(Inverted)된 구조로 설계하여 비정상 데이터에 대한 과도한 일반화 문제를 해결하려 한 시도가 흥미로웠다.
- 마지막으로 AST(Asymmetric Student-Teacher)는 Normalizing Flow의 전단사(Bijective) 특성을 활용해 OOD 데이터 입력 시 Teacher의 출력이 크게 발산하도록 강제함으로써, 기존 밀도 추정(Density Estimation) 모델들이 가졌던 Likelihood 활용의 한계를 정교하게 해결했다는 점이 인상깊었다.

전반적으로 초기 KD 모델부터 최신 AST 구조까지의 발전 동향을 논리적으로 갈무리할 수 있었던 의미 있는 시간이었다. 깊이 있는 분석과 유익한 자료를 준비해 주신 고재영 선배님께 진심으로 고마움을 전하며 세미나 후기를 마친다.

박성수

현재 산업 현장의 이미지 이상치 탐지 분야는 정상 데이터에 비해 이상치 획득이 어렵다는 데이터 불균형 문제로 인해 비지도 학습이 필수적이다. 이번 세미나는 사전 학습된 모델의 지식을 전이하는 Knowledge Distillation(KD) 기반 방법론들의 발전 흐름을 소개한다.

Uninformed Students는 국소적인 패치 단위의 앙상블을 통해서 KD를 이상 탐지에 처음 점목했다.

MKD는 기존 방법들이 Teacher network의 마지막 레이어 출력만을 모방하는 데 집중하여 중간 표현에 담긴 다양한 수준의 정보를 충분히 반영하지 못한다는 한계를 지적한다. 이를 해결하기 위해 여러 중간 레이어에서 추출된 특징들을 계층적으로 정렬하여 학습에 활용한다. 이를 통해 얕은 층의 국소적 정보부터 깊은 층의 의미론적 정보까지 함께 반영하여 정상 데이터가 가지는 복잡한 구조와 분포를 보다 효과적으로 학습할 수 있도록 한다.

특히 인상 깊었던 모델은 RD4AD였다. 기존의 순방향 distillation과 다르게 병목 구조를 거쳐 특징을 재구성하는 방식을 도입하였다. 이를 통해 student는 단순히 teacher의 특징을 모방하는 데 그치지 않고, 정상 데이터의 구조적 특성을 잘 반영하도록 학습된다는 점이 인상적이었다.

마지막으로 소개된 AST 구조는 두 네트워크 간의 비대칭성을 활용해서 이상치 입력에 대해 teacher와 student 간의 discrepancy를 효과적으로 확대하는 방식으로 설계되었다. 기존 연구에서는 비정상 데이터에 대해서도 두 모델이 유사한 특징을 추출하는 경향이 있어서 이상 상황에서도 충분한 차이를 만들지 못하는 문제가 있었다. 이를 해결하기 위해 AST는 teacher와 student에 서로 다른 구조를 적용하여 표현 학습의 방향성을 분리하고, 입력 변화에 대해 teacher의 표현이 민감하게 반응하도록 만들었다. 또한 기존의 likelihood 기반 이상 점수 대신 teacher-student 간의 거리 정보를 직접 이상 점수로 활용해서 안정적인 이상 탐지 능력을 보여주었다.

방법론의 수식적인 전개부터 최신 논문들까지 이해하기 편하도록 정리해 주셔서 KD 기반 이상 탐지 연구의 흐름을 이해하는 데 큰 도움이 되었다. 유익한 세미나를 준비해 주신 고재영 선배님께 고맙다는 말씀을 올리며 본 세미나 후기를 마친다.

강동훈

이번 세미나는 Knowledge Distillation based methods for Industrial Image Anomaly Detection이라는 주제로 진행되었다. 산업 이미지 이상 탐지 분야에서 Knowledge Distillation, 즉 KD 기반 방법론들이 어떤 문제의식에서 출발했고, 어떤 방향으로 발전해왔는지를 논문 흐름에 따라 이해할 수 있었다.

산업 이미지 이상 탐지는 일반적인 이미지 분류 문제와 달리 정상 데이터에 비해 비정상 데이터의 수가 매우 적고, 실제 현장에서 모든 불량 유형을 사전에 수집하기 어렵다는 특징을 가진다. 따라서 학습 단계에서는 대부분 정상 이미지만 사용하고, 추론 단계에서 정상 패턴과 다른 입력을 이상으로 판단하는 방식이 사용된다.

Knowledge Distillation은 본래 큰 Teacher network의 지식을 작은 Student network로 전달하는 방식이다. 산업 이미지 이상 탐지에서는 단순한 모델 압축을 넘어, 정상 데이터에 대해서는 Student가 Teacher를 잘 모방하도록 학습하고, 비정상 데이터가 입력되었을 때는 Teacher와 Student의 출력 차이가 커지도록 유도하는 방식으로 진행된다.

가장 먼저 소개된 Uninformed Students는 기존의 GAN이나 VAE 기반 재구성 방법은 픽셀 단위 재구성 오차에 의존하기 때문에 미세한 결함을 놓칠 수 있고, 사전 학습된 네트워크와 얕은 기계 학습 모델을 결합한 방식은 고차원 정보를 충분히 활용하기 어렵다는 한계가 있었다. Uninformed Students는 이러한 문제를 해결하기 위해 사전 학습된 네트워크지식을 Teacher network로 전달하고, 여러 Student network가 Teacher의 출력을 모방하도록 학습하는 구조를 제안했다.

두 번째로 소개된 MKD는 Teacher의 마지막 layer만 모방하는 기존 KD 방식의 한계를 보완한 방법으로 산업 이미지 결함은 local한 texture 변화로 나타날 수도 있고, Semantic 이상으로 나타날 수도 있다. 따라서 마지막 layer의 semantic 정보만 사용하는 것은 미세 결함 탐지에는 충분하지 않을 수 있다. MKD는 이 문제를 해결하기 위해 Teacher network의 여러 중간 layer에서 추출된 feature를 Student가 함께 학습하도록 설계했다.

세 번째로 소개된 RD4AD는 기존 Teacher–Student 방법들은 Teacher와 Student가 동일하거나 유사한 구조를 가지는 경우가 많았는데, 이 경우 비정상 데이터에 대해서도 두 모델이 비슷한 feature를 추출해버리는 문제가 발생할 수 있다. 즉 Student가 정상 패턴만 학습해야 하는데, 구조적 유사성 때문에 비정상 입력까지도 Teacher와 비슷하게 따라가 버리면 anomaly score가 충분히 커지지 않을 수 있다는 것이다.
RD4AD는 이를 해결하기 위해 Teacher를 encoder, Student를 decoder로 구성한다. Teacher는 입력 이미지에서 multi-scale feature를 추출하고, Student는 Teacher의 압축된 embedding을 입력받아 Teacher의 feature map을 역방향으로 복원한다. 이때 OCBE을 통해 정상 패턴 정보는 보존하면서 비정상적인 정보는 차단되도록 설계한 점이 핵심이라고 이해했다.

마지막으로 소개된 AST는 Teacher–Student 구조의 비대칭성을 더욱 강하게 활용한 방법으로 이해했다. 기존 연구의 중요한 한계는 Teacher와 Student가 유사한 구조를 사용할 때 비정상 입력에 대해서도 두 네트워크가 비슷한 출력을 낼 수 있다는 점이었다. AST는 이를 해결하기 위해 Teacher에는 Normalizing Flow를, Student에는 conventional CNN을 사용하는 구조를 설계했다. 즉 두 모델의 표현 방식 자체를 다르게 만든 방법이다.

개인적으로 이번 세미나에서 가장 크게 배운 점은 정상 데이터만으로 학습해야 하는 상황에서, Student가 Teacher를 너무 잘 따라 해도 문제가 될 수 있고, 반대로 정상 데이터조차 제대로 모방하지 못해도 문제가 된다고 생각했다. 산업 현장의 데이터 불균형 문제에서 출발해 Teacher–Student 기반 KD 방법론들이 어떻게 발전해왔는지 체계적으로 이해할 수 있었다. 좋은 세미나를 준비해주신 고재영 선배님께 고맙다는 말씀을 드리며 세미나 후기를 마친다.

Seminar