- 2025년 9월 18일 오후 10:34
- 조회수: 395
INFORMATION
- 2025년 9월 19일
- 오후 12시 ~
온라인 비디오 시청 (YouTube)
최지형
TOPIC
On-Line Video
OVERVIEW
산업 이미지 이상 탐지는 제조 현장에서의 결함 검출과 품질 관리에 필수적인 기술로 자리 잡고 있다. 초기 연구들은 정상 이미지만을 학습하여 분포에서 벗어나는 데이터를 이상으로 판별하는 방식이 주를 이루었다. 그러나 실제 환경에서는 정상 데이터조차 충분히 확보하기 어렵고, 결함의 양상은 매우 다양하며, 새로운 제품이나 공정 변화에 적응하기도 쉽지 않다. 이러한 이유로 기존 방식만으로는 산업 현장의 복잡한 요구를 충족하기 어렵다는 한계가 드러났다. 이러한 문제를 해결하기 위해 최근 연구들은 여러 방향에서 확장되고 있다. 일부는 소량의 비정상 데이터를 함께 활용하여 보다 정밀한 탐지를 가능하게 하고, 또 다른 연구들은 사전학습된 대규모 모델을 활용해 새로운 환경에도 빠르게 대응할 수 있는 범용성을 확보하고자 한다. 더 나아가, 2D 이미지에만 머무르지 않고 3D 형상이나 구조적 정보를 반영하여 실제 공정에서 발생하는 복잡한 이상 패턴까지 포착하려는 시도도 활발하다. 본 세미나에서는 이러한 다양한 연구 흐름을 다각도의 관점에서 살펴보며, 산업 이미지 이상 탐지 분야가 어떻게 진화하고 있는지를 소개하고자 한다.
청취자 후기
고재영
산업 환경과 개별 도메인의 특성에 따라 수집되는 정상 및 비정상 데이터의 비율은 매우 상이할 수 있다. 따라서 각 산업 여건과 데이터 특성에 최적화된 AD(Anomaly Detection) 전략을 수립하는 것이 필수적이다. 이번 세미나에서는 이상 탐지의 목적과 데이터 환경에 따른 세 가지 핵심 상황을 구분하고 각 상황에 적합한 전략인 Supervised AD, Zero-shot AD, Multi-modal AD를 대표적인 논문을 통해 소개하고 있다.
대부분의 기존 AD 모델은 정상 샘플만을 사용하여 훈련하는 비지도 학습 방식을 사용하고 있으나, 이 방법은 이상치에 대한 정보가 부족하여 정상과 이상을 구분하는 경계(Decision Boundary)가 모호해지는 근본적인 한계를 가지고 있어 이로 인해 판별 능력이 저하될 수 있다.
이러한 비지도학습의 한계를 극복하기 위해 소수의 이상치 샘플을 학습에 사용하는 준지도학습에 대한 연구가 활발히 진행되었으나 학습에 사용한 이상치 샘플들이 모든 종류의 이상치를 대표할 수는 없기 때문에 모델이 특정 이상치에 편향되어 학습될 수 있으며, 결과적으로 훈련 시 보지 못했던 새로운(unseen) 이상치에 대해서는 일반화 성능이 떨어질 수 있다는 문제가 있다.
BGAD는 Push-Pull Contrastive Learning을 통해 정상과 이상치의 분리 경계를 명확하게 만들어줌으로써 앞서 언급한 편향 문제를 완화하면서도 정상과 비정상의 판별력을 크게 향상시킨 것이 인상적이었다.
평소 관심을 가졌던 Industrial Image Anomaly Detection 분야의 큰 그림과 최신 연구 동향을 한눈에 파악할 수 있는 유익한 세미나를 준비해준 최지형 연구원에게 감사의 말을 전한다.
정재우
위 세미나는 Industrial Image Anomaly Detection을 주제로 각 Supervised, Zero-shot, Multimodal 학습 별 모델을 소개하였다. 이상 탐지 분야에는 난제가 존재하는데, 바로 이상 데이터를 확보하거나 접근하는 것이 어려운 문제이다. 이상 데이터가 희소하면 정상 데이터와 잘 구분하지 못하고 원활한 이상 탐지를 기대하기 어렵다.
따라서 요즘엔 Supervised, Zero-shot, Multimodal 학습 방법을 활용하여 희소한 이상 데이터 상황에서도 강건한 탐지가 가능하도록 활발히 연구가 되고 있다.
먼저 지도 학습의 경우, 비교적 소량인 이상치 데이터는 잘 탐지하지 못하고 정상 데이터에 과적합될 가능성이 존재한다. 이런 복합적인 문제를 해결하고자 BGAD 방법론이 등장했다.먼저 CNflow를 통해 알고 싶은 (정상)분포를 하나의 모사 분포로 근사하고, 이상 탐지를 위한 이상/정상 경계를 설정할 수 있다. 이때, 각 이상/정상 영역의 마진을 학습하는 두 개의 손실항은 이상으로 의심되는 데이터는 정상 경계 밖으로, 정상으로 판단되는 데이터는 정상 경계 안으로 유도한다. 또한 단순히 이상/정상에 대한 마진 및 영역만 구분 짓는 것이 아니라, 두 영역 사이에 충분한 여백이 존재하여, 정상 영역과 이상 영역까지 벗어난 데이터에 대해 확실하게 이상 데이터로 예측할 수 있는 메커니즘이 매우 인상적이었다.
또한 이상 분류 문제에서, 상황과 테스크에 따라 정상과 비정상의 기준은 변동적이다. 더불어 이상 데이터를 모델에게 제공할 수 없다면, 자연스럽게 이상 탐지 성능이 떨어질 것이다. 이를 해결하기 위해 Zero-shot 분류 테스크에 효과적인 CLIP VLM 을 발전시킨 WinCLIP을 소개했다. 먼저 WinCLIP은 여러 단어 벡터들을 각각 이상/정상 카테고리 내에서 샘플링하였는데, 이를 통해 임베딩 공간에서 각 표현들의 대표 표현으로 대조 및 분류 학습 가능하도록 설계했다.
또한 이상 객체의 경계나 시각적 특징을 추출하는 세그멘테이션 테스크에서, CLIP은 전역적인 정보에 집중하기 때문에 국소적인 객체의 위치 및 형태를 세그멘테이션 하기 어렵다는 문제가 존재했다. 이에 WinClip은 크롭 윈도우 필터를 적용하여 로컬적 정보도 활용하도록 image->middle->small 단계로 구분하여 특징을 추출하였고, 이후 각 단계에서 추출한 픽셀 값을 집계하여 분류하면 원활한 세그멘테이션이 가능하다. 특히 이상 객체 특성 상, 국소적 위치나 크기를 갖기 때문에, 이러한 접근 방식이 합리적이라고 생각했다.
마지막으로 이미지의 2D, 3D 정보를 함께 사용하는 Multimodal 관점으로 접근한 모델을 알아보았다. 포인트 클라우드로 2D(색상 정보 등), 3D(형태 정보 등) 객체 정보를 동시에 사용 가능하도록 하고 Hybrid fusion 단계를 거치며 각 2D, 3D 정보를 토큰화하여 vit에 제공한다. 하지만, 여러 정보를 확보했지만 서로 다른 데이터 특성이므로, 결합하거나 바로 이용할 수 없었다는 점에서 다른 해결책이 필요했다.
이때, point feature allignment 라는 방법을 사용하였는데 3d 토큰을 2d 평면상으로projection한 후, 그리드 형태로 나누어 2d-3d 간 상대적인 위치에 정렬한다. 마지막으로 각 특징에 대해 mlp, fc 레이어로 관계를 표현 했고 ,각 특징에 대해 패치 계산하여 이어붙여 멀티 모달 데이터를 100% 활용할 수 있는 흐름을 제안했다.
이렇게 이상 탐지 분야에서 사용되는 여러 모델들을 각각의 학습 방법 관점에서 알아볼 수 있었다. 특히, 요즘 여러 기업들이나 프로젝트에서 사용하는 파운데이션 VLM으로 이상 탐지까지 수행할 수 있도록 하는 시도가 점점 증가하고 있는데, 위 세미나에서 등장한 여러 테크닉이나 접근 방법을 활용하면, VLM의 강점을 더욱 살려 "해석 가능한 파운데이션 모델 기반 이상 탐지"도 도전해볼 수 있을 것 같다. 더불어 데이터 부족과 딥러닝 특유의 과적합 문제도 고려하여 여러 방안을 제시할 수 있음을 깨달았고 인사이트를 얻을 수 있었다. 이런 값진 정보와 배움의 기회를 제공해주신 최지형 선배님께 감사 인사를 전하며 세미나 후기를 마무리하겠다.