고려대학교 DMQA 연구실

Vision Language Model-based Anomaly Detection

2026년 2월 27일 오전 1:07
조회수: 536

REFERENCES

[OpenSem-260227] Vision Language Model-based Anomaly Detection.pdf

INFORMATION

2026년 2월 27일
오전 12시 ~
온라인 비디오 시청 (YouTube)

발표자:

김성수

TOPIC

Vision Language Model-based Anomaly Detection

On-Line Video

OVERVIEW

이미지 및 비디오 이상탐지에는 vision 기반 모델들이 널리 활용되어 왔다. 그러나 이러한 모델들은 시각적 픽셀 정보에만 의존하기 때문에, 이미지 내 semantic한 특성을 충분히 반영하기 어렵다는 한계가 있다. 이를 보완하기 위해, 최근에는 언어 정보를 함께 활용하여 다양한 특성을 추가적으로 고려할 수 있는 vision-language model (VLM) 기반 이상탐지 연구가 활발히 수행되고 있다. 특히, OpenAI의 CLIP이나 Alibaba의 Qwen 등 빅테크 기업에서 개발한 foundation VLM들이 등장하면서, 이들의 풍부한 사전 지식을 기반으로 이상탐지 성능을 크게 향상시키는 연구들이 활발히 등장하고 있다. 본 세미나에서는 이러한 foundation VLM을 활용하여 이미지 및 비디오 이상탐지를 수행한 최신 연구 사례들을 살펴보고자 한다.

[1] Abdalla, M., Javed, S., Al Radi, M., Ulhaq, A., & Werghi, N. (2025). Video anomaly detection in 10 years: A survey and outlook. Neural Computing and Applications.

[2] Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021, July). Learning transferable visual models from natural language supervision. In ICML.

[3] Liu, H., Li, C., Wu, Q., & Lee, Y. J. (2023). Visual instruction tuning. Advances in neural information processing systems, 36, 34892-34916.

[4] Wei-Lin, C., Zhuohan, L., Lin, Z., Ying, S., Wu, Z., Hao, Z., ... & Ion, S. (2023). Vicuna: An open-source chatbot impressing gpt-4 with 90%* chatgpt quality. LMSYS.

[5] Lin, B., Ye, Y., Zhu, B., Cui, J., Ning, M., Jin, P., & Yuan, L. (2024, November). Video-llava: Learning united visual representation by alignment before projection. In EMNLP.

[6] Jiang, X., Li, J., Deng, H., Liu, Y., Gao, B. B., Zhou, Y., ... & Zheng, F. (2025) MMAD: A Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection. In ICLR.

[7] Li, Y., Yuan, S., Wang, H., Li, Q., Liu, M., Xu, C., ... & Zuo, W. (2025). Triad: Empowering LMM-based Anomaly Detection with Expert-guided Region-of-Interest Tokenizer and Manufacturing Process. In ICCV.

[8] Chen, Z., & Imani, F. (2026). A multi-expert framework for enhancing multimodal large language models in industrial anomaly detection. Pattern Recognition, 112752.

[9] Ye, M., Liu, W., & He, P. (2025). Vera: Explainable video anomaly detection via verbalized learning of vision-language models. In CVPR.

청취자 후기

허종국

최근 VLM 기반 이상 탐지를 수행하는 산학 과제에 참여하게 되어 어떠한 논문이나 자료를 고민하고 있던 찰나에, 성수가 아주 기깔난 세미나를 만들어주었다. 금일 세미나에서는 VLM 기반 이상 탐지를 위한 3가지 방법론 (Triad, MoXpert, VERA)과 벤치마크 하나 (MMAD)에 대해 알아 보았다. 각 방법론은 학습의 유무, 프롬프트 및 이미지 개선 유무에 따라 서로 다른 특색을 가지고 있으니, 컴퓨팅 장비가 학습 가능한 수준인지, 데이터의 크기는 학습하기에 적절한 양인지, 도메인 지식을 추출해야할 필요가 있는지 등의 상황에 따라 적절하게 골라 쓰면 될 것 같다.

Triad 는 Vision Expert를 통해 Anomaly Region 후보군을 먼저 추출한 다음, 원본과 함께 입력하여 이상 탐지 성능을 개선하고자 하였다. 또한 1. 제조 공정 정보, 2. CoT 유도를 통해 모델이 단순히 Y/N으로 이상을 탐지하지 않고, 그에 따른 근거 및 구체적인 추론을 기반으로 이상 예측을 수행하였다.

MoXpert도 Triad와 비슷하게 도메인 지식과 추론 과정을 쓰지만, 이미지 입력의 개선이나 ROI 추출을 요구하지는 않는다. 또한 1. 도메인 지식, 2. 추론 전문가, 3. 정상 이미지 참고의 테크닉을 한번에 모두 사용하는 것이 아니라, Router Network를 통해 필요한 정보만 제때 골라쓰는 방식을 고안하였다. Triad는 VLM을 이상 데이터에 대해 추가 학습해야하기 때문에 큰 연산 비용이 요구되지만, MoXpert는 Router 만 학습하면 된다는 장점을 가진다.

VERA의 경우, 멀티 에이전트 시스템을 도입하여 이상 탐지 질문 프롬프트를 고도화하고자 하였다. Learner는 특정 질문 프롬프트에 대해 이상 예측을 수행하고, Optimizer는 Learner가 산출한 이상 탐지 스코어 및 실제 정답과 비교하여 Learner가 더 탐지하기 쉽도록 새로운 질문 프롬프트를 만들어낸다. 강화학습의 actor-critic과 비슷하다는 느낌이 들었다.

내용이 상당히 알찼던 것 같다. 세미나를 만드느라 고생한 성수에게 감사의 말을 전한다.

정재우

본 세미나는 VLM을 활용한 비디오 이상 탐지 기술의 진화 과정을 고찰하였다. 초기 LLaVA는 고정된 CLIP 인코더와 Vicuna LLM을 결합하여 객체 위치 정보 기반의 데이터 생성 파이프라인을 구축했으며, Video LLaVA는 이를 비디오 영역으로 확장하였다.
2025년 등장한 MMAD의 성능 한계를 극복하기 위해 제안된 Triad는 관심 영역 추출(EG-ROI)과 제조 공정 정보(MPG) 주입, CoT 방식의 정밀한 미세 조정을 통해 모델의 이해도를 높였다. 특히 정확한 크롭과 사전 파인 튜닝이 성능 향상의 핵심임을 입증하였다.
또한 최신 연구인 MoxPERT(2026)는 지식 가이드, 추론 전문가, 참조 추출기 등 다중 전문가 모델을 도입하였는데, 이때 라우터 네트워크란 전문가 선택 학습 모델을 통해 상황에 적합한 외부 지식을 선택적으로 주입함으로써 산업 현장의 도메인 지식 부족 문제를 해결한 점이 인상 깊었다. 아울러 VERA(2025)는 별도의 학습 없이 러너와 옵티마이저 에이전트 간의 피드백 루프를 통해 추론 질문을 고도화하여 인간의 디스크립션보다 높은 성능을 달성하였다.

결론적으로 차세대 비디오 이상 탐지는 정교한 데이터 전처리, 전문가 지식의 전략적 활용, 그리고 언어적 추론의 최적화를 통해 지속적으로 발전하는 것을 확인할 수 있었고 무엇보다 기존 LLM처럼 파라미터 수를 늘리거나 전체 학습 과정 없이, 디스크립션 및 전문가 추론 매커니즘만으로 획기적인 이상 탐지 성능 향상을 확보한 결과가 놀라웠다.

근래 발표된 VLM 모델들은 산업 및 현실 세계에서 활발히 적용되거나 시도되고 잇는 추세인 것 같다. 특히 프로젝트에 참여하며 이상 탐지에 파운데이션 VLM을 접목시키고자 하는 시도를 하고 있는데, 최근 연구 동향과 여러 테크닉을 알 수 있었고 여러 인사이트를 얻을 수 있었던 세미나였다. 마지막으로 세미나를 준비하신 김성수 선배님께 감사의 말씀을 올리며 세미나 후기를 마치겠다.

김수림

본 세미나는 Foundation VLM의 발전 과정부터 최근 VLM 기반 이상 탐지 연구까지 전반적인 흐름을 소개하며, 대표적인 방법론 3가지(Traid, MoXpert, VERA)를 소개하였다. 세 방법론 모두 모델을 스크래치부터 학습하는 것이 아닌, 이미 잘 만들어진 Foundation 모델을 활용하고 입력 데이터 개선이나 약간의 미세조정을 통해 효율적으로 성능을 향상시켰다.

Traid는 이미지와 텍스트 입력 정보를 보강하고 VLM 파인튜닝을 적용하였다. 특히 이상 이미지에 대해 vision expert를 활용하여 이상 상황에 대한 추가 정보를 풍부하게 입력해 준 점이 인상적이었다.

MoXpert는 training-free 방식으로, 3가지 전문가(지식 주입, 추론 유도, 정상 이미지 참조)를 통해 학습 없이 입력 정보를 개선하는 접근법을 제시하였다. 특히, 세 전문가를 모두 동시에 사용하면 오히려 모델에 혼란을 줄 수 있다는 점을 고려해 router network를 통해 상황에 맞는 최적의 전문가 조합을 선택하도록 설계한 점이 흥미로웠다.

VERA는 단순한 질문만으로는 비디오 이상 탐지를 수행하기 어렵다는 한계를 해결하기 위해 Learner와 Optimizer라는 VLM Agent를 정의하여 최적의 이상 탐지 질문을 도출하였다. 추가적인 모델 학습 없이 프롬프트 생성과 최적화 과정을 통해 성능을 향상시킨 접근법이다.

최근 관련 프로젝트를 진행하면서 Foundation VLM 모델에 대한 관심이 높아졌는데, 이번 세미나를 통해 프로젝트에 적용할 수 있는 다양한 인사이트를 얻을 수 있었다. VLM 기반 이상 탐지 연구 동향을 이해하기 쉽고 알차게 정리해 준 유익한 세미나였다. 좋은 세미나를 준비해 준 김성수 연구원께 고맙다는 말을 남기며 본 세미나 후기를 마친다.

김현이

이번 세미나는 foundation vision-language model(VLM)을 활용한 이미지 및 비디오 이상탐지 연구 흐름을 소개하는 내용이었다. 기존 vision 기반 이상탐지는 시각적 정보에만 의존하기 때문에 이미지와 비디오의 semantic한 맥락을 충분히 반영하기 어렵다는 한계가 있는데, 이를 보완하기 위해 최근에는 CLIP, LLaVA, Video-LLaVA와 같은 VLM을 활용한 연구가 활발히 이루어지고 있음을 알 수 있었다. 특히 이번 세미나에서는 VLM 기반 이상탐지 분야의 대표적인 벤치마크와 최신 방법론들을 함께 다루며, 최근 연구 흐름을 전반적으로 이해할 수 있도록 구성된 점이 인상적이었다.

세미나에서 소개된 방법론들은 각각 서로 다른 방식으로 VLM 기반 이상탐지 성능을 높이고자 했다. MMAD를 통해서는 VLM 기반 산업 이상탐지 연구의 전반적인 가능성과 한계를 살펴볼 수 있었고, Triad는 이상 의심 영역과 제조 공정 정보를 함께 활용해 VLM의 이해를 보완하고자 했다는 점이 인상적이었다. 또한 MoXpert는 다양한 전문가를 조합하여 필요한 정보만 선택적으로 활용하는 방향으로 성능 향상을 시도했고, VERA는 질문 자체를 더 정교하게 최적화함으로써 비디오 이상탐지 성능을 높인다는 점이 흥미로웠다. 각 연구가 입력 보완, 외부 지식 활용, 프롬프트 최적화 등 서로 다른 관점에서 문제를 해결하고 있다는 점이 특히 기억에 남았다.

무엇보다 이번 세미나는 평소 내가 관심을 가지고 있던 VLM 기반 이상탐지 주제를 다루고 있어 더욱 흥미롭게 들을 수 있었다. 세미나를 들으며 VLM 기반 이상탐지에서는 단순히 모델 자체의 규모뿐 아니라, 어떤 정보를 함께 활용하고 어떻게 보완해 입력하느냐도 중요한 요소가 될 수 있다는 점을 느꼈다. 특히 작은 이상 영역을 잘 반영하는 입력 구성, 도메인 지식 주입, 프롬프트 최적화와 같은 전략이 실제 성능 향상에 큰 역할을 할 수 있다는 점이 인상적이었다. 최근 관련 연구와 프로젝트를 살펴보며 관심이 커지고 있었던 주제였던 만큼, 이번 세미나를 통해 더 구체적인 방향성과 여러 인사이트를 얻을 수 있었다.

전반적으로 최근 VLM 기반 이상탐지 연구 동향을 이해하는 데 도움이 되었던 유익한 세미나였다. 관심 있던 주제를 체계적으로 정리해 들을 수 있어 더욱 의미 있게 느껴졌고, 앞으로도 이러한 방향의 연구를 계속 관심 있게 보고 싶다는 생각이 들었다. 좋은 세미나를 준비해주신 김성수 선배님께 고마움을 전하며 세미나 후기를 마친다.

손병우

본 세미나는 VLM의 발전 흐름(CLIP, LLaVA, Video-LLM)과 함께 이를 이상 탐지 문제에 적용하는 벤치마크(MMAD) 및 3가지 방법론의 접근(Triad, MoXpert, VERA) 을 소개하였다.

먼저 VLM의 기본적인 모델로 여겨지는 CLIP은, 이미지와 텍스트 임베딩을 정렬하는 대조학습 기반 모델로, 두 모달리티 간 유사도를 비교하는 데 강점을 가진다. 이후 등장한 LLaVA는 Image와 Instruction 형태의 데이터로 학습되어 다양한 질문에 응답할 수 있는 VLM으로 확장되었으며, Video-LLaVA는 이를 비디오까지 확장한 모델이다. 이러한 흐름 속에서 파운데이션 VLM의 이상 탐지 성능을 평가하기 위해 제안된 MMAD 벤치마크는 아직 이상탐지 task 에서의 VLM이 인간 전문가 수준에는 미치지 못해 추가적인 연구 필요성을 보여주었다.

이후 세미나에서는 VLM 기반 이상 탐지 방법론인 Triad, MoXpert, VERA를 소개하였다.
Triad는 이미지와 텍스트 입력을 모두 개선하는 접근으로, Vision Expert를 활용해 이상 의심 영역을 crop하여 원본과 함께 입력하고, 제조 공정 정보와 CoT 추론을 텍스트 프롬프트에 추가한다. 그러나 모델 전체를 미세조정해야 하기 때문에 높은 성능을 얻을 수 있는 대신 상당한 연산 비용이 요구된다는 특징이 있다.

MoXpert는 training-free의 방식으로, 세 가지 전문가 모듈을 활용한다. Knowledge Guide는 도메인 지식을 추가하고, Reasoning Expert는 추론 과정을 강화하며, Reference Extractor는 정상 이미지를 함께 제공하여 비교를 돕는다. 또한 MoE 방식과 비슷하게 Router Network를 통해 어떤 전문가 정보를 사용할지 선택하도록 하여 불필요한 정보를 줄이고 성능을 개선한다.

마지막으로 VERA는 비디오 기반 이상 탐지에서 질문 프롬프트를 최적화하는 접근을 제안한다. Learner Agent가 비디오와 질문을 기반으로 이상 여부를 예측하면, Optimizer Agent가 예측 결과와 정답을 비교하여 더 효과적인 질문을 생성한다. 이러한 과정을 반복하면서 점차 성능이 좋은 질문 프롬프트를 찾아가는 구조로, 사람이 작성한 질문보다도 높은 성능을 보이기도 한다.

이러한 방식으로, VLM 기반 이상 탐지는 모델 자체를 학습하는 방식(Triad), 입력 정보와 도메인 지식을 강화하는 방식(MoXpert), 질문 프롬프트를 최적화하는 방식(VERA)과 같이 다양한 전략으로 지속해서 발전하고 있음을 확인할 수 있었다.
최근 CLIP과 같은 파운데이션 VLM에서의 효율적 학습을 위한 이미지/텍스트 Prompt Tuning 연구에 많은 관심을 가지고 있는데, 본 세미나를 통해 VLM을 활용한 이상 탐지 분야의 적용 사례와 함께 VLM 학습을 위한 다양한 접근 방식에 대한 인사이트를 얻을 수 있었다. 특정 도메인에서 VLM을 어떻게 적용할 수 있는지 이해하는 데 큰 도움이 되었던 유익한 세미나였으며, 이렇게 좋은 세미나를 준비해주신 김성수 선배님께 감사의 말씀을 올리며 세미나 후기를 마친다.

강동훈

이번 세미나는 Foundation Vision-Language Model(VLM)을 활용하여 이미지 및 비디오 이상탐지(Anomaly Detection)의 한계를 극복하려는 최신 연구 흐름을 매우 체계적으로 정리해 주신 유익한 시간이었다.
기존의 이상탐지 방식이 오직 픽셀 정보에만 의존하여 객체의 세밀한 맥락을 파악하기 어려웠던 점을 짚어주시고, 이를 해결하기 위해 CLIP, LLaVA, Video-LLaVA와 같은 멀티모달 모델이 어떻게 Semantic한 정보를 통합하는지 명확히 이해할 수 있었다. 특히 각 방법론이 문제를 해결하기 위해 접근한 서로 다른 전략들이 매우 인상 깊었다.

MMAD를 통해 현재 VLM이 산업 현장에서 가진 가능성과 인간 전문가와의 성능 격차를 객관적으로 살펴볼 수 있었고, Triad에서 비정상이 의심되는 국소 영역을 Crop하여 입력 이미지의 이해도를 높이고 제조 공정 지식(MPG)을 결합한 시도는 큰 인사이트를 주었다.
또한, MoXpert가 라우터 네트워크를 통해 지식 가이드나 추론 전문가 등 필요한 정보만 선택적으로 조합하여 효율성을 극대화한 점, VERA가 추가적인 파라미터 튜닝 없이 질문 자체를 정교화하여 비디오 이상탐지 성능을 끌어올린 점은 매우 획기적인 접근이라고 생각했다.

이번 세미나를 통해 VLM 기반 연구에서는 단순히 모델의 규모를 키우는 것 못지않게, 도메인 지식의 주입 방식이나 프롬프트 최적화, 그리고 입력 데이터의 구성 전략이 성능 향상의 핵심이 될 수 있음을 알 수 있었다. 평소 관심을 두고 있던 분야였는데, 김성수 선배님께서 최신 벤치마크와 방법론들을 깔끔히 정리해 주신 덕분에 연구의 구체적인 방향성을 설정하는 데 큰 도움을 얻었다.

좋은 세미나를 공유해 주신 김성수 선배님께 감사의 말씀을 올리며 세미나 후기를 마친다.

김다빈

본 세미나는 VLM의 기본적인 발전 흐름부터, 최근 VLM 기반 이상 탐지 연구까지 체계적으로 소개한 세미나였다. 먼저 Visual Anomaly Detection이 기존에는 주로 픽셀 기반의 시각 정보에 의존했다면, VLM을 활용함으로써 객체의 의미 정보와 도메인 지식을 함께 고려할 수 있다. 특히 CLIP, LLaVA, Video-LLaVA로 이어지는 Foundation VLM의 발전 과정을 먼저 설명한 뒤, 이를 이상 탐지 문제에 어떻게 적용할 수 있는지 자연스럽게 연결해 주어 전체적인 흐름을 이해하기 편했다.

1. MMAD는 다양한 Foundation VLM이 산업 이상 탐지에서 어느 정도의 가능성과 한계를 가지는지 보여주는 벤치마크로 이해되었다.

2. Triad는 이러한 한계를 해결하기 위해 이미지와 텍스트 입력을 모두 개선한 방법론이라는 점이 흥미로웠다. 이상 영역이 작은 부분에서 발생하는 경우가 많기 때문에 Vision Expert를 활용하여 의심 영역을 crop하고, 원본 이미지와 함께 입력하는 방식이 직관적으로 이해되었다. 또한 제조 공정 정보와 CoT 형태의 구체화된 레이블을 함께 사용하여 단순히 정상/비정상만 판단하는 것이 아니라, 왜 비정상인지에 대한 근거까지 학습하도록 한 점이 인상 깊었다.

3. MoXpert는 Triad와 달리 전체 VLM을 미세조정하지 않고, Knowledge Guide, Reasoning Expert, Reference Extractor와 같은 전문가 모듈을 활용하여 입력 정보를 보완하는 방법론이다. 특히 모든 전문가를 무조건 사용하는 것이 아니라 Router Network를 통해 상황에 맞는 전문가 조합을 선택하도록 한 부분이 흥미로웠다.

4. VERA는 별도의 학습 없이 질문 프롬프트 자체를 개선하여 비디오 이상 탐지 성능을 높이고자 한 방법론으로 이해되었다. Learner가 주어진 질문에 대해 이상 점수를 산출하고, Optimizer가 그 결과와 정답을 바탕으로 더 좋은 질문을 생성하는 구조로 구성되어있다. 단순히 모델 구조를 바꾸거나 추가 학습을 수행하는 것이 아니라, “어떤 질문을 던져야 VLM이 더 잘 판단할 수 있는가”에 집중했다는 점이 인상적었다.

최근 VLM을 활용한 제조 데이터 이상 탐지 연구를 시작하게 되면서, 관련 연구 흐름과 적용 가능한 방법론을 정리할 필요가 있었다. 그런 점에서 이번 세미나는 VLM 기반 이상 탐지의 주요 접근법을 한 번에 이해할 수 있어 매우 유익하였다. 유익한 세미나를 준비해 준 김성수 연구원께 감사의 말을 전하며 본 세미나 후기를 마친다.

Seminar