- 2026년 2월 27일 오전 1:07
- 조회수: 265
INFORMATION
- 2026년 2월 27일
- 오전 12시 ~
온라인 비디오 시청 (YouTube)
김성수
TOPIC
On-Line Video
OVERVIEW
청취자 후기
허종국
최근 VLM 기반 이상 탐지를 수행하는 산학 과제에 참여하게 되어 어떠한 논문이나 자료를 고민하고 있던 찰나에, 성수가 아주 기깔난 세미나를 만들어주었다. 금일 세미나에서는 VLM 기반 이상 탐지를 위한 3가지 방법론 (Triad, MoXpert, VERA)과 벤치마크 하나 (MMAD)에 대해 알아 보았다. 각 방법론은 학습의 유무, 프롬프트 및 이미지 개선 유무에 따라 서로 다른 특색을 가지고 있으니, 컴퓨팅 장비가 학습 가능한 수준인지, 데이터의 크기는 학습하기에 적절한 양인지, 도메인 지식을 추출해야할 필요가 있는지 등의 상황에 따라 적절하게 골라 쓰면 될 것 같다.
Triad 는 Vision Expert를 통해 Anomaly Region 후보군을 먼저 추출한 다음, 원본과 함께 입력하여 이상 탐지 성능을 개선하고자 하였다. 또한 1. 제조 공정 정보, 2. CoT 유도를 통해 모델이 단순히 Y/N으로 이상을 탐지하지 않고, 그에 따른 근거 및 구체적인 추론을 기반으로 이상 예측을 수행하였다.
MoXpert도 Triad와 비슷하게 도메인 지식과 추론 과정을 쓰지만, 이미지 입력의 개선이나 ROI 추출을 요구하지는 않는다. 또한 1. 도메인 지식, 2. 추론 전문가, 3. 정상 이미지 참고의 테크닉을 한번에 모두 사용하는 것이 아니라, Router Network를 통해 필요한 정보만 제때 골라쓰는 방식을 고안하였다. Triad는 VLM을 이상 데이터에 대해 추가 학습해야하기 때문에 큰 연산 비용이 요구되지만, MoXpert는 Router 만 학습하면 된다는 장점을 가진다.
VERA의 경우, 멀티 에이전트 시스템을 도입하여 이상 탐지 질문 프롬프트를 고도화하고자 하였다. Learner는 특정 질문 프롬프트에 대해 이상 예측을 수행하고, Optimizer는 Learner가 산출한 이상 탐지 스코어 및 실제 정답과 비교하여 Learner가 더 탐지하기 쉽도록 새로운 질문 프롬프트를 만들어낸다. 강화학습의 actor-critic과 비슷하다는 느낌이 들었다.
내용이 상당히 알찼던 것 같다. 세미나를 만드느라 고생한 성수에게 감사의 말을 전한다.
정재우
본 세미나는 VLM을 활용한 비디오 이상 탐지 기술의 진화 과정을 고찰하였다. 초기 LLaVA는 고정된 CLIP 인코더와 Vicuna LLM을 결합하여 객체 위치 정보 기반의 데이터 생성 파이프라인을 구축했으며, Video LLaVA는 이를 비디오 영역으로 확장하였다.
2025년 등장한 MMAD의 성능 한계를 극복하기 위해 제안된 Triad는 관심 영역 추출(EG-ROI)과 제조 공정 정보(MPG) 주입, CoT 방식의 정밀한 미세 조정을 통해 모델의 이해도를 높였다. 특히 정확한 크롭과 사전 파인 튜닝이 성능 향상의 핵심임을 입증하였다.
또한 최신 연구인 MoxPERT(2026)는 지식 가이드, 추론 전문가, 참조 추출기 등 다중 전문가 모델을 도입하였는데, 이때 라우터 네트워크란 전문가 선택 학습 모델을 통해 상황에 적합한 외부 지식을 선택적으로 주입함으로써 산업 현장의 도메인 지식 부족 문제를 해결한 점이 인상 깊었다. 아울러 VERA(2025)는 별도의 학습 없이 러너와 옵티마이저 에이전트 간의 피드백 루프를 통해 추론 질문을 고도화하여 인간의 디스크립션보다 높은 성능을 달성하였다.
결론적으로 차세대 비디오 이상 탐지는 정교한 데이터 전처리, 전문가 지식의 전략적 활용, 그리고 언어적 추론의 최적화를 통해 지속적으로 발전하는 것을 확인할 수 있었고 무엇보다 기존 LLM처럼 파라미터 수를 늘리거나 전체 학습 과정 없이, 디스크립션 및 전문가 추론 매커니즘만으로 획기적인 이상 탐지 성능 향상을 확보한 결과가 놀라웠다.
근래 발표된 VLM 모델들은 산업 및 현실 세계에서 활발히 적용되거나 시도되고 잇는 추세인 것 같다. 특히 프로젝트에 참여하며 이상 탐지에 파운데이션 VLM을 접목시키고자 하는 시도를 하고 있는데, 최근 연구 동향과 여러 테크닉을 알 수 있었고 여러 인사이트를 얻을 수 있었던 세미나였다. 마지막으로 세미나를 준비하신 김성수 선배님께 감사의 말씀을 올리며 세미나 후기를 마치겠다.
김수림
본 세미나는 Foundation VLM의 발전 과정부터 최근 VLM 기반 이상 탐지 연구까지 전반적인 흐름을 소개하며, 대표적인 방법론 3가지(Traid, MoXpert, VERA)를 소개하였다. 세 방법론 모두 모델을 스크래치부터 학습하는 것이 아닌, 이미 잘 만들어진 Foundation 모델을 활용하고 입력 데이터 개선이나 약간의 미세조정을 통해 효율적으로 성능을 향상시켰다.
Traid는 이미지와 텍스트 입력 정보를 보강하고 VLM 파인튜닝을 적용하였다. 특히 이상 이미지에 대해 vision expert를 활용하여 이상 상황에 대한 추가 정보를 풍부하게 입력해 준 점이 인상적이었다.
MoXpert는 training-free 방식으로, 3가지 전문가(지식 주입, 추론 유도, 정상 이미지 참조)를 통해 학습 없이 입력 정보를 개선하는 접근법을 제시하였다. 특히, 세 전문가를 모두 동시에 사용하면 오히려 모델에 혼란을 줄 수 있다는 점을 고려해 router network를 통해 상황에 맞는 최적의 전문가 조합을 선택하도록 설계한 점이 흥미로웠다.
VERA는 단순한 질문만으로는 비디오 이상 탐지를 수행하기 어렵다는 한계를 해결하기 위해 Learner와 Optimizer라는 VLM Agent를 정의하여 최적의 이상 탐지 질문을 도출하였다. 추가적인 모델 학습 없이 프롬프트 생성과 최적화 과정을 통해 성능을 향상시킨 접근법이다.
최근 관련 프로젝트를 진행하면서 Foundation VLM 모델에 대한 관심이 높아졌는데, 이번 세미나를 통해 프로젝트에 적용할 수 있는 다양한 인사이트를 얻을 수 있었다. VLM 기반 이상 탐지 연구 동향을 이해하기 쉽고 알차게 정리해 준 유익한 세미나였다. 좋은 세미나를 준비해 준 김성수 연구원께 고맙다는 말을 남기며 본 세미나 후기를 마친다.
김현이
이번 세미나는 foundation vision-language model(VLM)을 활용한 이미지 및 비디오 이상탐지 연구 흐름을 소개하는 내용이었다. 기존 vision 기반 이상탐지는 시각적 정보에만 의존하기 때문에 이미지와 비디오의 semantic한 맥락을 충분히 반영하기 어렵다는 한계가 있는데, 이를 보완하기 위해 최근에는 CLIP, LLaVA, Video-LLaVA와 같은 VLM을 활용한 연구가 활발히 이루어지고 있음을 알 수 있었다. 특히 이번 세미나에서는 VLM 기반 이상탐지 분야의 대표적인 벤치마크와 최신 방법론들을 함께 다루며, 최근 연구 흐름을 전반적으로 이해할 수 있도록 구성된 점이 인상적이었다.
세미나에서 소개된 방법론들은 각각 서로 다른 방식으로 VLM 기반 이상탐지 성능을 높이고자 했다. MMAD를 통해서는 VLM 기반 산업 이상탐지 연구의 전반적인 가능성과 한계를 살펴볼 수 있었고, Triad는 이상 의심 영역과 제조 공정 정보를 함께 활용해 VLM의 이해를 보완하고자 했다는 점이 인상적이었다. 또한 MoXpert는 다양한 전문가를 조합하여 필요한 정보만 선택적으로 활용하는 방향으로 성능 향상을 시도했고, VERA는 질문 자체를 더 정교하게 최적화함으로써 비디오 이상탐지 성능을 높인다는 점이 흥미로웠다. 각 연구가 입력 보완, 외부 지식 활용, 프롬프트 최적화 등 서로 다른 관점에서 문제를 해결하고 있다는 점이 특히 기억에 남았다.
무엇보다 이번 세미나는 평소 내가 관심을 가지고 있던 VLM 기반 이상탐지 주제를 다루고 있어 더욱 흥미롭게 들을 수 있었다. 세미나를 들으며 VLM 기반 이상탐지에서는 단순히 모델 자체의 규모뿐 아니라, 어떤 정보를 함께 활용하고 어떻게 보완해 입력하느냐도 중요한 요소가 될 수 있다는 점을 느꼈다. 특히 작은 이상 영역을 잘 반영하는 입력 구성, 도메인 지식 주입, 프롬프트 최적화와 같은 전략이 실제 성능 향상에 큰 역할을 할 수 있다는 점이 인상적이었다. 최근 관련 연구와 프로젝트를 살펴보며 관심이 커지고 있었던 주제였던 만큼, 이번 세미나를 통해 더 구체적인 방향성과 여러 인사이트를 얻을 수 있었다.
전반적으로 최근 VLM 기반 이상탐지 연구 동향을 이해하는 데 도움이 되었던 유익한 세미나였다. 관심 있던 주제를 체계적으로 정리해 들을 수 있어 더욱 의미 있게 느껴졌고, 앞으로도 이러한 방향의 연구를 계속 관심 있게 보고 싶다는 생각이 들었다. 좋은 세미나를 준비해주신 김성수 선배님께 고마움을 전하며 세미나 후기를 마친다.
손병우
본 세미나는 VLM의 발전 흐름(CLIP, LLaVA, Video-LLM)과 함께 이를 이상 탐지 문제에 적용하는 벤치마크(MMAD) 및 3가지 방법론의 접근(Triad, MoXpert, VERA) 을 소개하였다.
먼저 VLM의 기본적인 모델로 여겨지는 CLIP은, 이미지와 텍스트 임베딩을 정렬하는 대조학습 기반 모델로, 두 모달리티 간 유사도를 비교하는 데 강점을 가진다. 이후 등장한 LLaVA는 Image와 Instruction 형태의 데이터로 학습되어 다양한 질문에 응답할 수 있는 VLM으로 확장되었으며, Video-LLaVA는 이를 비디오까지 확장한 모델이다. 이러한 흐름 속에서 파운데이션 VLM의 이상 탐지 성능을 평가하기 위해 제안된 MMAD 벤치마크는 아직 이상탐지 task 에서의 VLM이 인간 전문가 수준에는 미치지 못해 추가적인 연구 필요성을 보여주었다.
이후 세미나에서는 VLM 기반 이상 탐지 방법론인 Triad, MoXpert, VERA를 소개하였다.
Triad는 이미지와 텍스트 입력을 모두 개선하는 접근으로, Vision Expert를 활용해 이상 의심 영역을 crop하여 원본과 함께 입력하고, 제조 공정 정보와 CoT 추론을 텍스트 프롬프트에 추가한다. 그러나 모델 전체를 미세조정해야 하기 때문에 높은 성능을 얻을 수 있는 대신 상당한 연산 비용이 요구된다는 특징이 있다.
MoXpert는 training-free의 방식으로, 세 가지 전문가 모듈을 활용한다. Knowledge Guide는 도메인 지식을 추가하고, Reasoning Expert는 추론 과정을 강화하며, Reference Extractor는 정상 이미지를 함께 제공하여 비교를 돕는다. 또한 MoE 방식과 비슷하게 Router Network를 통해 어떤 전문가 정보를 사용할지 선택하도록 하여 불필요한 정보를 줄이고 성능을 개선한다.
마지막으로 VERA는 비디오 기반 이상 탐지에서 질문 프롬프트를 최적화하는 접근을 제안한다. Learner Agent가 비디오와 질문을 기반으로 이상 여부를 예측하면, Optimizer Agent가 예측 결과와 정답을 비교하여 더 효과적인 질문을 생성한다. 이러한 과정을 반복하면서 점차 성능이 좋은 질문 프롬프트를 찾아가는 구조로, 사람이 작성한 질문보다도 높은 성능을 보이기도 한다.
이러한 방식으로, VLM 기반 이상 탐지는 모델 자체를 학습하는 방식(Triad), 입력 정보와 도메인 지식을 강화하는 방식(MoXpert), 질문 프롬프트를 최적화하는 방식(VERA)과 같이 다양한 전략으로 지속해서 발전하고 있음을 확인할 수 있었다.
최근 CLIP과 같은 파운데이션 VLM에서의 효율적 학습을 위한 이미지/텍스트 Prompt Tuning 연구에 많은 관심을 가지고 있는데, 본 세미나를 통해 VLM을 활용한 이상 탐지 분야의 적용 사례와 함께 VLM 학습을 위한 다양한 접근 방식에 대한 인사이트를 얻을 수 있었다. 특정 도메인에서 VLM을 어떻게 적용할 수 있는지 이해하는 데 큰 도움이 되었던 유익한 세미나였으며, 이렇게 좋은 세미나를 준비해주신 김성수 선배님께 감사의 말씀을 올리며 세미나 후기를 마친다.