- 2025년 7월 18일 오전 9:46
- 조회수: 215
INFORMATION
- 2025년 7월 25일
- 오전 12시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
청취자 후기

최근 LLM에 이어 비전과 텍스트를 결합한 Vision-Language Model (VLM)이 각광을 받고 있다. 우리 연구실에서도 몇 몇 연구원들이 VLM을 활용하여 연구를 하고 있는 것으로 알고 있는데, 이번 세미나를 통해 VLM의 활용성에 대해 조금이나마 알 수 있었다.
CLIP은 대표적인 VLM 중 하나로, 대조 학습 기반으로 대량의 데이터를 사용하여 사전 학습되었다. 심플하게, pair인 텍스트-이미지는 positive, 그 외는 negative로 정의하여 대조 학습이 사용된다. MCM은 단순히 이미지-텍스트 간 최대 유사도를 계산한 후, 유사도가 threshold보다 낮다면 OOD로 판단한다. 이를 보다 발전시켜, ZOC는 테스트 이미지 내에서 객체 인식을 먼저 수행한 후, 추출된 키워드 텍스트를 텍스트 후보군에 추가한 후 유사도를 계산하게 된다. NegLabel은 아예 별도의 OOD class를 정의하게 되는데, WordNet 데이터베이스에서 ID class에 없는 class들을 OOD로 정의한다. 마지막으로 CLIPN은 No Text Encoder를 추가 적용하여, 이로부터 나온 확률 값을 최종 OOD Score에 반영하도록 한다. 그러나 개인적으로는 굳이 No Text Encoder를 추가로 학습하면서까지 사용한다는 것이 크게 와닿지는 않았다. 방법론이 제안 된 순서를 보니 CLIPN보다 NegLabel이 더 후에 나온 것으로 보았고, No Text Encoder를 사용하는 아이디어가 이 후에 과연 더 발전될까 싶긴 하다.
이번 세미나를 통해 VLM을 활용한 OOD detection 연구들에 대해 알 수 있었다. 세미나를 들으면서 좋았던 것은, 중간 중간 왜 굳이 이렇게 하지? 이게 무슨 의미지? 싶을 때마다 바로 이어 그런 궁금증을 해소 시켜주는 장표가 나왔던 점이다. 방법론들도 직관적으로 이해하기가 상대적으로 용이해서 듣기 편했던 세미나였다. 좋은 세미나를 준비하느라 고생한 성수에게 고맙다는 말을 전하며, 본 세미나 후기를 마친다.