고려대학교 DMQA 연구실

Zero-shot Out-of-Distribution Detection in Vision-Language Models using Prompt Engineering

2025년 7월 18일 오전 9:46
조회수: 215

REFERENCES

[OpenSem-250725] Zero-shot Out-of-Distribution Detection in Vision-Language Models using Prompt Engineering.pdf

INFORMATION

2025년 7월 25일
오전 12시 ~
온라인 비디오 시청 (YouTube)

발표자:

김성수

TOPIC

Zero-shot Out-of-Distribution Detection in Vision-Language Models using Prompt Engineering

On-Line Video

OVERVIEW

요약: 최근 인공지능 분야에서 Safe AI는 중요한 이슈로 떠오르고 있다. 이는 단순히 우수한 모델의 예측 성능뿐만 아니라, 안전한 인공지능 활용에 대한 필요성이 커지고 있기 때문이다. 이러한 흐름 속에서 주목 받는 분야 중 하나가 바로 Out-of-Distribution (OOD) Detection이다. 이미지 데이터에 대한 OOD Detection은 학습되지 않은 클래스를 탐지하는 기술로, 기존에는 이미지 기반 Vision 모델에 의존한 연구가 주를 이루었다. 하지만 최근 Vision-Language Model (VLM)이 등장하면서, 이미지뿐만 아니라 텍스트 정보를 함께 활용하려는 시도가 활발해지고 있다. 이는 최신 VLM이 수억 개의 대규모 데이터로 사전 학습되어, 별도의 추가 학습 없이도 높은 성능을 발휘할 수 있기 때문이다. 이때, 이러한 강력한 사전학습 모델의 지식을 학습 없이 효과적으로 활용하기 위한 방법으로, Prompt Engineering이 주목 받고 있다. 본 세미나에서는 VLM을 기반으로, 추가 학습 없이 Prompt Engineering만을 활용하여 Zero-shot으로 OOD Detection을 수행하는 연구들을 소개하고자 한다.

참고자료:

[1] Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021, July). Learning transferable visual models from natural language supervision. In International conference on machine learning (pp. 8748-8763). PmLR.

[2] Hendrycks, D., & Gimpel, K. (2017, February). A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks. In International Conference on Learning Representations.

[3] Miyai, A., Yu, Q., Irie, G., & Aizawa, K. (2023). Locoop: Few-shot out-of-distribution detection via prompt learning. Advances in Neural Information Processing Systems, 36, 76298-76310.

[4] Ming, Y., Cai, Z., Gu, J., Sun, Y., Li, W., & Li, Y. (2022). Delving into out-of-distribution detection with vision-language representations. Advances in neural information processing systems, 35, 35087-35102.

[5] Esmaeilpour, S., Liu, B., Robertson, E., & Shu, L. (2022, June). Zero-shot out-of-distribution detection based on the pre-trained model clip. In Proceedings of the AAAI conference on artificial intelligence (Vol. 36, No. 6, pp. 6568-6576).

[6] Jiang, X., Liu, F., Fang, Z., Chen, H., Liu, T., Zheng, F., & Han, B. (2024) Negative Label Guided OOD Detection with Pretrained Vision-Language Models. In The Twelfth International Conference on Learning Representations.

[7] Wang, H., Li, Y., Yao, H., & Li, X. (2023). Clipn for zero-shot ood detection: Teaching clip to say no. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 1802-1812).

청취자 후기

이정민

최근 LLM에 이어 비전과 텍스트를 결합한 Vision-Language Model (VLM)이 각광을 받고 있다. 우리 연구실에서도 몇 몇 연구원들이 VLM을 활용하여 연구를 하고 있는 것으로 알고 있는데, 이번 세미나를 통해 VLM의 활용성에 대해 조금이나마 알 수 있었다.
CLIP은 대표적인 VLM 중 하나로, 대조 학습 기반으로 대량의 데이터를 사용하여 사전 학습되었다. 심플하게, pair인 텍스트-이미지는 positive, 그 외는 negative로 정의하여 대조 학습이 사용된다. MCM은 단순히 이미지-텍스트 간 최대 유사도를 계산한 후, 유사도가 threshold보다 낮다면 OOD로 판단한다. 이를 보다 발전시켜, ZOC는 테스트 이미지 내에서 객체 인식을 먼저 수행한 후, 추출된 키워드 텍스트를 텍스트 후보군에 추가한 후 유사도를 계산하게 된다. NegLabel은 아예 별도의 OOD class를 정의하게 되는데, WordNet 데이터베이스에서 ID class에 없는 class들을 OOD로 정의한다. 마지막으로 CLIPN은 No Text Encoder를 추가 적용하여, 이로부터 나온 확률 값을 최종 OOD Score에 반영하도록 한다. 그러나 개인적으로는 굳이 No Text Encoder를 추가로 학습하면서까지 사용한다는 것이 크게 와닿지는 않았다. 방법론이 제안 된 순서를 보니 CLIPN보다 NegLabel이 더 후에 나온 것으로 보았고, No Text Encoder를 사용하는 아이디어가 이 후에 과연 더 발전될까 싶긴 하다.
이번 세미나를 통해 VLM을 활용한 OOD detection 연구들에 대해 알 수 있었다. 세미나를 들으면서 좋았던 것은, 중간 중간 왜 굳이 이렇게 하지? 이게 무슨 의미지? 싶을 때마다 바로 이어 그런 궁금증을 해소 시켜주는 장표가 나왔던 점이다. 방법론들도 직관적으로 이해하기가 상대적으로 용이해서 듣기 편했던 세미나였다. 좋은 세미나를 준비하느라 고생한 성수에게 고맙다는 말을 전하며, 본 세미나 후기를 마친다.

Seminar