Zero-shot Out-of-Distribution Detection in Vision-Language Models using Prompt Engineering
- 2025년 7월 18일 오전 9:46
- 조회수: 24
INFORMATION
- 2025년 7월 25일
- 오전 12시 ~
온라인 비디오 시청 (YouTube)
발표자:
김성수

TOPIC
Zero-shot Out-of-Distribution Detection in Vision-Language Models using Prompt Engineering
On-Line Video
OVERVIEW
요약: 최근 인공지능 분야에서 Safe AI는 중요한 이슈로 떠오르고 있다. 이는 단순히 우수한 모델의 예측 성능뿐만 아니라, 안전한 인공지능 활용에 대한 필요성이 커지고 있기 때문이다. 이러한 흐름 속에서 주목 받는 분야 중 하나가 바로 Out-of-Distribution (OOD) Detection이다. 이미지 데이터에 대한 OOD Detection은 학습되지 않은 클래스를 탐지하는 기술로, 기존에는 이미지 기반 Vision 모델에 의존한 연구가 주를 이루었다. 하지만 최근 Vision-Language Model (VLM)이 등장하면서, 이미지뿐만 아니라 텍스트 정보를 함께 활용하려는 시도가 활발해지고 있다. 이는 최신 VLM이 수억 개의 대규모 데이터로 사전 학습되어, 별도의 추가 학습 없이도 높은 성능을 발휘할 수 있기 때문이다. 이때, 이러한 강력한 사전학습 모델의 지식을 학습 없이 효과적으로 활용하기 위한 방법으로, Prompt Engineering이 주목 받고 있다. 본 세미나에서는 VLM을 기반으로, 추가 학습 없이 Prompt Engineering만을 활용하여 Zero-shot으로 OOD Detection을 수행하는 연구들을 소개하고자 한다.
참고자료:
[1] Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021, July). Learning transferable visual models from natural language supervision. In International conference on machine learning (pp. 8748-8763). PmLR.
[2] Hendrycks, D., & Gimpel, K. (2017, February). A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks. In International Conference on Learning Representations.
[3] Miyai, A., Yu, Q., Irie, G., & Aizawa, K. (2023). Locoop: Few-shot out-of-distribution detection via prompt learning. Advances in Neural Information Processing Systems, 36, 76298-76310.
[4] Ming, Y., Cai, Z., Gu, J., Sun, Y., Li, W., & Li, Y. (2022). Delving into out-of-distribution detection with vision-language representations. Advances in neural information processing systems, 35, 35087-35102.
[5] Esmaeilpour, S., Liu, B., Robertson, E., & Shu, L. (2022, June). Zero-shot out-of-distribution detection based on the pre-trained model clip. In Proceedings of the AAAI conference on artificial intelligence (Vol. 36, No. 6, pp. 6568-6576).
[6] Jiang, X., Liu, F., Fang, Z., Chen, H., Liu, T., Zheng, F., & Han, B. (2024) Negative Label Guided OOD Detection with Pretrained Vision-Language Models. In The Twelfth International Conference on Learning Representations.
[7] Wang, H., Li, Y., Yao, H., & Li, X. (2023). Clipn for zero-shot ood detection: Teaching clip to say no. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 1802-1812).