Test-Time Prompt Tuning in Vision-Language Models
- 2025년 7월 5일 오전 10:48
- 조회수: 56
INFORMATION
- 2025년 7월 4일
- 오후 12시 ~
온라인 비디오 시청 (YouTube)
발표자:
김지현

TOPIC
Test-Time Prompt Tuning in Vision-Language Models
On-Line Video
OVERVIEW
요약: 대규모 사전학습 vision-language models은 강력한 zero-shot 성능을 보이지만, 특정 downstream task나 도메인에서는 여전히 성능 저하가 발생하는 한계가 있다. 이를 보완하기 위한 방법으로, 소수 파라미터만을 최적화하여 적은 자원으로 성능을 향상시키는 prompt tuning 기법들이 제안되어 왔다[1]. 한편, 최근에는 별도의 training data를 이용한 prompt 학습 없이 test 단계에서 주어진 입력 이미지에 대해 prompt를 최적화하는 test-time prompt tuning이 새롭게 주목받고 있다[2]. 본 세미나에서는 prompt tuning의 기본 개념을 시작으로, test-time prompt tuning에 대한 대표 방법론과 함께 연속적으로 입력되는 test 데이터 스트림에 대해 지속적으로 적응하는 online test-time prompt tuning 기법[3]까지 최근 연구 동향을 살펴보고자 한다.
참고자료:
[1] Zhou, K., Yang, J., Loy, C. C., & Liu, Z. (2022). Conditional prompt learning for vision-language models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 16816-16825).
[2] Shu, M., Nie, W., Huang, D. A., Yu, Z., Goldstein, T., Anandkumar, A., & Xiao, C. (2022). Test-time prompt tuning for zero-shot generalization in vision-language models. Advances in Neural Information Processing Systems, 35, 14274-14289.
[3] Xiao, Z., Yan, S., Hong, J., Cai, J., Jiang, X., Hu, Y., ... & Snoek, C. G. (2025). DynaPrompt: Dynamic Test-Time Prompt Tuning. Internetional Conference on Learning Representations.