고려대학교 DMQA 연구실

Test-Time Prompt Tuning in Vision-Language Models

2025년 7월 5일 오전 10:48
조회수: 391

REFERENCES

[250704 DMQA Open Seminar] Test-Time Prompt Tuning in Vision-Language Models - 김지현.pdf

INFORMATION

2025년 7월 4일
오후 12시 ~
온라인 비디오 시청 (YouTube)

발표자:

김지현

TOPIC

Test-Time Prompt Tuning in Vision-Language Models

On-Line Video

OVERVIEW

요약: 대규모 사전학습 vision-language models은 강력한 zero-shot 성능을 보이지만, 특정 downstream task나 도메인에서는 여전히 성능 저하가 발생하는 한계가 있다. 이를 보완하기 위한 방법으로, 소수 파라미터만을 최적화하여 적은 자원으로 성능을 향상시키는 prompt tuning 기법들이 제안되어 왔다[1]. 한편, 최근에는 별도의 training data를 이용한 prompt 학습 없이 test 단계에서 주어진 입력 이미지에 대해 prompt를 최적화하는 test-time prompt tuning이 새롭게 주목받고 있다[2]. 본 세미나에서는 prompt tuning의 기본 개념을 시작으로, test-time prompt tuning에 대한 대표 방법론과 함께 연속적으로 입력되는 test 데이터 스트림에 대해 지속적으로 적응하는 online test-time prompt tuning 기법[3]까지 최근 연구 동향을 살펴보고자 한다.

참고자료:

[1] Zhou, K., Yang, J., Loy, C. C., & Liu, Z. (2022). Conditional prompt learning for vision-language models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 16816-16825).

[2] Shu, M., Nie, W., Huang, D. A., Yu, Z., Goldstein, T., Anandkumar, A., & Xiao, C. (2022). Test-time prompt tuning for zero-shot generalization in vision-language models. Advances in Neural Information Processing Systems, 35, 14274-14289.

[3] Xiao, Z., Yan, S., Hong, J., Cai, J., Jiang, X., Hu, Y., ... & Snoek, C. G. (2025). DynaPrompt: Dynamic Test-Time Prompt Tuning. Internetional Conference on Learning Representations.

청취자 후기

김성수

이번 세미나는 Vision-Language Model (VLM)의 Test-time Adaptation (TTA)에 대해 진행되었다. 그 중에서도 Language 모달리티의 Prompt를 튜닝하는 방법론들을 다룬다. VLM을 활용한 분류 시, 단순한 프롬프트 템플릿 차이만으로도 성능이 크게 좌우된다. 이에 따라, 최근 연구들은 이러한 프롬프트를 학습하고자 한다. 초창기에는 Labeled 데이터 기반 Few-shot Learning으로 프롬프트를 튜닝했고, 최근에는 학습 데이터셋이라는 컨셉에서 벗어나 오로지 추론 시점에 개별 테스트 데이터만으로 약간의 학습을 수행한다 (TTA 방식). 이때, TTA 연구들은 테스트 이미지마다 이러한 프롬프트를 초기화 후 진행하지만, 최근에는 초기화하지 말고 활용하자는 연구가 최근에 나왔다. DynaPrompt는 이를 위해 여러가지 프롬프트를 버퍼에 저장하고, 이미지에 적합한 프롬프트를 각 테스트 이미지마다 선정하여 학습한다. 이때, 선정 기준은 예측 엔트로피와 원본 이미지 및 증강 이미지 간 예측 차이 2가지를 활용한다. 개인적으로는 DynaPrompt가 Computational Cost 대비 성능이 아쉬웠다. 2가지 필터링 지표를 측정해야하고, 버퍼 저장 및 폐기, 유사한 프롬프트 식별 등을 모두 테스트 시점에 수행하기에 TPT보다 많은 계산량이 필요하지만, 오직 0.42%의 성능 증가는 다소 아쉽게 다가왔다. 유익한 세미나를 준비해준 김지현 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.