- 2025년 7월 5일 오전 10:48
- 조회수: 334
INFORMATION
- 2025년 7월 4일
- 오후 12시 ~
온라인 비디오 시청 (YouTube)
김지현
TOPIC
On-Line Video
OVERVIEW
청취자 후기
김성수
이번 세미나는 Vision-Language Model (VLM)의 Test-time Adaptation (TTA)에 대해 진행되었다. 그 중에서도 Language 모달리티의 Prompt를 튜닝하는 방법론들을 다룬다. VLM을 활용한 분류 시, 단순한 프롬프트 템플릿 차이만으로도 성능이 크게 좌우된다. 이에 따라, 최근 연구들은 이러한 프롬프트를 학습하고자 한다. 초창기에는 Labeled 데이터 기반 Few-shot Learning으로 프롬프트를 튜닝했고, 최근에는 학습 데이터셋이라는 컨셉에서 벗어나 오로지 추론 시점에 개별 테스트 데이터만으로 약간의 학습을 수행한다 (TTA 방식). 이때, TTA 연구들은 테스트 이미지마다 이러한 프롬프트를 초기화 후 진행하지만, 최근에는 초기화하지 말고 활용하자는 연구가 최근에 나왔다. DynaPrompt는 이를 위해 여러가지 프롬프트를 버퍼에 저장하고, 이미지에 적합한 프롬프트를 각 테스트 이미지마다 선정하여 학습한다. 이때, 선정 기준은 예측 엔트로피와 원본 이미지 및 증강 이미지 간 예측 차이 2가지를 활용한다. 개인적으로는 DynaPrompt가 Computational Cost 대비 성능이 아쉬웠다. 2가지 필터링 지표를 측정해야하고, 버퍼 저장 및 폐기, 유사한 프롬프트 식별 등을 모두 테스트 시점에 수행하기에 TPT보다 많은 계산량이 필요하지만, 오직 0.42%의 성능 증가는 다소 아쉽게 다가왔다. 유익한 세미나를 준비해준 김지현 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.