- 2025년 7월 5일 오전 10:48
- 조회수: 456
INFORMATION
- 2025년 7월 4일
- 오후 12시 ~
온라인 비디오 시청 (YouTube)
김지현
TOPIC
On-Line Video
OVERVIEW
청취자 후기
김성수
이번 세미나는 Vision-Language Model (VLM)의 Test-time Adaptation (TTA)에 대해 진행되었다. 그 중에서도 Language 모달리티의 Prompt를 튜닝하는 방법론들을 다룬다. VLM을 활용한 분류 시, 단순한 프롬프트 템플릿 차이만으로도 성능이 크게 좌우된다. 이에 따라, 최근 연구들은 이러한 프롬프트를 학습하고자 한다. 초창기에는 Labeled 데이터 기반 Few-shot Learning으로 프롬프트를 튜닝했고, 최근에는 학습 데이터셋이라는 컨셉에서 벗어나 오로지 추론 시점에 개별 테스트 데이터만으로 약간의 학습을 수행한다 (TTA 방식). 이때, TTA 연구들은 테스트 이미지마다 이러한 프롬프트를 초기화 후 진행하지만, 최근에는 초기화하지 말고 활용하자는 연구가 최근에 나왔다. DynaPrompt는 이를 위해 여러가지 프롬프트를 버퍼에 저장하고, 이미지에 적합한 프롬프트를 각 테스트 이미지마다 선정하여 학습한다. 이때, 선정 기준은 예측 엔트로피와 원본 이미지 및 증강 이미지 간 예측 차이 2가지를 활용한다. 개인적으로는 DynaPrompt가 Computational Cost 대비 성능이 아쉬웠다. 2가지 필터링 지표를 측정해야하고, 버퍼 저장 및 폐기, 유사한 프롬프트 식별 등을 모두 테스트 시점에 수행하기에 TPT보다 많은 계산량이 필요하지만, 오직 0.42%의 성능 증가는 다소 아쉽게 다가왔다. 유익한 세미나를 준비해준 김지현 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.
김혜준
이번 세미나에서는 대규모 사전학습 vision-language model의 한계와 이를 보완하기 위한 prompt tuning 계열 방법들을 체계적으로 정리해줘서 전체 흐름을 이해하는 데 도움이 되었다. 특히 기존의 prompt tuning에서 시작해, test 단계에서 입력마다 prompt를 조정하는 test-time prompt tuning, 더 나아가 연속적으로 들어오는 데이터 스트림에 적응하는 online test-time prompt tuning까지 이어지는 TTA 분야의 진화 과정을 한 흐름으로 볼 수 있어서 흥미로웠다. 또한 DynaPrompt처럼 프롬프트 튜닝을 정적으로 두지 않고 상황에 따라 동적으로 조정하는 아이디어도 매우 인상적이었다. 다만 성수선배의 코멘트와 비슷하게, 이러한 방식이 보여주는 성능 향상 자체는 분명 의미가 있지만 그에 비해 시간과 메모리 등 자원 소모가 상당히 큰 점은 다소 아쉽게 느껴졌다. 전체적으로는 최근 VLM 적응 기법의 발전 방향과 한계를 함께 생각해볼 수 있었던 유익한 세미나였다.