- 2025년 7월 5일 오전 10:48
- 조회수: 510
INFORMATION
- 2025년 7월 4일
- 오후 12시 ~
온라인 비디오 시청 (YouTube)
김지현
TOPIC
On-Line Video
OVERVIEW
청취자 후기
김성수
이번 세미나는 Vision-Language Model (VLM)의 Test-time Adaptation (TTA)에 대해 진행되었다. 그 중에서도 Language 모달리티의 Prompt를 튜닝하는 방법론들을 다룬다. VLM을 활용한 분류 시, 단순한 프롬프트 템플릿 차이만으로도 성능이 크게 좌우된다. 이에 따라, 최근 연구들은 이러한 프롬프트를 학습하고자 한다. 초창기에는 Labeled 데이터 기반 Few-shot Learning으로 프롬프트를 튜닝했고, 최근에는 학습 데이터셋이라는 컨셉에서 벗어나 오로지 추론 시점에 개별 테스트 데이터만으로 약간의 학습을 수행한다 (TTA 방식). 이때, TTA 연구들은 테스트 이미지마다 이러한 프롬프트를 초기화 후 진행하지만, 최근에는 초기화하지 말고 활용하자는 연구가 최근에 나왔다. DynaPrompt는 이를 위해 여러가지 프롬프트를 버퍼에 저장하고, 이미지에 적합한 프롬프트를 각 테스트 이미지마다 선정하여 학습한다. 이때, 선정 기준은 예측 엔트로피와 원본 이미지 및 증강 이미지 간 예측 차이 2가지를 활용한다. 개인적으로는 DynaPrompt가 Computational Cost 대비 성능이 아쉬웠다. 2가지 필터링 지표를 측정해야하고, 버퍼 저장 및 폐기, 유사한 프롬프트 식별 등을 모두 테스트 시점에 수행하기에 TPT보다 많은 계산량이 필요하지만, 오직 0.42%의 성능 증가는 다소 아쉽게 다가왔다. 유익한 세미나를 준비해준 김지현 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.
김혜준
이번 세미나에서는 대규모 사전학습 vision-language model의 한계와 이를 보완하기 위한 prompt tuning 계열 방법들을 체계적으로 정리해줘서 전체 흐름을 이해하는 데 도움이 되었다. 특히 기존의 prompt tuning에서 시작해, test 단계에서 입력마다 prompt를 조정하는 test-time prompt tuning, 더 나아가 연속적으로 들어오는 데이터 스트림에 적응하는 online test-time prompt tuning까지 이어지는 TTA 분야의 진화 과정을 한 흐름으로 볼 수 있어서 흥미로웠다. 또한 DynaPrompt처럼 프롬프트 튜닝을 정적으로 두지 않고 상황에 따라 동적으로 조정하는 아이디어도 매우 인상적이었다. 다만 성수선배의 코멘트와 비슷하게, 이러한 방식이 보여주는 성능 향상 자체는 분명 의미가 있지만 그에 비해 시간과 메모리 등 자원 소모가 상당히 큰 점은 다소 아쉽게 느껴졌다. 전체적으로는 최근 VLM 적응 기법의 발전 방향과 한계를 함께 생각해볼 수 있었던 유익한 세미나였다.
김현이
이번 세미나는 VLM에서의 Test-Time Prompt Tuning을 주제로 진행되었다. VLM은 prompt template에 따라 zero-shot classification 성능이 크게 달라질 수 있다. 따라서 hand-crafted prompt의 한계를 극복하기 위한 prompt tuning 방법들이 제안되어 왔다. 이번 세미나에서는 CoOp, TPT, DynaPrompt의 흐름을 살펴볼 수 있었다.
(1) CoOp는 hand-crafted prompt를 사용하는 대신, prompt의 context token을 learnable parameter로 두고 labeled downstream training data를 활용해 최적화하는 방법이다. 이를 통해 수작업 prompt보다 높은 성능을 얻을 수 있지만, 결국 labeled data가 필요하고 특정 downstream distribution에 맞게 학습되기 때문에 generalization 측면에서는 한계가 존재한다.
(2) TPT는 이러한 한계를 줄이기 위해, unlabeled single test image만을 이용해 test-time에 prompt를 tuning하는 방법이다. 하나의 test image를 여러 번 augmentation하고, confidence가 높은 view를 활용하여 consistency regularization 기반으로 prompt를 업데이트한다. 다만 매 test sample마다 prompt를 초기화하기 때문에, 이전 test sample에서 얻은 정보나 test sample 간의 관련성을 활용하지 못한다는 한계가 있다.
(3) DynaPrompt는 TPT의 한계를 보완하기 위해 prompt buffer를 활용한다. 이전 test sample에서 얻은 prompt 정보를 buffer에 저장한다. 새로운 test sample이 들어오면 해당 sample에 적합한 prompt를 선택한 뒤 tuning을 수행한다. 이때 단순히 confidence만 보는 것이 아니라, prediction entropy와 원본 - augmentation 간 probability difference를 함께 고려하여 prompt collapse와 error accumulation을 완화하려 한다. 특히 과거 정보를 무작정 누적하는 것이 아니라, 현재 sample에 유용한 prompt를 동적으로 선택한다는 점이 핵심이다.
정리하면, 이번 세미나는 VLM에서 prompt를 어떻게 활용하고 적응시킬 것인지에 대한 흐름을 잘 보여주었다. CoOp는 labeled data 기반 prompt tuning, TPT는 single test sample 기반 test-time prompt tuning, DynaPrompt는 prompt buffer를 활용한 online test-time prompt tuning으로 이해할 수 있었다. 세미나를 들으며 VLM의 성능 향상에서 prompt가 얼마나 중요한 역할을 하는지 다시 느낄 수 있었다. 복잡한 흐름을 직관적인 PPT와 설명으로 이해하기 쉽게 전달해주셔서 감탄하며 청취하였다. 역시 지현 선배님께 배울 점이 많다고 느꼈다. 좋은 세미나를 준비해주신 지현 선배님께 감사드리며 후기를 마친다.
손병우
최근 VLM 및 CLIP 기반 prompt tuning 연구에 관심을 가지며 본 세미나를 청취하게 되었고, 이번 세미나는 CoOp → TPT → DynaPrompt 로 이어지는 prompt tuning 방법론의 발전 흐름을 중심으로 다루고 있었다.
먼저 (1) CoOp 는 기존 CLIP 의 handcrafted prompt 가 최적이 아닐 수 있다는 문제에서 출발한다. CLIP 은 text prompt 를 이용해 zero-shot classification 이 가능하지만, prompt 문장에 따라 성능이 크게 달라질 수 있다. CoOp 는 이를 해결하기 위해 prompt 를 직접 설계하는 대신, learnable context token 을 학습하여 task 에 더 적합한 prompt 를 찾는다. 이를 통해 few-shot setting 에서도 기존 zero-shot CLIP 이나 Linear Probe CLIP 보다 좋은 성능을 보일 수 있음을 확인할 수 있었다.
하지만 CoOp 는 학습을 위해 labeled training data 가 필요하다는 한계가 있다. 실제 test 환경에서는 target domain 의 데이터를 미리 알 수 없기 때문에, test sample 만으로 prompt 를 조정할 수 있는 방법이 필요하다.
이러한 배경에서 등장한 것이 (2) TPT(Test-Time Prompt Tuning) 이다. TPT 는 하나의 unlabeled test image 에 여러 augmentation 을 적용하고, confidence 가 높은 augmentation 만 선별한 뒤 entropy minimization 을 수행하여 test-time 에 prompt 를 최적화한다. 즉, 별도의 training data 없이 test sample 자체를 활용해 prompt 를 조정한다는 점에서 의미가 있었다. 이후 TPT 를 online 방식으로 확장하면 이전 test sample 에서 얻은 정보를 계속 누적해 더 좋아질 것처럼 보이지만, 실제로는 잘못된 예측이 함께 누적되며 error accumulation 과 prompt collapse 문제가 발생할 수 있다.
이를 해결하기 위해 제안된 방법이 (3) DynaPrompt 이다. DynaPrompt 는 prompt buffer 를 두고, 이전 prompt history 중 유용한 prompt 만 선택적으로 저장하고 활용한다. 또한 단순히 entropy 가 낮은 prompt 를 선택하는 것이 아니라, augmentation 과 original image 간 prediction probability 차이를 함께 고려하여 과신된 prompt 를 걸러내고 안정적인 online adaptation 을 가능하게 한다.
이번 세미나를 통해 prompt tuning이 handcrafted prompt의 한계를 극복하는 CoOp, training data 없이 test sample만으로 적응하는 TPT, 그리고 online 환경에서 error accumulation을 제어하는 DynaPrompt로 발전해 왔다는 흐름을 이해할 수 있었다. 기존에 CoOp 기반 연구를 진행하면서도 test-time 상황에서의 prompt tuning에 대해서는 깊이 알지 못했는데, 이번 세미나를 계기로 관련 연구 흐름을 자세히 이해할 수 있었다. 좋은 내용을 체계적으로 설명해주신 김지현 선배님께 감사의 인사를 전하고 싶다.