TPT(test-time prompt tuning) Shu et al. 2022 NeurIPS에서 제안한 방법으로, 비전언어 모델 (vision-language model) CLIP (contrastive language-image pretraining)이 테스트 시점에서 발생할 수 있는 분포 변경 (distribution shift) 문제를 완화하는 것을 목표로 한다Distribution shift란 학습 데이터와 테스트 데이터의 분포가 달라져 모델 성능이 급격히 저하되는 현상이다이 방법의 특징은 모델의 모든 파라미터를 고정한 채, 텍스트 프롬프트 임베딩만을 테스트 시점에 미세 조정한다는 점이다. 각 테스트 샘플마다 동일한 초기 프롬프트에서 출발하여 엔트로피 최소화라는 (정답 라벨을 이용하지 않는) 비지도 목적함수를 통해 프롬프트를 최적화하며, 샘플 간에는 어떠한 정보도 공유하지 않는다. 이러한 설계는 잘못된 업데이트가 다음 샘플에 영향을 미치지 않도록 하여 매우 안정적인 성능을 보장하지만, 테스트 샘플들이 서로 강한 연관성을 가지는 현실적인 온라인 환경에서는 이전 샘플로부터 얻을 수 있는 유용한 정보를 활용하지 못한다는 구조적 한계를 지닌다. 직관적으로 비유하면, TPT는 매 문제를 풀 때마다 항상 새 공책을 꺼내 처음부터 푸는 학생과 같아서 실수는 적지만, 반복을 통해 축적되는 요령이나 패턴을 전혀 활용하지 못하는 방식에 해당한다.


Online TPT는 기존 TPT의 한계를 극복하기 위한 자연스러운 확장 개념으로, 특정 단일 논문보다는 Wang et al. (ICLR 2021) 이후의 online test-time adaptation 계열 연구 흐름에서 파생된 접근으로 이해할 수 있다. 이 방식은 이전 테스트 샘플에서 최적화된 프롬프트를 다음 샘플의 초기값으로 사용함으로써, 테스트 샘플 간 정보를 공유한다. 이론적으로는 테스트 데이터의 분포 정보를 점진적으로 축적할 수 있다는 장점이 있지만, 여전히 엔트로피 최소화라는 비지도 목적함수를 사용하기 때문에 초기의 잘못된 예측이 프롬프트에 반영되면 그 오류가 연속적으로 누적된다. 그 결과 프롬프트가 과도하게 확신적인 (overconfident) 방향으로 붕괴되는 prompt collapse 현상이 발생하며, 실험적으로도 정확도가 급격히 떨어지는 문제가 존재한다. 이는 틀린 풀이를 계속 같은 노트에 적어 가며 복습하는 학생과 같아서, 처음에는 그럴듯해 보이지만 결국 전체 사고 과정이 왜곡되는 상황에 비유할 수 있다.


DynaPrompt Xiao et al. 2025 ICLR에서 제안한 방법으로, TPT의 안정성과 Online TPT의 정보 활용 능력을 동시에 달성하는 것을 목표로 한다. 이 방법의 핵심은 단일 프롬프트가 아니라 여러 개의 온라인 프롬프트를 저장하는 프롬프트 버퍼를 도입하고, 각 테스트 샘플마다 엔트로피와 확률 차이라는 두 지표를 기준으로 현재 샘플에 가장 적합한 프롬프트만을 동적으로 선택해 업데이트한다는 점이다. 구체적으로는 예측 엔트로피와 입력 증강에 따른 확률 차이라는 두 지표를 활용하여, 현재 테스트 샘플에 대해 신뢰할 수 있으면서도 과도하게 확신적이지 않은 프롬프트만을 선별한다. 또한 적합한 프롬프트가 없을 경우 새로운 프롬프트를 생성해 버퍼에 추가하고, 오랫동안 사용되지 않은 프롬프트는 제거함으로써 오류 누적을 구조적으로 차단한다. 이러한 설계를 통해 DynaPrompt는 온라인 환경에서 테스트 데이터의 분포 정보를 선택적으로 활용하면서도 prompt collapse를 효과적으로 방지하며, 다양한 도메인 일반화 및 교차 데이터셋 실험에서 기존 TPT 계열 방법을 일관되게 능가하는 성능을 보인다. 비유하자면, DynaPrompt는 정답률이 높은 노트만 선별해 참고하고, 쓸모 없는 노트는 과감히 버리면서 학습하는 학생으로, 안정성과 적응력을 동시에 갖춘 현 시점에서 (2025) 가장 현실적인 test-time prompt tuning 전략에 해당한다.


Seoung Bum Kim. All Rights Reserved. No part of this document may be cited or reproduced without permission.