- 2026년 4월 17일 오후 12:18
- 조회수: 67
INFORMATION
- 2026년 4월 17일
- 오전 12시 ~
온라인 비디오 시청 (YouTube)
황순혁
TOPIC
On-Line Video
OVERVIEW
요약:
대규모 사전학습 Vision-Language Model은 추가 학습 없이도 다양한 태스크에 대해 우수한 zero-shot 성능을 보이지만, 실제 환경에서 발생하는 도메인 변화 상황에서는 성능 저하가 발생하는 한계를 가진다. 이러한 문제를 해결하기 위해, 테스트 단계에서 주어지는 unlabeled 데이터를 활용하여 모델을 적응시키는 Test-time Adaptation 기법들이 주목받고 있다. 특히 최근에는 CLIP과 같은 Vision-Language Model을 기반으로, 새로운 환경에 유연하게 대응하기 위한 다양한 방법들이 제안되고 있다. 본 세미나에서는 Vision-Language Model 기반 TTA의 기본 개념과 함께, 다양한 접근 방식들이 어떻게 발전해왔는지에 초점을 맞추어 대표적인 방법론과 그 한계를 소개한다.
참고자료
[1] Liang, J., He, R., & Tan, T. (2024). A comprehensive survey on test-time adaptation under distribution shifts. International Journal of Computer Vision, 1-34.[2] Li, Y., Su, Y., Goodge, A., Jia, K., & Xu, X. (2024). Efficient and context-aware label propagation for zero-/few-shot training-free adaptation of vision-language model. In ICLR.
[3] Sheng, L., Liang, J., Wang, Z., & He, R. (2025). R-tpt: Improving adversarial robustness of vision-language models through test-time prompt tuning. In CVPR.
[4] Maharana, S., Zhang, B., Karlinsky, L., Feris, R., & Guo, Y. (2025). Batclip: Bimodal online test-time adaptation for clip. In ICCV.
청취자 후기
김현이
본 세미나는 domain adaptation과 Test-Time Adaptation(TTA)을 중심으로, 서로 다른 데이터 분포 간의 일반화 성능을 향상시키기 위한 다양한 방법론을 소개하였다. 특히 실제 환경에서는 학습 데이터와 테스트 데이터 간의 분포 차이(domain shift)가 필연적으로 발생하며, 이를 효과적으로 해결하는 것이 모델의 실질적인 성능을 좌우한다는 점이 강조되었다. 이러한 문제를 해결하기 위해 최근에는 비전-언어 모델(Vision-Language Model, VLM)을 활용한 TTA 접근이 활발히 연구되고 있다.
VLM 기반 TTA는 크게 zero-shot 방식, test-time prompt tuning, test-time encoder tuning의 세 가지로 나누어 설명되었다.
(1) 먼저 zero-shot 기반 접근에서는 학습 없이 추론 과정만을 개선하여 적응을 수행하는 방법이 소개되었다. 특히 label propagation을 활용한 방법은(Efficient and context-aware label propagation for zero-/few-shot training-free adaptation of vision-language model) 기존 cosine similarity 기반 유사도 계산의 한계를 지적하며, 단순한 feature 유사도가 아닌 context를 반영한 새로운 유사도 측정 방식을 제안하였다. 기존 방법은 이미지의 background나 style과 같은 요소를 충분히 반영하지 못하는 문제가 있었는데, 이를 보완하기 위해 그래프 기반 구조와 degree matrix를 활용하여 pseudo-label을 보다 정교하게 생성하고, 이를 기반으로 안정적인 adaptation을 수행한다는 점이 인상적이었다.
(2) 다음으로 test-time prompt tuning은 테스트 시점에서 prompt를 동적으로 조정하여 모델의 성능을 향상시키는 방법이다. 특히 R-TPT에서는 adversarial attack 상황에서의 robustness를 개선하는 데 초점을 맞추고 있었다. 흥미로웠던 점은 low-entropy 샘플을 선택하여 안정적으로 prompt를 업데이트한다는 전략과, clean accuracy에서는 다소 성능이 떨어질 수 있지만 adversarial 상황에서는 훨씬 강건한 성능을 보인다는 점이었다.
(3) 마지막으로 test-time encoder tuning은 모델의 encoder 일부를 테스트 시점에서 업데이트하는 접근이다. BatCLIP에서는 기존 연구들이 하나의 modality만을 고려하는 한계를 지적하며, visual encoder와 text encoder를 동시에 고려하는 bimodal adaptation을 제안하였다. 특히 전체 파라미터를 업데이트하는 대신 layer normalization 부분만을 조정하는 것이 핵심인데, 이는 feature distribution을 직접적으로 재정렬하는 역할을 하면서도 gradient variance가 낮아 안정적인 학습이 가능하다는 장점이 있다. 또한 visual class prototype과 text feature를 함께 활용하여 entropy minimization, projection matching, 그리고 클래스 간 분리를 강화하는 loss를 설계한 점도 인상적이었다. 이를 통해 서로 다른 modality 간 alignment를 보다 정교하게 수행할 수 있다는 점에서 기존 방법 대비 개선된 접근으로 보였다.
이번 세미나를 통해 단순히 모델을 학습시키는 것뿐만 아니라, 테스트 시점에서 어떻게 적응을 수행할 것인지가 매우 중요한 문제임을 다시 한 번 느낄 수 있었다. 특히 VLM을 활용한 TTA는 별도의 학습 없이도 성능을 개선할 수 있다는 점에서 매우 실용적인 방향이라고 생각되었으며, 다양한 방식의 adaptation 전략들이 존재한다는 점이 흥미로웠다. 이런 다양한 TTA 방법에 대해서 공부해보고 싶었는데, 핵심 방법론을 쉽게 이해할 수 있었던 유익하고 알찬 시간이었다. 좋은 세미나를 준비해 준 황순혁 연구원께 고맙다는 말을 전하며 세미나 후기를 마친다.
김혜준
이번 세미나에서는 Vision-Language Model 기반 Test-Time Adaptation의 전체 흐름을 체계적으로 설명해줘서, zero-shot CLIP에서 시작해 training-free label propagation, test-time prompt tuning, 그리고 text·visual modality를 함께 활용하는 bimodal online adaptation으로 방법론이 확장되는 과정을 이해하는 데 큰 도움이 되었다.
특히 단순히 테스트 시점에 모델을 조금 수정하는 수준이 아니라, 어떤 방법은 추론 방식을 바꾸고, 어떤 방법은 prompt를 동적으로 조정하고, 또 어떤 방법은 두 모달리티의 alignment 자체를 함께 맞추려 한다는 점에서 분야가 점점 더 정교해지고 있다는 것이 흥미로웠다. 개인적으로는 BatCLIP처럼 특정 모달리티 하나만이 아니라 text와 visual 정보를 함께 고려해야 suboptimal alignment를 줄일 수 있다는 관점이 인상적이었고, 동시에 발표에서 다룬 여러 방법들이 성능 향상은 분명 보여주지만 실제 적용 관점에서는 계산 비용과 적응 안정성을 어떻게 함께 만족시킬지가 더 궁금하다는 생각도 들었다. 전체적으로 VLM 기반 TTA의 발전 방향과 각 접근법의 장단점을 함께 비교해볼 수 있었던 유익한 세미나였다.