- 2025년 5월 9일 오전 12:18
- 조회수: 144
INFORMATION
- 2025년 5월 9일
- 오후 2시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
청취자 후기

이번 세미나는 calibration for VLM에 대해 진행되었다. 세미나에서도 소개되었듯이, VLM은 text 프롬프트 정보를 활용 가능하고 고정된 분류기를 필요로 하지 않는다는 특성 덕분에 일반적으로 zero shot classification에 많이 이용된다. 이러한 zero shot 능력은 VLM이 가진 강력한 장점이지만, 동시에 calibration 문제와도 연결된다는 생각이 들었다. zero shot 상황에서는 훈련 과정에서 보지 못한 클래스나 개념에 대해 판단해야 하므로 자신의 confidence를 정확히 표현하는 것이 더욱 중요할 듯 하고, 특히나 잘 보정되지 않은 VLM의 경우 익숙하지 않은 개념에 대해서도 overconfidence 경향성을 보일 수 있을 듯 하다.
이러한 문제의식을 기반으로 본 세미나에서는 두 가지 논문을 소개해주었는데, 각각 다음과 같다.
1. An empirical study into what matters for calibrating VLMs (2024, ICML)
- 35개나 되는 VLMs을 활용하여 calibration을 위해 어떤 것이 중요한 지에 대한 empirical study를 진행한 연구였다. 이는 Non-VLM (e.g., ResNet, ViT)와의 비교를 통해 진행되었다.
- VLMs 모델은 calibration error (ECE)가 상대적으로 높으나, temperature scaling을 진행하면 유의미하게 높아진다. 이때 T 값 학습을 위해서 아주 적은 샘플 (~40-50개)만 사용해도 좋은 T 값을 찾을 수 있다는 효율성도 가지고 있다 (모든 class의 데이터를 활용하지 않아도 된다).
- 더불어, temperature T 값은 ID dataset이 아닌 도메인이 다른 데이터셋을 이용해도 좋은 T 값을 찾을 수 있다는 (개인적으로 매우 신기한) 특징을 가진다. 뿐만 아니라, distribution shifts (covariate shift)가 일어난 상황에도 calibration이 잘 되는 특징을 가진다. 왜 그럴까?
2. C-TPT (2024, ICLR)
- TPT의 overconfidence 경향을 지적한 연구로, (1) 어떤 text prompt를 사용하냐에 따라 ECE error가 유의미하게 차이난다는 점, (2) 그리고 text embedding vector가 특징 공간 상에서 멀리 퍼져 있어야 calibration이 잘 된다는 점들을 기반으로 연구를 수행하였다.
- 따라서 텍스트 특징 벡터의 퍼짐 정도를 정량화할 수 있는 ATFD라는 지표를 개발하는데, 이것이 ECE와의 음의 상관관계를 가짐을 확인 후 이를 loss 형태로 구성하여 calibration을 수행하는 연구였다. 비교적 간단해 보이지만 방법론 개발을 위한 주요 insights를 보여주는 실험들이 흥미로웠고, label 데이터에 의존성이 낮은 장점을 가진 듯 하다.
- 다만 특징 공간 상에서 text embedding이 '퍼져 있다'라는 것이 구체적으로 어떤 의미를 가지는 지 궁금해서 원문을 더 자세히 읽어보고 싶어졌다.
최근 VLM + TTA 연구에 관심을 기울이고 있는데, 단순히 성능을 높이는 것뿐 아니라 신뢰성을 높이는 방법론에 대해서도 고민을 가능케 해주는 연구들을 본 세미나를 통해 자세히 소개받을 수 있었다. 가장 흥미로웠던 것은 1번 논문에서 covariate shift가 일어날 지라도 temperature 값을 찾는 데 큰 어려움이 없고 calibration도 잘 수행된다는 점을 발견한 것이었다. 이러한 속성이 VLM 모델의 어떠한 특징 때문인지에 대해서 좀 더 공부해보고 싶다는 욕심이 생겼다.
calibration, VLM의 개념 소개로 시작하여 두 가지 키워드를 결합한 연구들에 대한 자세한 설명까지, 논리적으로 구성된 양질의 세미나를 준비해준 진수에게 고맙다는 말을 전한다. 역시 올레진 (올타임레전드배진수)