- 2025년 5월 9일 오전 12:18
- 조회수: 557
INFORMATION
- 2025년 5월 9일
- 오후 2시 ~
온라인 비디오 시청 (YouTube)
배진수
TOPIC
On-Line Video
OVERVIEW
청취자 후기
김지현
이번 세미나는 calibration for VLM에 대해 진행되었다. 세미나에서도 소개되었듯이, VLM은 text 프롬프트 정보를 활용 가능하고 고정된 분류기를 필요로 하지 않는다는 특성 덕분에 일반적으로 zero shot classification에 많이 이용된다. 이러한 zero shot 능력은 VLM이 가진 강력한 장점이지만, 동시에 calibration 문제와도 연결된다는 생각이 들었다. zero shot 상황에서는 훈련 과정에서 보지 못한 클래스나 개념에 대해 판단해야 하므로 자신의 confidence를 정확히 표현하는 것이 더욱 중요할 듯 하고, 특히나 잘 보정되지 않은 VLM의 경우 익숙하지 않은 개념에 대해서도 overconfidence 경향성을 보일 수 있을 듯 하다.
이러한 문제의식을 기반으로 본 세미나에서는 두 가지 논문을 소개해주었는데, 각각 다음과 같다.
1. An empirical study into what matters for calibrating VLMs (2024, ICML)
- 35개나 되는 VLMs을 활용하여 calibration을 위해 어떤 것이 중요한 지에 대한 empirical study를 진행한 연구였다. 이는 Non-VLM (e.g., ResNet, ViT)와의 비교를 통해 진행되었다.
- VLMs 모델은 calibration error (ECE)가 상대적으로 높으나, temperature scaling을 진행하면 유의미하게 높아진다. 이때 T 값 학습을 위해서 아주 적은 샘플 (~40-50개)만 사용해도 좋은 T 값을 찾을 수 있다는 효율성도 가지고 있다 (모든 class의 데이터를 활용하지 않아도 된다).
- 더불어, temperature T 값은 ID dataset이 아닌 도메인이 다른 데이터셋을 이용해도 좋은 T 값을 찾을 수 있다는 (개인적으로 매우 신기한) 특징을 가진다. 뿐만 아니라, distribution shifts (covariate shift)가 일어난 상황에도 calibration이 잘 되는 특징을 가진다. 왜 그럴까?
2. C-TPT (2024, ICLR)
- TPT의 overconfidence 경향을 지적한 연구로, (1) 어떤 text prompt를 사용하냐에 따라 ECE error가 유의미하게 차이난다는 점, (2) 그리고 text embedding vector가 특징 공간 상에서 멀리 퍼져 있어야 calibration이 잘 된다는 점들을 기반으로 연구를 수행하였다.
- 따라서 텍스트 특징 벡터의 퍼짐 정도를 정량화할 수 있는 ATFD라는 지표를 개발하는데, 이것이 ECE와의 음의 상관관계를 가짐을 확인 후 이를 loss 형태로 구성하여 calibration을 수행하는 연구였다. 비교적 간단해 보이지만 방법론 개발을 위한 주요 insights를 보여주는 실험들이 흥미로웠고, label 데이터에 의존성이 낮은 장점을 가진 듯 하다.
- 다만 특징 공간 상에서 text embedding이 '퍼져 있다'라는 것이 구체적으로 어떤 의미를 가지는 지 궁금해서 원문을 더 자세히 읽어보고 싶어졌다.
최근 VLM + TTA 연구에 관심을 기울이고 있는데, 단순히 성능을 높이는 것뿐 아니라 신뢰성을 높이는 방법론에 대해서도 고민을 가능케 해주는 연구들을 본 세미나를 통해 자세히 소개받을 수 있었다. 가장 흥미로웠던 것은 1번 논문에서 covariate shift가 일어날 지라도 temperature 값을 찾는 데 큰 어려움이 없고 calibration도 잘 수행된다는 점을 발견한 것이었다. 이러한 속성이 VLM 모델의 어떠한 특징 때문인지에 대해서 좀 더 공부해보고 싶다는 욕심이 생겼다.
calibration, VLM의 개념 소개로 시작하여 두 가지 키워드를 결합한 연구들에 대한 자세한 설명까지, 논리적으로 구성된 양질의 세미나를 준비해준 진수에게 고맙다는 말을 전한다. 역시 올레진 (올타임레전드배진수)
김성수
이번 세미나는 VLM에 대한 Calibration에 대해 진행되었다. 이번 세미나를 통해 알게된 내용은 아래와 같다.
1) Calibration은 결국 Confidence를 더 똑똑하게 하여 Overconfidence를 막기 위한 것이 핵심이다.
2) ECE를 통해 Calibration을 평가한다. 낮을수록 좋은 지표이다.
3) Temperature Scaling는 Labeled 데이터를 기반, C-tpt는 Labeled 데이터 없이 Feature를 흩뿌리는 전략으로 Calibration을 수행한다.
4) 의외로 본인 데이터가 아닌 다른 데이터로 Calibration 파라미터를 찾은 후 활용하는 전략은 잘 먹힌다.
5) Calibration 이전에는 VLM 모델이 Non-VLM보다 ECE가 높지만, Calibration 후에는 더 완화된다.
6) Few Sample만 써도 모든 Sample을 사용한 것과 동일한 Calibration 파라미터 색출이 가능하다.
이전까지는 다소 Calibration이라는 개념이 와닿진 않았지만, 이번 세미나를 통해 많이 정립된 것 같다. 내 개인연구에서도 이러한 Confidence를 정량화하는 것이 중요한데, 과연 Confidence가 잘 측정되고 있는지 살펴보아야 할 것 같다. 유익한 세미나를 준비해준 배진수 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.