- 2026년 4월 2일 오후 2:35
- 조회수: 473
INFORMATION
- 2026년 4월 3일
- 오전 10시 ~
온라인 비디오 시청 (YouTube)
박현우
TOPIC
On-Line Video
OVERVIEW
청취자 후기
안채원
이번 세미나는 Modality Gap의 원인이 주제였다. Modality Gap이란 text, image와 같이 다른 모은 같은 의미(concept)을 가지고 있더라도 임베딩 공간에서 일정 떨어진 거리(즉, gap)가 존재한다는 것이다.
이 원인에 대해서는 두 가지 논문의 견해가 소개되었다.
1) Mind the Gap(Neurips 2022)
Keyword: 'Cone Effect' , 'Optimization'
Contrastive Learning(대조학습)을 통해 같은 의미끼리 끌어당기고, 다른 의미끼리는 밀어내는 학습을 거쳤음에도 modality gap은 존재한다. 그리고 대조 학습 여부와 상관 없이 gap이 존재한다. 이는 딥러닝 모델 고유의 특성인 'Cone Effect'라는 데이터가 임베딩 공간 전체가 아닌 좁은 영역만을 사용하는 현상에서 기인한다. 데이터가 레이어들을 거치면서 점점 존재할 수 있는 공간이 축소되며, 최종적으로 원뿔 모양(cone) 공간으로 수렴하게 된다. CLIP은 이미지 인코더와 텍스트 인코더, 두 가지의 독립적인 신경망을 사용한다. 각 신경망은 Cone Effect 효과를 가지고 있고, 같은 모델이라도 무작위 시드마다 다른 임베딩 공간을 형성한다는 관찰을 종합하면 다른 모달끼리 임베딩 공간에서 gap이 있다는 것을 직관적으로 파악할 수 있다.
하지만 왜 학습과정을 거친 후에도 gap이 감소하지 않는 것에 대해서는 의문이 남는다. 강제적으로 거리를 가까워지도록 보정실험을 해본 결과, 보정을 하지 않고 gap을 유지하고 있을 때 오차가 가장 낮았다. 그 이유는 CLIP의 손실함수의 목표, 분자(positive sample의 유사도)를 키우면서, 분모(배치 내 샘플과의 유사도 총합)를 줄이는 것을 살펴보면 된다. 분자/분모 각 항에 존재하는 temperature에 작은 값이 들어가면, 분모가 분자에 비해 커져서 분모를 줄이는 방향으로 학습이 된다. 그 결과 모달끼리 적당히 거리를 두는 방향으로 학습이 진행될 수 밖에 없다.(temperature가 1이면, 거리가 제일 작을 때 손실이 제일 낮긴 함)
2) Two Effects, One Trigger(2025 ICLR)
Keyword: 'Imbalance of Information'
이미지와 텍스트 중 이미지의 정보가 월등하게 많다. 정보 이론에 따르면 두 변수의 정렬 정도는 상호 정보량에 의해 결정되는데, 이미지-텍스트 간 정보 불균형으로 인해, 완벽 정렬에 한계가 존재한다. 모델은 이미지와 텍스트를 최대한 잘 정렬하는 게 목표이다. 이 상황에서 이미지 인코더는 불확실한 정보보다 확실한 개념인 객체에 집중하는 방향으로 학습한다. 따라서 객체를 제외한 배경, 질감과 같은 잉여 정보는 데이터 자체의 높은 불확실성을 유발한다. 결국 출력에 이 불확실성을 반영하기 위해 유사도를 낮고 uniform하게 유지하고, 공간상에서 modality gap이 발생한다고 이해할 수 있다. 또한 text의 정보량(단어 수)이 늘어날수록, modality gap이 감소하고 object bias현상도 감소했다.
두번째 논문은 첫번째 논문의 원인보다는 데이터 자체의 불균형을 강조하면서 새로운 원인을 제시했다. 정리하자면, 모델이 학습과정 중 자연스럽게 발생하는 불확실성을 해결하기 위해 모델이 자체적으로 도입한 방안이다.
최근, 한 동기가 modality gap을 설명해줬는데 그때는 기초지식이 부족해서 이해하기가 좀 어려웠었다. 운이 좋게도, 이번 세미나를 통해 관련 개념과 배경들을 더더욱 자세하게 배울 수 있어서 유익했다. 좋은 세미나를 준비해주신 박현우 선배님께 감사드리면서, 세미나 후기를 마친다.
김현이
CLIP을 활용한 실험을 진행하면서 이미지와 텍스트 임베딩 사이에 일정한 간극이 존재한다는 점을 확인한 적이 있었지만, 그 이유를 명확히 이해하지는 못했었다. 이번 세미나에서는 이러한 현상인 modality gap을 이론적으로 설명해주어 매우 흥미롭게 들을 수 있었다.
핵심은 다음 세 가지로 정리할 수 있을 것 같다.
(1) contrastive learning에서는 alignment와 uniformity의 균형이 좋은 representation을 만드는 데 중요하지만, 멀티모달 환경에서는 이 균형이 깨질 수 있다. 특히 alignment에만 치우칠 경우 embedding collapse가 발생하고, 반대로 uniformity에만 치우치면 의미적 유사성이 사라진다는 점에서 두 요소 간의 균형이 핵심임을 알 수 있었다.
(2) 기하학적 관점에서, modality gap은 단순한 학습 실패가 아니라 신경망 구조에서 비롯되는 cone effect로 설명될 수 있다. 즉, 레이어를 거치며 임베딩이 점차 좁은 영역으로 수축하는 특성으로 인해, 이미지와 텍스트 임베딩이 자연스럽게 분리되는 현상이 발생한다는 점이 인상 깊었다.
(3) 정보이론적 관점에서, modality gap은 이미지와 텍스트 간 정보 불균형에서 비롯된다. 이미지가 텍스트보다 훨씬 많은 정보를 포함하고 있기 때문에 상호정보량의 한계로 완전한 alignment가 어렵고, 이로 인해 모델이 특정 개념(객체)에 집중하는 object bias를 갖게 된다. 또한 이러한 정보 불확실성으로 인해 모델이 특정 텍스트에 강하게 정렬되기보다 모든 텍스트와 일정한 거리를 유지하려는 방향으로 학습되며, 그 결과 modality gap이 형성된다는 점이 인상 깊었다.
특히 이 갭을 무조건 줄이려고 할 경우 오히려 loss가 증가할 수 있다는 설명은 기존의 직관과 달라 더욱 흥미로웠다. 전체적으로 단순히 현상을 설명하는 데 그치지 않고, 그 원인을 정보이론적 관점과 학습 구조 측면에서 함께 쉽게 풀어주어 이해에 큰 도움이 되었다. 개인적으로도 CLIP 기반 연구를 진행하며 느꼈던 의문이 해소되는 경험이었고, 향후 멀티모달 모델을 다룰 때 representation 구조를 더 깊이 고민해볼 필요가 있겠다는 생각이 들었다.
아주 유익한 세미나를 준비해주신 박현우 연구원님께 고마움을 전하며, 세미나 후기를 마친다.
손병우
VLM 및 CLIP 기반 representation learning 연구에 관심을 가지며 본 세미나를 청취하게 되었는데, 이번 세미나는 특히 Multi-modal Contrastive Learning 에서의 Modality Gap 이 무엇이며 왜 발생하는지에 대해 기하학적, 최적화적, 그리고 정보이론적 관점에서 설명해주었다는 점에서 매우 흥미로웠다.
먼저 세미나에서는 대조학습의 핵심 개념인 alignment 와 uniformity 에 대해 설명하였다. Alignment 는 유사한 샘플끼리 얼마나 잘 가까워지는지를 의미하며, uniformity 는 임베딩이 초구 공간 전체에 고르게 퍼지도록 만드는 성질을 의미한다. 즉, 같은 의미를 가지는 샘플은 가깝게, 서로 다른 샘플은 멀어지도록 학습하는 것이 contrastive learning 의 핵심이라는 점을 이해할 수 있었다. 하지만 alignment 에만 치우치면 representation 이 특정 방향으로 붕괴되는 dimensional collapse 가 발생하고, 반대로 uniformity 에만 치우치면 실제로 유사한 샘플들조차 과도하게 멀어지는 feature scattering 문제가 발생할 수 있다고 한다. 이후 CLIP 과 같은 Vision-Language Model 에서는 이미지와 텍스트처럼 서로 다른 modality 임에도 의미적으로 같은 샘플끼리 representation 을 정렬시키는 것이 목표라는 점을 설명하며, 여기서 발생하는 대표적인 현상이 바로 Modality Gap 이라고 소개하였다. 즉, 의미적으로 대응되는 이미지와 텍스트임에도 임베딩 공간에서는 서로 다른 영역에 분리되어 존재하는 현상이다.
특히 흥미로웠던 부분은 Modality Gap 이 단순히 학습이 덜 되었기 때문이 아니라, 모델 구조와 최적화 과정 자체에서 자연스럽게 발생할 수 있다는 점이었다. 먼저 2022 NeurIPS 의 Mind the Gap 연구에서는 cone effect 관점에서 이를 설명하였다. 신경망은 무작위 초기화 상태에서도 임베딩이 특정 좁은 영역으로 몰리는 경향이 있으며, 이는 선형 변환과 비선형 활성함수가 반복되며 데이터 manifold 가 국소 영역으로 수축되기 때문이라는 설명이었다. 또한 contrastive loss 의 temperature τ 값이 매우 작을 경우 분모 항의 영향력이 커지며, positive pair 를 가깝게 만드는 것보다 negative pair 를 멀리 보내는 방향이 더 쉽게 최적화되기 때문에 결과적으로 modality 간 거리가 완전히 사라지지 않는다는 점도 설득력 있게 느껴졌다.
이후 소개된 2025 ICLR 의 Two Effects, One Trigger 는 기존의 cone effect 중심 설명에서 더 나아가, modality gap 의 본질적 원인이 이미지와 텍스트 사이의 정보 불균형에 있다고 주장하였다. 이미지에는 배경, 질감, 위치 등 훨씬 많은 정보가 포함되어 있지만, 텍스트는 상대적으로 제한된 정보만 담고 있기 때문에 두 modality 의 상호 정보량 자체에 근본적인 차이가 존재한다는 것이다. 이 과정에서 이미지 인코더는 텍스트에서 명확히 설명되는 객체 정보에 집중하는 object bias 를 가지게 되며, 동시에 텍스트와 직접적으로 대응되지 않는 잉여 정보는 높은 불확실성의 형태로 남게 된다. 결국 이러한 불확실성이 representation 상에서 modality gap 을 형성하게 된다는 정보이론적 해석이 매우 인상 깊었다.
사실 CLIP 에서의 Modal Gap 을 해결하는 것이 CLIP 의 프롬프트 튜닝에 있어 핵심적인 key point 가 될 것이라 생각하며 몇주 전 Mind the Gap 논문을 읽어보았었는데, 우연히 이렇게 세미나를 통해 한번 더 접할 수 있어 매우 신기했다. 마지막으로 소개된 Two Effects, One Trigger 논문은 이전에 발견하지 못했었는데, Modal Gap 을 이미지와 텍스트 사이의 정보 불균형으로도 바라볼 수 있다는 관점이 매우 흥미로웠고, 이를 통해 무언가 더 확장할 수 있는 방향을 찾은 것 같아 개인적으로 매우 의미있는 세미나였던 것 같다. 이러한 CLIP 모델의 근본적인 부분에 대해 주제를 선정하고, 여러 논문을 찾아 세미나를 준비해주신 박현우 선배님에게 깊은 존경과 감사의 인사를 드리고 싶다.