고려대학교 DMQA 연구실

The Modality Gap in Multi-modal Contrastive Learning

2026년 4월 2일 오후 2:35
조회수: 60

REFERENCES

260403_The Modality Gap in Multi-modal Contrastive Learning.pdf

INFORMATION

2026년 4월 3일
오전 10시 ~
온라인 비디오 시청 (YouTube)

발표자:

박현우

TOPIC

The Modality Gap in Multi-modal Contrastive Learning

On-Line Video

OVERVIEW

최근 CLIP과 같은 대규모 시각-언어 모델(Vision-Language Models)은 대조 학습(Contrastive Learning)을 통해 이미지와 텍스트를 공유된 표현 공간으로 매핑하여 다양한 다운스트림 작업에서 탁월한 성능을 보여주고 있다. 그러나 대조 학습을 거치면 두 양상(Modality)이 완벽하게 정렬될 것이라는 일반적인 기대와 달리, 실제로는 임베딩 공간 내에서 이미지와 텍스트가 완전히 분리된 영역에 위치하는 이른바 '모달리티 갭(Modality Gap)' 현상이 발생한다. 본 세미나에서는 모달리티 갭 현상의 개념과 그 원인을 살펴보고자 한다.

참고자료:

[1] Wang, T., & Isola, P. (2020). Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hypersphere. International Conference on Machine Learning.

[2] Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. International Conference on Machine Learning.

[3] Liang, W., Zhang, Y., Kwon, Y., Yeung, S., & Zou, J. Y. (2022). Mind the Gap: Understanding the Modality Gap in Multi-modal Contrastive Representation Learning. Neural Information Processing Systems.

[4] Schrodi, S., Hoffmann, D. T., Argus, M., Fischer, V., & Brox, T. (2025). Two Effects, One Trigger: On the Modality Gap, Object Bias, and Information Imbalance in Contrastive Vision-Language Models. International Conference on Learning Representations.

청취자 후기

안채원

이번 세미나는 Modality Gap의 원인이 주제였다. Modality Gap이란 text, image와 같이 다른 모은 같은 의미(concept)을 가지고 있더라도 임베딩 공간에서 일정 떨어진 거리(즉, gap)가 존재한다는 것이다.

이 원인에 대해서는 두 가지 논문의 견해가 소개되었다.

1) Mind the Gap(Neurips 2022)
Keyword: 'Cone Effect' , 'Optimization'

Contrastive Learning(대조학습)을 통해 같은 의미끼리 끌어당기고, 다른 의미끼리는 밀어내는 학습을 거쳤음에도 modality gap은 존재한다. 그리고 대조 학습 여부와 상관 없이 gap이 존재한다. 이는 딥러닝 모델 고유의 특성인 'Cone Effect'라는 데이터가 임베딩 공간 전체가 아닌 좁은 영역만을 사용하는 현상에서 기인한다. 데이터가 레이어들을 거치면서 점점 존재할 수 있는 공간이 축소되며, 최종적으로 원뿔 모양(cone) 공간으로 수렴하게 된다. CLIP은 이미지 인코더와 텍스트 인코더, 두 가지의 독립적인 신경망을 사용한다. 각 신경망은 Cone Effect 효과를 가지고 있고, 같은 모델이라도 무작위 시드마다 다른 임베딩 공간을 형성한다는 관찰을 종합하면 다른 모달끼리 임베딩 공간에서 gap이 있다는 것을 직관적으로 파악할 수 있다.
하지만 왜 학습과정을 거친 후에도 gap이 감소하지 않는 것에 대해서는 의문이 남는다. 강제적으로 거리를 가까워지도록 보정실험을 해본 결과, 보정을 하지 않고 gap을 유지하고 있을 때 오차가 가장 낮았다. 그 이유는 CLIP의 손실함수의 목표, 분자(positive sample의 유사도)를 키우면서, 분모(배치 내 샘플과의 유사도 총합)를 줄이는 것을 살펴보면 된다. 분자/분모 각 항에 존재하는 temperature에 작은 값이 들어가면, 분모가 분자에 비해 커져서 분모를 줄이는 방향으로 학습이 된다. 그 결과 모달끼리 적당히 거리를 두는 방향으로 학습이 진행될 수 밖에 없다.(temperature가 1이면, 거리가 제일 작을 때 손실이 제일 낮긴 함)

2) Two Effects, One Trigger(2025 ICLR)
Keyword: 'Imbalance of Information'

이미지와 텍스트 중 이미지의 정보가 월등하게 많다. 정보 이론에 따르면 두 변수의 정렬 정도는 상호 정보량에 의해 결정되는데, 이미지-텍스트 간 정보 불균형으로 인해, 완벽 정렬에 한계가 존재한다. 모델은 이미지와 텍스트를 최대한 잘 정렬하는 게 목표이다. 이 상황에서 이미지 인코더는 불확실한 정보보다 확실한 개념인 객체에 집중하는 방향으로 학습한다. 따라서 객체를 제외한 배경, 질감과 같은 잉여 정보는 데이터 자체의 높은 불확실성을 유발한다. 결국 출력에 이 불확실성을 반영하기 위해 유사도를 낮고 uniform하게 유지하고, 공간상에서 modality gap이 발생한다고 이해할 수 있다. 또한 text의 정보량(단어 수)이 늘어날수록, modality gap이 감소하고 object bias현상도 감소했다.

두번째 논문은 첫번째 논문의 원인보다는 데이터 자체의 불균형을 강조하면서 새로운 원인을 제시했다. 정리하자면, 모델이 학습과정 중 자연스럽게 발생하는 불확실성을 해결하기 위해 모델이 자체적으로 도입한 방안이다.

최근, 한 동기가 modality gap을 설명해줬는데 그때는 기초지식이 부족해서 이해하기가 좀 어려웠었다. 운이 좋게도, 이번 세미나를 통해 관련 개념과 배경들을 더더욱 자세하게 배울 수 있어서 유익했다. 좋은 세미나를 준비해주신 박현우 선배님께 감사드리면서, 세미나 후기를 마친다.

Seminar