- 2025년 9월 2일 오후 10:21
- 조회수: 23
INFORMATION
- 2025년 9월 5일
- 오전 10시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
요약: 멀티모달 표현학습 모델은 데이터의 이질성(Heterogeneity), 즉 텍스트, 이미지, 음성 등 근본적으로 다른 데이터 분포를 통합하는 과정에서 여러 한계에 직면한다. 특히 모달리티 간 정보량의 불균형, 혹은 특정 모달리티에 포함된 상충하는 정보(conflicting information)가 다른 모달리티의 유용한 표현을 방해할 때, 학습이 불안정해지거나 정보 융합의 효율이 저하되는 현상이 보고된다. 이러한 문제는 인간의 감정을 분석하거나 복잡한 장면을 이해하는 등, 여러 감각 정보를 종합적으로 활용해야 하는 멀티모달 태스크에서 빈번히 관찰된다. 본 세미나에서는 이러한 이질성을 체계적으로 다루고 멀티모달 모델의 표현력을 강화하기 위해 발전해 온 멀티모달 분리 표현 학습(Multimodal Disentangled Representation Learning) 접근법들의 흐름을 소개한다.
참고자료:
[1]
[2]
[3] Zhou, Y., Liang, X., Chen, H., Zhao, Y., Chen, X., & Yu, L. (2025). Triple disentangled representation learning for multimodal affective analysis. Information Fusion, 114, 102663. https://doi.org/10.1016/j.inffus.2024.102663