고려대학교 DMQA 연구실

Bridging the Gap between Heterogeneous Data: Multimodal Representation Alignment via Disentangled Learning

2025년 9월 2일 오후 10:21
조회수: 213

REFERENCES

250905_DMQA_Openseminar_Bridging the Gap between Heterogeneous Data-Multimodal Representation Alignment via Disentangled Learning.pdf

INFORMATION

2025년 9월 5일
오전 10시 ~
온라인 비디오 시청 (YouTube)

발표자:

박현우

TOPIC

Bridging the Gap between Heterogeneous Data: Multimodal Representation Alignment via Disentangled Learning

On-Line Video

OVERVIEW

요약: 멀티모달 표현학습 모델은 데이터의 이질성(Heterogeneity), 즉 텍스트, 이미지, 음성 등 근본적으로 다른 데이터 분포를 통합하는 과정에서 여러 한계에 직면한다. 특히 모달리티 간 정보량의 불균형, 혹은 특정 모달리티에 포함된 상충하는 정보(conflicting information)가 다른 모달리티의 유용한 표현을 방해할 때, 학습이 불안정해지거나 정보 융합의 효율이 저하되는 현상이 보고된다. 이러한 문제는 인간의 감정을 분석하거나 복잡한 장면을 이해하는 등, 여러 감각 정보를 종합적으로 활용해야 하는 멀티모달 태스크에서 빈번히 관찰된다. 본 세미나에서는 이러한 이질성을 체계적으로 다루고 멀티모달 모델의 표현력을 강화하기 위해 발전해 온 멀티모달 분리 표현 학습(Multimodal Disentangled Representation Learning) 접근법들의 흐름을 소개한다.

참고자료:

[1] Hazarika, D., Zimmermann, R., & Poria, S. (2020). MISA: Modality-Invariant and -Specific Representations for Multimodal Sentiment Analysis. Proceedings of the 28th ACM International Conference on Multimedia, 1122–1131. https://doi.org/10.1145/3394171.3413678

[2] Li, Y., Wang, Y., & Cui, Z. (2023). Decoupled Multimodal Distilling for Emotion Recognition. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 6631–6640. https://doi.org/10.1109/CVPR52729.2023.00641

[3] Zhou, Y., Liang, X., Chen, H., Zhao, Y., Chen, X., & Yu, L. (2025). Triple disentangled representation learning for multimodal affective analysis. Information Fusion, 114, 102663. https://doi.org/10.1016/j.inffus.2024.102663

청취자 후기

심세진

이번 세미나는 멀티모달 표현학습에 대해 발표되었다. 사용자의 모달리티를 모두 활용하는 멀티 모달이 최근 크게 주목을 받고 있는 만큼, 좋은 주제를 세미나로 채택했다고 생각한다.

소개된 논문들은 모달리티별 고유 특징, 모든 모달리티에 대한 공유 특징을 모델이 잘 학습하면 성능이 올라간다는 개념의 분리 표현 학습에 대해 소개되었다. 이중 분리 개념을 처음에 소개한 MISA에서 시작되어 그래프 증류를 도입한 DMD, 삼중 분리 방법론을 제안한 TriDiRA까지 점점 방법론이 고도화 되며 정교화 되었다. attention을 통해 비효과적인 고유 특징을 삭제하고자 하는 TriDiRA의 아이디어가 인상 깊었다.

분리 표현학습이 다른 분야에 도입되었을 때의 성능이 궁금해졌으며, 어느 분야든 불필요한 정보 제거를 통한 성능 향상이 중요하다는 것을 다시 한번 느낄 수 있었다. 좋은 세미나 준비해준 박현우 연구원에게 고생했다는 이야기를 남기며 세미나 후기를 마무리한다.

김성수

이번 세미나는 멀티모달 학습 시, 이질적일 수 있는 Feature들을 효과적으로 활용하는 방법에 대해 소개한다. 가장 쉬운 접근은 각 모달리티 별 공유 특징과 고유 특징을 분리하여 학습하는 것이다 (2020 ACM). 그러나, 모든 모달리티를 동일하게 활용한다면, 특정 모달리티 정보는 무시될 수 있다. 이에 따라, 약한 모달리티 정보를 강화하기 위해 강한 모달리티로부터 정보를 증류 받는다 (2023 CVPR). 또한, 단순하게 정보를 공유&고유 2개로만 분리하는 것은 비효과적일 수 있다. 이에 따라, 고유 정보에서 효과적인 고유정보와 비효과적인 고유정보로 나누어 접근함으로써 불필요한 정보는 배제하여 성능 향상을 이뤘다. (2025 Information Fusion). 본 세미나의 핵심은 역시 공유&고유 정보 분리이다. 이러한 분리를 위해 활용된 기법은 “직교”, “대조학습 컨셉”, “HSIC” 등이 있었다. 또한, 가장 기억에 남는 것은 그래프 기반 전략이다. 각 모달리티 별 예측값 차이를 통해 모달리티 별 가중치(?)를 조절하는데, 본 세미나 문제상황 외에도 다양한 Feature가 존재하는 상황에서 간단하면서도 효과적으로 작동할 것 같았다. 유익한 세미나를 준비해준 박현우 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.

Seminar