- 2025년 9월 2일 오후 10:21
- 조회수: 423
INFORMATION
- 2025년 9월 5일
- 오전 10시 ~
온라인 비디오 시청 (YouTube)
박현우
TOPIC
On-Line Video
OVERVIEW
요약: 멀티모달 표현학습 모델은 데이터의 이질성(Heterogeneity), 즉 텍스트, 이미지, 음성 등 근본적으로 다른 데이터 분포를 통합하는 과정에서 여러 한계에 직면한다. 특히 모달리티 간 정보량의 불균형, 혹은 특정 모달리티에 포함된 상충하는 정보(conflicting information)가 다른 모달리티의 유용한 표현을 방해할 때, 학습이 불안정해지거나 정보 융합의 효율이 저하되는 현상이 보고된다. 이러한 문제는 인간의 감정을 분석하거나 복잡한 장면을 이해하는 등, 여러 감각 정보를 종합적으로 활용해야 하는 멀티모달 태스크에서 빈번히 관찰된다. 본 세미나에서는 이러한 이질성을 체계적으로 다루고 멀티모달 모델의 표현력을 강화하기 위해 발전해 온 멀티모달 분리 표현 학습(Multimodal Disentangled Representation Learning) 접근법들의 흐름을 소개한다.
참고자료:
[1]
[2]
[3] Zhou, Y., Liang, X., Chen, H., Zhao, Y., Chen, X., & Yu, L. (2025). Triple disentangled representation learning for multimodal affective analysis. Information Fusion, 114, 102663. https://doi.org/10.1016/j.inffus.2024.102663
청취자 후기
심세진
이번 세미나는 멀티모달 표현학습에 대해 발표되었다. 사용자의 모달리티를 모두 활용하는 멀티 모달이 최근 크게 주목을 받고 있는 만큼, 좋은 주제를 세미나로 채택했다고 생각한다.
소개된 논문들은 모달리티별 고유 특징, 모든 모달리티에 대한 공유 특징을 모델이 잘 학습하면 성능이 올라간다는 개념의 분리 표현 학습에 대해 소개되었다. 이중 분리 개념을 처음에 소개한 MISA에서 시작되어 그래프 증류를 도입한 DMD, 삼중 분리 방법론을 제안한 TriDiRA까지 점점 방법론이 고도화 되며 정교화 되었다. attention을 통해 비효과적인 고유 특징을 삭제하고자 하는 TriDiRA의 아이디어가 인상 깊었다.
분리 표현학습이 다른 분야에 도입되었을 때의 성능이 궁금해졌으며, 어느 분야든 불필요한 정보 제거를 통한 성능 향상이 중요하다는 것을 다시 한번 느낄 수 있었다. 좋은 세미나 준비해준 박현우 연구원에게 고생했다는 이야기를 남기며 세미나 후기를 마무리한다.
김성수
이번 세미나는 멀티모달 학습 시, 이질적일 수 있는 Feature들을 효과적으로 활용하는 방법에 대해 소개한다. 가장 쉬운 접근은 각 모달리티 별 공유 특징과 고유 특징을 분리하여 학습하는 것이다 (2020 ACM). 그러나, 모든 모달리티를 동일하게 활용한다면, 특정 모달리티 정보는 무시될 수 있다. 이에 따라, 약한 모달리티 정보를 강화하기 위해 강한 모달리티로부터 정보를 증류 받는다 (2023 CVPR). 또한, 단순하게 정보를 공유&고유 2개로만 분리하는 것은 비효과적일 수 있다. 이에 따라, 고유 정보에서 효과적인 고유정보와 비효과적인 고유정보로 나누어 접근함으로써 불필요한 정보는 배제하여 성능 향상을 이뤘다. (2025 Information Fusion). 본 세미나의 핵심은 역시 공유&고유 정보 분리이다. 이러한 분리를 위해 활용된 기법은 “직교”, “대조학습 컨셉”, “HSIC” 등이 있었다. 또한, 가장 기억에 남는 것은 그래프 기반 전략이다. 각 모달리티 별 예측값 차이를 통해 모달리티 별 가중치(?)를 조절하는데, 본 세미나 문제상황 외에도 다양한 Feature가 존재하는 상황에서 간단하면서도 효과적으로 작동할 것 같았다. 유익한 세미나를 준비해준 박현우 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.
송하영
이번 세미나는 각 데이터의 이질성에 대해서 멀티모달 학습 방법론이 부분 공간 분리의 개념을 통해 어떻게 학습하는지를 소개한다.
첫번째로 MISA (ACM, 2020)에서는 각 모달리티 정보를 두개의 부분 공간으로 분리하여 학습을 하는 방법을 제시했으며, 직관적인 아이디어에서 출발했다고 생각이된다.
두번째 DMD(CVPR, 2023)에서는 MISA의 가정처럼 모든 모달리티가 task에서 각 모달리티의 데이터들이 동등하게 기여한다는 점이 현실세계와 맞지 않다라는 문제의식을 가지고 데이터간의 성능 불균형을 지식 증류를 통해 개선하겠다는 점이 인상적이었다. 예를 들어 이미지 도메인에서 강한 정보를 들고 있다면 그 정보를 나머지 도메인에 증류해주는 형식으로 지식 증류가 진행이 된다.
마지막으로 TriDiRA (Information Fusion, 2025)에서는 기존 두 연구에서 사용한 이중 분리 프레임워크가 최선인지에 대한 문제의식을 제기한다. 이에 따라 특징을 공유 특징, 효과적인 고유 특징, 비효과적인 고유 특징으로 세분화하여 학습을 진행하며, 이러한 접근 방식이 기존 방법론보다 더욱 직관적으로 느껴졌다.
이번 세미나를 통해 특히 인상 깊었던 점은, 기존에 단순히 모델 경량화나 성능 향상을 위한 기법으로 알고만 있던 지식 증류가 서로 다른 도메인 정보 전달로 확장될 수 있다는 점이었다. 이런 전략은 멀티모달 학습 방법론 뿐만 아니라 다양한 상황에서도 쓸 수 있을 것이라는 판단이 들었으며, 나의 연구에도 적용할 수 있는 가능성에 대해 고민해볼 수 있는 계기가 되었다.
유익한 세미나를 준비해주시는 박현우 연구원님께 감사의 말씀을 전하며 본 세미나의 후기를 마친다.