- 2024년 7월 12일 오후 12:25
- 조회수: 32270
INFORMATION
- 2024년 7월 12일
- 오후 12시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
청취자 후기

Multimodal Representation Learning에 대해 진행되었다. 즉, 여러개 Modality를 한꺼번에 Representation Learning하는 방법론이다. 각 방법론 특징은 아래와 같다.
1) CorrMCNN, CorrRNN: 각 Modality 간 상관관계를 최대화하고, 잘 복원하도록 학습한다. 조금 특이한 점은 Modality A로 Modality B의 Embedding을 잘 복원하도록 하는 Task이다. 또한, 두 Loss가 꽤나 핵심적인 방향이어서 그런진 모르겠지만, 두 부분이 주장하는 핵심 부분이 상당히 비슷하다.
2) MultiMAE: Masked AutoEncoder를 Multimodal로 적용하였다. 여러 Modality에서 Feature를 뽑고, 이를 Concat 후, Encoder에 넣는다. 이때 Decoding은 서로 다른 Decoder를 통해 진행된다.
본 세미나를 청취하면서 상관관계를 최대화하는 Loss 및 서로 다른 Modality를 복원하는 부분이 가장 인상 깊었다. 특히, 서로 다른 Modality를 활용하는 경우, 서로를 복원하는 Task는 간단하면서도 꽤나 효과적이었다. 유익한 세미나를 준비해준 백민지 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.

Multi-modal representation learning을 주제로 한 세미나를 청취하였다. 3가지 paper를 리뷰하는 방식의 세미나였는데, 각 논문별 인상 깊었던 점은 아래와 같다.
1. Bhatt et al. (2019)에서는 cross reconstruction error와 maximization of correlation across multi-viewed data가 멀티 모달 모델링 관점에서 참 좋은 아이디어 같다는 생각을 하였다. 해당 분야의 성능 평가 부문으로는 'downstream task의 performance evaluation'와 '서로 다른 모달간 correlation을 얼마나 잘 높게 추정하는지 확인'이 있었는데, 두번째 성능 평가 방식이 나에게 새로운 부분이었다.
2. Yang et al. (2017)에서는 multi-modal data in the form of temporal data을 효과적으로 학습하기 위한 전략들을 다루었다. Multi-modal representation learnong을 위한 backbone architecture를 어떻게 구성할지가 관건인 연구였다. 실험 섹션에서는 학습 단계와 테스팅 단계에서 서로 다른 모달리티를 가짐에도 좋은 성능을 보이는 결과가 있었는데, 이 부분이 많이 실용적이다고 생각하여 흥미로웠다.
3. Bachmann et al. (2022)에서는 single-modal data의 유명 representation learning 알고리즘인 masked autoencoder (MAE)를 multi-modal 형태로 확장한 연구였다. Cross-modal predictive coding 실험 섹션이 개인적으로 가장 흥미로웠다. 모델이 서로 다른 모달간 깊은 상관관계를 잘 학습하였다는 가정하에 특정 모달 데이터를 변형한 뒤, 변형된 내용을 반영한 다른 모달리티 이미지 재구축을 통해 image editing을 시도한 결과물이었다.