- 2024년 7월 12일 오후 12:25
- 조회수: 32523
INFORMATION
- 2024년 7월 12일
- 오후 12시 ~
온라인 비디오 시청 (YouTube)
백민지
TOPIC
On-Line Video
OVERVIEW
청취자 후기
김성수
Multimodal Representation Learning에 대해 진행되었다. 즉, 여러개 Modality를 한꺼번에 Representation Learning하는 방법론이다. 각 방법론 특징은 아래와 같다.
1) CorrMCNN, CorrRNN: 각 Modality 간 상관관계를 최대화하고, 잘 복원하도록 학습한다. 조금 특이한 점은 Modality A로 Modality B의 Embedding을 잘 복원하도록 하는 Task이다. 또한, 두 Loss가 꽤나 핵심적인 방향이어서 그런진 모르겠지만, 두 부분이 주장하는 핵심 부분이 상당히 비슷하다.
2) MultiMAE: Masked AutoEncoder를 Multimodal로 적용하였다. 여러 Modality에서 Feature를 뽑고, 이를 Concat 후, Encoder에 넣는다. 이때 Decoding은 서로 다른 Decoder를 통해 진행된다.
본 세미나를 청취하면서 상관관계를 최대화하는 Loss 및 서로 다른 Modality를 복원하는 부분이 가장 인상 깊었다. 특히, 서로 다른 Modality를 활용하는 경우, 서로를 복원하는 Task는 간단하면서도 꽤나 효과적이었다. 유익한 세미나를 준비해준 백민지 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.
배진수
Multi-modal representation learning을 주제로 한 세미나를 청취하였다. 3가지 paper를 리뷰하는 방식의 세미나였는데, 각 논문별 인상 깊었던 점은 아래와 같다.
1. Bhatt et al. (2019)에서는 cross reconstruction error와 maximization of correlation across multi-viewed data가 멀티 모달 모델링 관점에서 참 좋은 아이디어 같다는 생각을 하였다. 해당 분야의 성능 평가 부문으로는 'downstream task의 performance evaluation'와 '서로 다른 모달간 correlation을 얼마나 잘 높게 추정하는지 확인'이 있었는데, 두번째 성능 평가 방식이 나에게 새로운 부분이었다.
2. Yang et al. (2017)에서는 multi-modal data in the form of temporal data을 효과적으로 학습하기 위한 전략들을 다루었다. Multi-modal representation learnong을 위한 backbone architecture를 어떻게 구성할지가 관건인 연구였다. 실험 섹션에서는 학습 단계와 테스팅 단계에서 서로 다른 모달리티를 가짐에도 좋은 성능을 보이는 결과가 있었는데, 이 부분이 많이 실용적이다고 생각하여 흥미로웠다.
3. Bachmann et al. (2022)에서는 single-modal data의 유명 representation learning 알고리즘인 masked autoencoder (MAE)를 multi-modal 형태로 확장한 연구였다. Cross-modal predictive coding 실험 섹션이 개인적으로 가장 흥미로웠다. 모델이 서로 다른 모달간 깊은 상관관계를 잘 학습하였다는 가정하에 특정 모달 데이터를 변형한 뒤, 변형된 내용을 반영한 다른 모달리티 이미지 재구축을 통해 image editing을 시도한 결과물이었다.