- 2022년 7월 29일 오후 1:33
- 조회수: 7766
REFERENCES
INFORMATION
- 2022년 7월 29일
- 오후 1시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
요약 : 다양한 modality의 데이터 수집이 가능해지면서 여러 modality 정보를 통합하여 더 풍부한 정보를 압축하고 있는 표현 벡터를 생성하고 활용하는 Multimodal Representation Learning에 관한 연구가 여러 분야에서 진행되고 있다.
Multimodal Representation Learning은 각 modality가 가지고 있는 heterogeneity gap을 줄여, 공동 부분 공간에 표현 벡터를 매핑하는 것을 목적으로 한다. 이번 세미나에서는 heterogeneity gap을 줄이는 3가지 방법과 이를 적용한 여러 연구들을 소개하려고 한다.
참고 문헌 :
[1] W. Guo, J. Wang and S. Wang, "Deep Multimodal Representation Learning: A Survey," in IEEE Access, vol. 7, pp. 63373-63394, 2019, doi: 10.1109/ACCESS.2019.2916887.
[2] Fukui, A., Park, D. H., Yang, D., Rohrbach, A., Darrell, T., & Rohrbach, M. (2016). Multimodal compact bilinear pooling for visual question answering and visual grounding. arXiv preprint arXiv:1606.01847.
[3] Karpathy, A., & Fei-Fei, L. (2015). Deep visual-semantic alignments for generating image descriptions. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 3128-3137).
[4] Aytar, Y., Castrejon, L., Vondrick, C., Pirsiavash, H., & Torralba, A. (2017). Cross-modal scene networks. IEEE transactions on pattern analysis and machine intelligence, 40(10), 2303-2314.
청취자 후기

이번 세미나는 Multimodal Representation Learning에 대해 진행되었다. Multimodal Learning이란 말 그대로 두 가지 이상의 Modality를 결합하여 학습하는 것을 말한다. Multimodal Learning은 각 Modality에서 Feature를 추출한 후 해당 Feature들을 결합하여 학습한다. 이 때 두 Feature는 상이한 Representation을 가지고 있기에 세미나에서 말하는 “Heterogeneity Gap”이 존재한다.
이러한 Heterogeneity Gap을 줄이기 위한 방법론으로 본 세미나에서는 3가지를 다룬다. 먼저 Joint Representation은 단순 결합을 하거나, 가중합을 하거나, 외적을 통해 결합한다. 이러한 방식은 Modality의 개수와 상관없이 정보 융합이 편하다는 장점이 있다. 또한 Coordinated Representation의 경우 각 Modality Representation을 분리해서 매핑하여 다른 Modality더라도 의미가 유사하면 가깝게 Mapping하는 방법론을 의미한다. 그 중 Cross-modal Ranking 방식은 Contrastive Learning의 느낌처럼 쌍을 이루는 다른 Modality 간 유사성은 크도록, 쌍이 아닌 Modality 간 유사성은 작도록 제약을 준다는 것이 인상깊었다. 마지막으로 Encoder-decoder Representation은 Source Modality – Latent Vector – Target Modality로 연결되는 특징을 가지고 있다. 즉, 이를 통해 새로운 샘플을 생성할 수 있다는 장점을 가지지만 반대로 생성하는 것은 불가능하다는 특징을 갖는다.
개인적으로 연구하고 있는 Scene Text Recognition이나 수행하고 있는 다수 프로젝트에서 Multimodal을 기반으로 접근하는 방법론이 많았어서 꽤나 흥미로운 세미나였다. 사람의 입장에서도 Unimodal 정보보다는 Multimodal 정보를 고려할 때 기억에 더욱 남는 것처럼, 모델의 입장에서도 더 유리해지지 않을까 생각된다. 조만간 Multimodal Learning을 활용할 Task가 있을 것 같은데, 이번 세미나는 큰 방향을 잡을 수 있는 좋은 계기가 되었다. 유익한 세미나를 준비해주신 고은성 연구원님께 감사드리며 이상으로 세미나 후기를 마친다.

이번 세미나는 Multimodal Representation Learning이라는 주제로 진행되었다. 우선 Modality는 정보를 인코딩하는 방식으로 이미지, 텍스트, signal 등 데이터의 유형을 뜻한다고 할 수 있다. 보통 일반적인 Task는 Unimodal로서 이미지 분석이면 이미지만 사용, Text분석이면 Text만 사용하는데 Multimodal은 다양한 madality를 사용 함으로서 서로 상호 보완적으로 정보를 공유하고 더 정확하게 특징 추출이 가능하여 많은 관심을 받고 있는 분야 중 하나라고 한다. 하지만 Multimodal Representation을 생성할 때 가장 큰 이슈는 Heterogeneity Gap이며 이는 다양한 modality의 쌍을 이루는 데이터가 상이한 representation을 가지는 것으로서 Heterogeneity Gap이 크면 클 수록 multimodal 데이터가 효과적으로 사용되는 것을 방해한다고 한다. 따라서 서로 다른 Modality의 Heterogeneity Gap을 줄여서 representation vector를 매핑하는 것이 중요하며 이를 위해서 3가지 방법론, Joint/Coordinated/Encoder-decoder Representation을 차례로 설명해주었다. 뿐만 아니라 각각의 장단점 또한 쉽게 설명해주어 방법론의 차이를 이해하는데 많은 도움이 된 것 같다. 이론적인 학습 데이터가 아닌 실생활 문제를 해결하려면 Multimodal의 데이터를 잘 활용하는 것이 성능 향상의 Key가 될 것이라는 생각이 들었으며 본 세미나에서 설명한 방법론을 더불어 다양한 Domain/Modality의 학습 또한 중요하다는 생각이 들었다. 좋은 세미나를 준비해 주신 고은성 연구원님께 감사드리며 이상으로 세미나 후기를 마친다.

이번 세미나는 Multimodal Representation Learning에 대해 진행되었다. Multimodal Learning이란, 서로 다른 두 개 이상의 Modality를 활용하여 풀고자 하는 문제를 해결하는 모델을 학습하는 것을 말한다. Multimodal learning은 서로 다른 modality에서 추출된 특징을 결합해 상호보완적인 정보를 공유하고 좀 더 정확한 특징 추출이 가능한 장점을 갖고 있다. 하지만, 쌍을 이루는 각 modality에서 추출된 feature가 서로 상이한 representation을 가진다는 heterogeneity gap 문제가 존재하고 heterogeneity gap을 줄이기 위한 여러 연구가 진행되고 있다. 그중 본 세미나에서는 3가지 방법을 소개하고 있다.
먼저, Joint Representation은 각 modality 별로 feature를 추출하고 추출된 feature를 결합하여 common subspace에 하나의 feature로 대응하는 방법이다. 서로 다른 modality에서 추출된 feature를 결합하는 방식에는 그저 추출된 feature를 그저 결합하는 방식인 concatenate, 가중 합하여 하나의 feature로 표현하는 Additive Approach 방식, 외적을 진행하여 결합하는 Multiplicative Approach 방식이 존재한다. 두 번째로 소개된 Coordinated Representation은 제약을 주어 다른 modality라도 같은 의미가 있으면 가깝게 대응하는 방식이다. 마지막으로 Encoder와 Decoder를 사용해 하나의 modality를 다른 modality의 representation space에 대응하는 Encoder-Decoder Representation 방식이 존재한다. 본 방식은 Encoder에 입력되는 modality를 활용해 Decoder를 통해 입력과 다른 새로운 modality 샘플 생성이 가능하다는 장점과 이미 학습된 encoder와 decoder에 새로운 modality를 입력으로 주어 다른 modality를 생성하는 것은 불가능하다는 단점이 존재한다.
Multimodal Learning에서 발생하는 heterogeneity gap을 줄이는 방법론으로 3가지가 설명되었고 각 방법에 해당하는 여러 방식에 대한 추가 설명과 더불어 각 방법론과 관련된 논문에 대한 설명 덕분에 Multimodal Learning에 대한 이해가 수월했다. 또한 평소 Multimodal Learning이 어떻게 진행되는지 궁금했었는데 본 세미나를 통해 궁금증을 해소할 수 있었다. 유익한 세미나를 준비해준 고은성 연구원에게 감사드리며 이상으로 세미나 후기를 마친다.

데이터는 여러 가지 형태로 인코딩 할 수 있다. 예를 들어, '배진수'에 대한 데이터는 사진으로 표현할 수도 있고, 자기 소개(글 혹은 동영상 녹화)로 표현할 수 있다. 이 때, '배진수'라는 데이터에 대해 '사진', '글', '동영상' 같은 요소들을 데이터 Modality라 한다. 금일 세미나는 여러 Modality를 동시에 활용할 수 있는 딥러닝 표현학습에 관한 내용이였다. Modality를 1개 사용하는 Unimodal 대비 여러 Modality를 사용하여 얻는 장점과 딥러닝 표현학습 과정에서 생길 수 있는 이슈사항을 배울 수 있었고, 이에 대한 대처 방안 연구들을 오늘 은성이가 잘 소개해주었다. Modality 별 특징 벡터를 효과적으로 Aggregation하는 방법이 여러 가지 소개되어 있으니, 나처럼 단순하게 합치거나 더하는 방법만 알고 있던 연구원들은 꼭 듣기를 추천합니다. 좋은 세미나를 준비해준 은성이에게 감사의 말씀을 전하며 세미나 후기를 마치도록 한다.