- 2021년 11월 3일 오후 3:58
- 조회수: 9342
INFORMATION
- 2021년 11월 5일
- 오후 1시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
청취자 후기

이번 세미나는 'Multimodal Learning'을 주제로 진행되었다. 멀티모달 러닝이란 단일 모달 데이터, 즉 단일 데이터 형태만을 학습에 이용하는 한계를 극복하고자 여러 모달의 데이터를 사용해 주어진 문제를 해결하는 모델을 구축하는 방법론을 말한다. 이는 주로 인간의 행동 인식이나 감정 인식 등의 문제에서 활발히 연구되고 있는 분야로, 단일모달 활용시보다 더 우수한 성능을 입증하고 있다. 멀티모달 딥러닝은 각 모달에 적합한 딥러닝 구조를 사용하여 특징벡터를 추출하고, 이를 기반으로 각 모달을 통합한다. 본 세미나에서는 추출된 특징벡터를 분석 목적에 따라 어떻게 통합할지에 대한 다양한 아이디어를 담은 여러 논문을 소개해주었다. 다양한 방법론 중에서도, 시간과 비용이 많이 드는 레이블링 과정이 불필요한 self-supervised learning을 기반으로 멀티모달 러닝이 연구되고 있는 점이 가장 흥미로웠다. 이와 관련하여 소개해준 Vatt는 트랜스포머에서 추출된 각 모달의 특징벡터를 contrastive learning 기반으로 학습시키며, 각 모달의 특징에 맞는 손실함수(NCE loss / MIL-NCE loss)를 사용하였다. 지난 세미나에 이어 이번 세미나 역시 현재 진행 중인 프로젝트 주제와 맞닿아 있어 흥미롭게 시청하였다. 현재는 멀티태스크 러닝에 관해 연구를 진행 중이지만, 추후 멀티모달 러닝까지 확장시켜 나가면 좋을 것 같다는 생각이 들었다. 깔끔한 구성으로 다양한 논문을 알기 쉽게 소개해주신 석호오빠께 감사한 마음을 전하며 이상으로 후기를 마친다.

금일 세미나는 여러 개의 모달 데이터를 하나의 딥러닝 프레임워크로 학습하는 방법을 소개해주었다. 이름은 Multimodal Learning이다. 주로 사용되는 분야는 인간의 감정 인식이며, 이는 사람의 감정이 얼굴 표정(이미지)뿐만 아니라 목소리(음성), 말하는 투(Text)에서도 드러나기 때문이다.
금일 세미나에서는 각각의 모달로부터 추출된 특징들을 어떻게 잘 합쳐 유의미한 분석을 하는지 소개되었다. "어떻게 잘 합쳐"에서는 히든-벡터(각 모달별 핵심 특징을 내포하고 있는) concat, LSTM 활용(각 모달별 특징 사이의 관계 학습), tensor fusion(모달간 특징벡터의 새로운 concat 방식)을 소개해주었다. 추출된 특징의 품질을 높이는 방향도 함께 소개되었는데 이 부분은 자가지도학습을 활용하였다.
각 모달별 feature 결합 방식에서 LSTM과 tensor fusion이 흥미로웠으며, 멀티 모달간 자가지도학습 부분을 재밌게 이해할 수 있는 시간이였다.

이번 세미나는 ‘Multimodal Learning’을 주제로 세미나가 진행됐다. 데이터의 형태는 흔히 이미지, 음성, 텍스트 등 단일한 형태로 구분한다. 이렇게 단일한 데이터를 가지고도 많은 성과를 얻었으나, 사람의 감정 분석과 같은 task의 경우 이와 같은 데이터를 사용하여 분석하면 한계가 나타난다. 따라서 한계점을 극복하고자 단일한 형태의 데이터를 사용하는 것이 아닌 여러 형태의 데이터를 사용하여 문제를 해결하는 방법을 Multimodal learning이라고 한다. Multimodal learning에는 feature concatenation과 ensemble classifier로 크게 2가지 방법이 존재한다. 최근 많이 쓰이는 방법은 feature concatenation 방법으로 각 데이터에서 feature vector들을 뽑은 뒤, flatten과 concat을 거쳐 하나의 feature vector로 만들어준다. 그리고 이를 input으로 사용하여 output을 뽑아내는 방식이다.
Multimodal learning과 관련된 여러 논문 중 가장 인상깊었던 논문은 Tensor fusion network for multimodal sentiment analysis였다. 이전에 소개했던 대부분의 논문들은 기존의 모델을 어떻게 사용하는지에 대한 논문들로 보인다. 반면 Tensor fusion network for multimodal sentiment analysis는 모델보다는 추출한 feature vector를 어떻게 concat하는지에 대하여 고안하였다. 단순히 flatten을 하는 것이 아니라 추출한 각 feature vector를 축으로 삼고, 이를 바탕으로 각각의 feature로 연산을 하여 bimodal과 trimodal을 만들어서 input으로 사용한다는 점이 매우 흥미로웠다. 이번 세미나를 통해 Multimodal에 대해서 개념을 잡을 수 있었으며, 새로운 방법론들을 많이 확인할 수 있었다. 유익한 세미나를 준비해주셔서 감사하다는 마음을 전하며 후기를 마무리한다.

이번 세미나는 "Multimodal Learning"이라는 주제로 진행됐다. 감정분류와 같은 task는 단순히 비디오 혹은 텍스트와 같이 하나의 modality만 활용할 경우 task를 정확하게 수행하기 어렵다. 따라서 서로 다른 형태의 데이터를 동시에 활용하는 Multimodal learning 방식이 주로 활용된다. 이번 세미나에서는 기본적인 Multimodal learning 방식부터 최근의 연구 흐름까지에 대해서 소개되었다. Multimodal learning 각 데이터의 특성에 맞는 특징 추출 모델을 활용하여 각 modality의 특징 벡터를 만들어 낸다. 이후 feature vector를 모두 합쳐주거나 각 feature vector 별로 분류기를 만들어 앙상블을 하는 형태로 최종적인 결과를 도출하게 된다. 초기의 Multimodal learning은 위의 feature를 효율적으로 병합하는 방식에 초점을 맞추어 연구가 진행되었다. 대표적으로 세미나에서 소개된 Tensor fusion network의 경우 각 feature vector의 상관관계를 계산하여 최종적인 feature vector를 구성하게 된다. 이를 통해 각 modality 사이의 상관관계를 반영할 수 있어 단순히 feature vector를 병합하는 방법에 비해 우수한 성능을 보이게 된다. 최근에는 self-supervised learning과 transformer를 활용한 방법론들이 활발하게 연구되고 있다. VATT에서는 동일한 시점에 대한 비디오-오디오, 비디오-텍스트 데이터에 대해서 positive pair로 정의하여 contrastive learning을 수행하여 데이터의 특징을 추출하게 된다. 이번 세미나를 통해 Multimodal learning에 대해 전반적으로 살펴볼 수 있는 의미 있는 세미나였다. 세미나를 위해 고생해준 석호형에게 감사의 뜻을 전한다.

이번 세미나는 Multimodal learning을 주제로 진행되었다. 멀티모달 딥러닝이란, 여러개의 데이터를 사용하여 주어진 문제를 해결하는 모델을 구축하는 방법론을 말한다. 모달이란 데이터의 형태를 의미하는 것으로, 멀티모달 딥러닝은 각각의 모달로 부터 feature를 연결시키거나, 앙상블 방법을 사용해서 통합하는 방식으로 학습한다. 최근에는 모달별 feature를 잘 연결시키는 방향으로 연구가 다수 진행되고 있다. 세미나에서는 이러한 멀티모달 러닝에 대한 다양한 예시를 들어주었다. Audio부분에서 소리 음원과, 사람의 입술 모양을 통합하여 각각의 feature를 simple하게 merge하는가 하면, 운전자의 스트레스 수준을 예측하는 것을 ECG신호, 차량 센서데이터, 기상데이터등을 결합해서 학습하기도 하였다. 가장 흥미로운 것은 여러가지 모달의 데이터를 토큰화한 다음 linear projection을 통해 트랜스포머에 넣는 방식이었다. 트랜스포머를 통해 추출된 다양한 video audio text등의 특징 벡터를 contrastive learing 기반으로 각각을 연결시켜서 pair로 학습시키는 것이, 마치 인간이 청각, 시각 등의 서로 다른 감각들을 연결시켜서 학습하는 것과 굉장히 유사하다는 느낌이 들어서 굉장히 흥미로웠다. 또 이렇게 다양한 feature를 기반으로 학습시켰을 때 성능도 매우 좋은 것이 좋았다. 다만 이런식으로 데이터를 다루면 컴퓨팅 자원은 상당하겠다는 생각도 들었다.
멀티모달 러닝을 산업에 연결시킨다면, 서버에 있는 서로 다른 종류의 데이터들을 하나의 제품 품질을 예측하는 태스크로 사용한다면 굉장히 효과적일 것이란 생각이 든다. 실제로 더 영향도가 높은 feature들을 일일히 엔지니어가 분석하지 않아도, 모델에 그저 input으로 다 집어넣은다음에 예측하게 했을 때 상당히 좋은 결과가 있지 않을까 싶다. 멀티 모달 러닝 자체가 특정 도메인에 특정되지 않고 다양하게 범용적으로 적용될 수 있을 것 같아 굉장히 현실적으로 사용처가 많을 거란 생각이 든다. 아주 직관적인 설명과 함께, 다양한 사례를 논문을 통해 알기 쉽게 알려줘서 정말 배운게 많았다. 이해하기 쉽게 세미나를 진행해준 석호에게 감사의 인사를 전한다.

이번 세미나는 'Multimodal Deep Learning'이라는 주제로 진행되었다. 멀티모달 딥러닝이란 단일 모달 데이터의 한계를 극복하고자 여러 모달의 데이터를 사용하여 주어진 문제를 해결하는 모델을 구축하는 방법론이다. 여기서 모달(modality)이라는 것은 데이터의 형태를 의미한다.
멀티모달은 딥러닝은 각 모달에 적합한 딥러닝 구조를 사용하여 특징 벡터를 추출한다. 모달을 통합하는 방식에는 대표적으로 feature concatenation 방법과 ensemble classifier 두 가지 방법이 존재한다. 최근에는 feature concatenation 방식에서 transformer 계열까지 적용한 구조까지 발전 중이다.
본 세미나에서는 음성 향상, 운전자 스트레스 분석 및 감지, 인간 감정 인식 등 멀티 모달 딥러닝이 적용될 수 있는 상황과 함께 추출된 vector를 어떻게 통합(concatenation)할지에 대해 방법을 제안한 다양한 논문을 소개하였다. 소개된 많은 방법론 중에서도 tesor fusion 방식이 가장 흥미로웠다. Tensor Fusion이란 두 개의 모달(Bimodal)과 세 개의 모달(Trimodal)의 특징을 모두 잡아낼 수 있는 장점이 있는 방법론이다.
현실세계의 다양한 상황에 적용할 수 있는 멀티 모달 딥러닝에 관심은 많았지만 구체적인 개념이 부족한 상태였다. 하지만 본 세미나를 통해 멀티 모달 딥러닝에 대한 이해와 관련된 논문을 습득할 수 있었다. 좋은 세미나를 준비해주신 석호형께 감사의 말씀을 드리며 세미나 후기를 마무리한다.