- 2023년 11월 17일 오후 1:03
- 조회수: 24695
INFORMATION
- 2023년 11월 17일
- 오후 12시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
청취자 후기

금일 세미나는 multi-modal contrastive learning과 관련하여 진혁이형이 진행하였다. multi-modal의 상황은 모델을 학습할 때 하나의 데이터 타입이 아닌 서로 다른 다양한 데이터 타입을 활용하는 상황을 가정한다. 이러한 상황 속에서 기존 잘 알려져있는 contrastive learning과 접목하여, multi-modal contrastive learning을 VATT, CLIP, FDT 세 논문을 사례로 들어 설명해주었다.
VATT는 transformer 모델을 사용한 self-supervised learning 방식으로, video, audio, text 세 종류의 domain dataset을 적용한다. NCE Loss 기반의 video-audio 한 쌍과 MIL-NCE loss 기반의 video-text 한 쌍으로 구성하여 모델을 학습한다.
CLIP은 대규모 데이터셋을 활용하여 pre-trained 모델을 생성한다. image와 text 두 종류의 domain dataset에 대해 적용하는데, image에 대해서는 ResNet-D을 활용하고, text에 대해서는 transfomer를 활용한다.
FDT는 CLIP의 semantic concept 문제를 해결하기 위해 제안된 연구로, learnable tokens를 적용하여 modal간 semantic concept를 공유함으로써 성능 향상을 도모한다.
연구 및 프로젝트 업무를 진행하다보면 한 종류의 데이터가 아닌 서로 다른 두 종류의 데이터를 다뤄야 할 경우가 종종 존재한다. 이럴 때마다 오늘 진혁이형이 진행해주신 multi-modal 세미나를 참조하면 좋을 것 같고, 다양한 학습 방법이 존재하겠지만 contrastive learning도 그 하나의 방법으로 고려해보면 좋겠다는 생각을 했다. 유익한 세미나를 준비하느라 고생하신 진혁이형께 감사의 말을 전하며 세미나 후기를 마친다.

이번 세미나는 "Multimodal Contrastive learning with various data domains"을 주제로 진행되었습니다. Multimodal learning은 서로 다른 데이터 유형을 함께 활용하는 학습 방식이며, 대조 학습은 레이블이 없는 데이터를 이용하여 유사한 이미지 샘플은 가깝게, 다른 이미지 샘플은 멀리 위치하도록 학습하는 방법입니다. 이 세미나에서는 두 학습 방법을 결합한 Multimodal Contrastive Learning에 관한 세 가지 논문이 소개되었습니다. 첫 번째 논문인 VATT는 Transformer 기반의 자기 지도 학습을 활용한 방법론으로, 비디오, 오디오, 텍스트 등 세 가지 modal을 활용했습니다. 이 연구에서는 모델의 복잡도를 줄이기 위해 비디오와 오디오에 대한 모든 토큰을 사용하는 것이 아니라 일부 토큰만을 선택적으로 활용하였습니다. 두 번째로 소개된 CLIP은 대량의 데이터셋을 활용하여 강건한 일반화 성능을 목표로 하며, 이미지와 텍스트 간의 관계를 학습하는데 유사도를 적극적으로 활용합니다. 마지막으로 소개된 논문은 CLIP의 한계점을 극복하기 위해 Finite Discrete Tokens(FDT)를 도입하였습니다. FDT는 modal 간 semantic concepts를 공유하는 데 사용되며, 이미지와 텍스트를 단순하게 align하여 학습을 진행하는 CLIP의 한계를 개선하는 데 기여하고 있습니다. Multimodal contrastive learning 연구가 보통 여러 모달 간 유사도를 기반으로 학습이 진행되고 있다는 컨셉(?)을 확인할 수 있었고 유익한 세미나를 준비해 준 진혁이형에게 감사드리며 이상으로 세미나 후기를 마친다.

Multimodal이란 이미지와 텍스트를 쌍으로 학습하는 것처럼 서로 다른 데이터 타입을 활용하는 것을 의미한다. Contrastive learning은 self supervised learning의 일종으로 유사한 데이터들은 가깝게 그리고 다른 데이터들은 멀어지도록 embedding을 학습하는 방법이다. 금일 세미나는 “multimodal contrastive learning with various data domains”를 주제로, multimodal 모델들에 contrastive learning을 적용한 방법론들에 대해 진행되었다.
[1] CVRL: multimodal은 아니지만, 비디오 데이터에 contrastive learning을 적용한 방법이다. 기존 방법론들은 비디오부터 clip들을 sampling할 때 랜덤한 방식을 사용하였지만, 해당 논문에서는 단조감소확률분포를 사용하여 가까운 시간대에 위치한 clip이 뽑힐 확률을 높였다. 또한 clip에 대해 colorization augmentation만을 사용하여 이미지의 temporal feature에 대한 손상을 막았다고 한다.
[2] VATT: 비디오, 오디오, 텍스트 3 modal에 transformer 기반 self supervised learning을 적용한 방법이다. 모델의 연산량을 줄이기 위해 drop token이라는 방식을 사용하였는데, drop token은 비디오, 오디오에 대한 토큰 시퀀스의 일부만을 입력으로 사용하는 것이다. VATT는 contrastive loss의 일종인 NCE loss 그리고 MIL-NCE loss를 사용하여 비디오-오디오 그리고 비디오-텍스트에 대한 representation을 학습하였다.
[3] CLIP: 이미지와 텍스트 데이터에 대한 embedding space를 학습한 방법이다. 이때 텍스트 ‘강아지’와 이미지 ‘강아지’와 같이 pair쌍이 동일한 embedding space에 위치하도록 하였으며, 이를 위해 이미지와 텍스트에 대한 cross entropy loss를 사용하였다.
[4] FDT: 기존 clip의 문제를 해결하기 위해 고안된 방법으로 기존 clip은 인코더를 통해 나온embedding을 사용하였다면, FDT는 learnable token을 도입하여 modal 간 semantic concept을 공유할 수 있도록 하였다.
현재 디퓨젼 모델에 대한 연구를 진행중인데, 디퓨젼 모델은 prompt를 입력 받아 원하는 이미지를 생성하기 위해 이미지-텍스트 multimodal을 사용한다. 이번 세미나를 통해 연구를 진행하며 마주쳤던 multimodal은 물론 이외에도 다양한 모델들에 대해 알게 되었다. 유익한 세미나를 준비해주신 진혁이형에게 감사의 인사를 전하며 세미나 후기를 마친다.

이번 세미나는 Multimodal 대조학습에 대해 진행되었다. Metric Learning에서 출발한 대조학습은 최근 다양한 도메인에서 많이 활용되고 있다. 특히, 자기지도학습이 등장하면서 대조학습은 하나의 부류로 자리매김했다. Multimodal 대조학습은 두 개 이상의 Modality(ex. 이미지+텍스트)에 대해 대조학습을 적용하는 것을 의미한다. 본 세미나에서는 크게 3가지 논문을 소개한다.
1) CVRL: 비디오 도메인에 대해 대조학습을 적용한 연구를 소개한다. 엄연히 보면 Multimodal은 아니다. 알고리즘적 상세한 소개가 없어 대조학습이 정확하게 어떻게 이루어지는 지는 모르겠지만, 본 세미나에서는 Positive Pair를 정의하는 데이터 증강의 특이점에 대해 상세히 소개한다. 이 때, 단순하게 Clip을 섞거나 재생속도를 변화시키는 것이 아닌, 유사한 Sample을 얻기 위해 길이가 짧은 인접기간에서 Clip을 Sampling한다.
2) VATT: Transformer 기반으로 3개의 Modality(비디오, 오디오, 텍스트)를 활용하여 대조학습을 수행한다. 이때, 비디오+오디오 / 비디오+텍스트의 2가지 Loss를 활용한다. 일반적인 대조학습처럼 각각 Modality 별로 Embedding Vector를 산출한 후 이들을 대조학습 수행하는 것이 아닌, 복잡도 감소를 위해 Drop Token을 적용하여 일부 Vector들에 대해서만 진행한다. (비디오-텍스트에 대해서는 적용하지 않는다고 하는데, 왜 적용하지 않는지 궁금하다. 아마 텍스트는 Sequential하지 않기 때문에??로 생각된다.)
3) FDT: 이는 Clip처럼 Text와 Image에 대한 대조학습을 수행하며, CLIP이 단순하게 Align하여 대조학습 하는 것을 극복하기 위해 제안되었다. 이때 Sematic Concept를 공유하는데, 쉽게 말해서 단순히 Align한다기 보다, Attention을 추가적으로 학습하여 가중치를 반영한 Align을 적용한다는 의의를 갖는다. 이는 Text와 Image Modality에 모두 적용된다.
본 세미나를 통해 여러 Modality에서 어떻게 대조학습이 수행되는지 알 수 있었다. 하나의 Modality를 사용할 때는 데이터 증강을 통해 Positive를 정의하지만, 여러 Modality를 사용할 경우 동일한 위치(프레임)의 다른 Modality Vector가 Positive가 되며, 다른 위치(프레임)의 Modality Vector는 Negative가 된다. 개인적으로는 본 주제가 꽤나 흥미로웠다. 다양한 Modality를 활용하여 학습하는 것은 추후 인공지능에서는 가장 기본적인 주제 중 하나가 되지 않을까 라는 개인적인 생각을 갖고 있어서 같다. 유익한 세미나를 준비해준 박진혁 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.

멀티 모달 딥러닝의 비지도학습에 관한 세미나를 청취하였다. GPT 3.5를 사용할 수 있게 되면서 연구실 삶이 많이 편해지게 되었는데, Text를 포함하여 Image, Video, Voice와 같은 요소들도 Prompt로 사용할 수 있게 되는 날이 빨리 오길 소망하곤 했는데, 본 세미나를 통해 그 날이 어서 빨리 올 수 있을 것이라는 확신이 들게 되었다. Video의 경우 저작권 문제로 Text 대비 사전학습용 데이터셋을 대규모로 구축하는 것이 어려워, 현 GPT 처럼 무료 버전으로 빠르게 풀릴 것이라 기대하지는 않지만, 본 세미나에서 소개하고 있는 연구들이 데이터 개수는 좀 부족하더라도 알고리즘 관점에서 성능을 잘 뒷받침해줄 수 있으면 좋겠다고 생각했다. 오늘 세미나에서는 대조학습 기반 멀티모달 비지도학습 알고리즘만 소개되었지만, 비디오나 오디오의 경우 false positive 문제 때문에 계속 한계점이 있을 것 같다. 개인적인 의견으로는 비디오, 오디오가 포함된 멀티모달 비지도학습에서는 non-contrastive 계열의 비지도학습 방법론이 더 편리한 결과를 가져다 주지 않을까 싶다. 좋은 세미나를 준비하시느라 고생한 진혁이 형에게 감사의 말씀을 전하며, 세미나 후기를 마치도록 한다.

이번 세미나는 Multimodal contrastive learning에 대해 진행되었다. 대조 학습은 자기지도학습 방법론 중 유사도 기반으로, 임베딩 공간에서 positive samples 끼리는 가깝게, negative samples 끼리는 멀게 학습되는 방법론이다. 그리고 일반적으로 이미지, 텍스트, 음성 등 각 데이터 타입을 하나씩만 이용하지만 여러 가지 데이터 타입을 같이 이용하여 모델을 학습시키는 방법론을 멀티 모달 러닝이라고 한다.
첫 번째 방법론인 VATT는 비디오, 오디오, 텍스트를 사용하였다. Transformer 기반의 방법론으로 drop token을 이용하여 성능은 유지하되 모델의 복잡도를 줄였고 비디오-오디오, 비디오-텍스트 쌍으로 학습을 진행한다. 논문에서는 다양한 down stream task에서 우수한 성능을 보여주었다.
그 후에 대규모 데이터셋으로 사전 학습 후 강건한 일반화 성능을 보여주는 CLIP이라는 방법론과 CLIP이 가지는 문제를 해결하기 위해 Finite Descrete Tokens(FDT)라는 테크닉을 사용한 논문에 대해 소개되었다. FDT를 통해 여러 모달 간 semantic concepts을 공유하도록 함으로써 성능을 향상시켰다. 논문에서는 해당 테크닉을 CLIP, DeCLIP 방법론에 결합하여 우수한 성능을 보여주었다.
이번 세미나를 통해 대조 학습과 멀티 모달 러닝에 대해 다시 한 번 리마인드 할 수 있었다. 그리고 이 두 가지를 결합하여 여러 타입의 데이터들을 같이 활용하면서 좋은 성능을 보여준 방법론들에 대해서도 알 수 있었다. 각 데이터 타입마다도 새로운 연구들이 활발히 진행되고 있기 때문에 멀티 모달 러닝 분야는 무궁무진한 분야라고 생각하고, 점점 더 커진 모델, 그리고 이를 경량화 시키면서 성능은 어느 정도 유지하는 모델들도 꾸준히 나올 것 같다. 유익한 세미나를 준비해 주신 진혁이형께 감사드리며 본 세미나 후기를 마친다.

이번 세미나는 Multimodal Contrastive Learning이라는 주제로 진행되었다. 우선 Multi-modal은 다양한 데이터 타입을 활용하는 학습 방식으로 보다 인간에 가깝기 때문에 발전 가능성이나 활용성이 매우 클것이라는 생각을 하며 세미나를 청취할 수 있었다. Kosmos 방법론으로 Multi-modal의 예시를 들어주었는데 사람도 헷갈려하는 문제들을 정확하게 해결하는것을 보니 매우 신기하였고 Multi-modal이 굉장히 매력적인 분야라는 생각이 들었다. 이어서 Contrastive Learning과 Loss에 대해서 예시를 들어가며 설명하여 쉽게 이해할 수 있었고 CVRL 방법론도 설명하였다. 특히 영상에서 Clip을 추출하게 되는데 이미지 증강 기법의 적용과 여러 Clip 간의 시간 t에 대한 고민을 볼 수 있어서 흥미로웠다. 다음으로 본격적으로 Multi-modal에 Contrastive learning을 적용한 방법론들을 설명하였다. 첫번째로 VATT를 소개하였는데, VATT는 Transformer를 기반으로 3개의 데이터 종류를 사용하는 방법론이다. 개인적으로 생각해봤을때 각각의 도메인 데이터를 Tokenization 하는 방법이 가장 궁금하였는데 그 과정을 알수 있었다. 그리고 Drop token을 무려 50%나 취해주게 되는데, 사람도 도메인 별로 서로 상호 보완하며 일부에서 정보를 얻는것을 생각해봤을때 복잡성을 줄이면서 성능은 유지하는 굉장히 효율적인 방법이라는 생각이 들었다. 그리고 비디오와 텍스트, 비디오와 오디오로 Loss를 나누어 계산하고 이를 합쳐서 학습을 하는것도 재밌었다. 두번째로 소개한 방법론은 CLIP인데, 과거 세미나로 들었던 방법론이어서 익숙하게 들을 수 있었다. 마지막으로 FDT를 소개하였다. CLIP이 단순하게 이미지와 텍스트를 align하여 학습을 진행하기 때문에 생기는 성능 저하를 해결한 방법론이며 CLIP과 유사하나 텍스트와 이미지간의 의미를 공유할 수 있도록 Finite Discrete Tokens를 설계함으로서 성능을 향상시켰다고 한다. 전혀 형태가 다른 도메인의 데이터를 활용하여 대조 학습을 수행한다는 것이 구체적으로 어떻게 동작하는지, Representation Vector는 어떻게 뽑아내며 학습이 진행되는지 등 직관적으로 와닿지 않았었는데 본 세미나를 통해서 일부 궁금점을 해소할 수 있었던것 같다. 다양한 형태의 데이터가 있고 이를 어떻게 활용하는지는 무궁무진한 방법이 있을것이라 생각되기에 새롭게 연구를 시작한다면 해볼만한 분야인것 같다. 이처럼 유익한 세미나를 준비해준 박진혁 연구원에게 고맙다는 인사를 전하며 이상으로 세미나 후기를 마친다.

Multi-modal 학습 중 대조 학습을 쓴 연구들에 대해 알아본 시간이었다. 이 분야를 안하는 사람이라도 기본적으로 CLIP에 대해서는 다 들어보았을 것이다. CLIP은 Text-to-Image 대조 학습으로 학습하여 Downstream task를 수행하는 모델로써, Open AI Dall E등에도 쓰이며 이전에 졸업생인 유이경 연구원이 다룬 적이 있다. 금일 세미나에서는 이 외에도 Vision Transformer 기반에 Text, Video, Audio 총 Tri-modal로 학습하는 VATT와 Learnable Token을 사용하여 CLIP에서 Semantic Similarity를 더욱 잘 잡도록 보완한 FDT가 주로 소개되었다.
굉장히 좋은 논문들이지만 Multi-modal 대조학습 자체는 큰 틀이 별로 바뀌지 않는다. 보통 이러한 학습들은 Positive Pair를 어떻게 잡냐에서 주요 기여점이 잡힌다. 일례로, 물성 예측 분야에서는 분자 구조 그래프와 그에 상응하는 SMILES 분자식이 Positive로 취급된다. 이렇게 했을 때 화학 분야에서 이점은 복잡한 구조는 잘 캐치하지만 덩치가 큰 분자의 표현을 잡기 어려운 GNN의 특징과, 덩치가 큰 분자의 표현은 잘 캐치하지만 3개 이상의 복잡한 고리가 뒤엉킨 분자의 표현을 표현하기 어려운 Transformer의 특징 벡터가 서로 상호보완을 할 수 있다는 것이다.
또한 Multi-modal 사전 학습은 대조학습 뿐만 아니라 비대조학습, 그 중에서도 Distillation 기반 학습도 스멀스멀 나오고 있음에 주목 해야한다. 아무래도 대조 학습의 특성 상 Memory Capacity가 일반적인 1 GPU PC에서는 쓰기 어렵기 때문이며, False Negative 문제가 존재하기 때문이다. 화학 분야에서는 이러한 단점을 보완하기 위해 Dual-view Molecule Pre-training (DMP)가 등장했으며, BYOL/SimSiam 방식을 사용한다. 혹시 Multi-modal 학습을 하고 싶은데 대조학습을 할 Computational Capacity가 안되는 사람들은 이러한 논문들을 참조해 극복해나가는 것도 좋아보인다. 좋은 세미나를 만드느라 고생한 진혁이형께 감사의 말을 전한다.