고려대학교 DMQA 연구실

How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers

2022년 1월 21일 오후 2:14
조회수: 5093

REFERENCES

20220121_세미나.pdf

INFORMATION

2022년 1월 21일
오후 1시 ~
온라인 비디오 시청 (YouTube)

발표자:

박진혁

TOPIC

How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers

On-Line Video

OVERVIEW

Vision Transformer(ViT)는자연어처리에서 많이 사용되는 트렌스포머를 합성곱 신경망에 의존하지 않고 computer vision분야에 적용한 알고리즘이다. ViT의 등장으로 많은 연구들이 진행되고 있으며 좋은 예측 성능을 보여주고 있다. 하지만 ViT는 CNN과 달리 inductive bias가 적기 때문에 좋은 예측 성능을 위해서는 많은 dataset, augmentation, regularization이 필요하다. 따라서 본 세미나에서는 ViT의 간략한 소개와 ViT의 성능 비교를 위한 다양한 augmentation 방법, 다양한 regularization, 다양한 data size 등에 따른 예측 성능과 속도를 비교 분석한 연구를 소개한다.

청취자 후기

조용원

진혁이가 'How to train your ViT? Data Augmentation and Regularization in Vision Transformers'라는 주제로 세미나를 진행하였다. ViT 학습을 위해 많은 양의 데이터가 필요하다고 알려져있다. 또한, 최근 발표되는 State-of-the-art 이미지 분류 모델은 큰 Batch로 학습될 때 성능이 더 높다고 알려져 있다. 이러한 사실에 대해 실험적으로 증명하고 좀 더 성능을 올릴 수 있는 방안에 대한 내용을 설명해주었다. 모델 관점에서 Regularization, 데이터 관점에서 증강 기법 필요성, 특히 MixUp에 대해 설명해주었다. 세미나 내용처럼 ImageNet21k, JFT와 같은 대용량 데이터 셋을 학습시키기 위해 대용량 GPU서버가 필요하며 해당 자원이 없는 학교와 같은 연구 기관에서는 하기 어려운 연구라는 생각이 들었다. 이를 해결하기 위해, ViT를 위한 모델 경량화 기법에 대한 연구는 없는지에 대한 궁금점이 생겼다. 세미나를 준비해준 진혁이에게 감사함을 표한다.

배진수

금일 세미나는 진혁이 형이 이미지 데이터 분석을 위한 효과적인 트랜스포머 모델 학습법을 소개해주었다. 원래는 NLP 태스크를 초점에 두고 개발된 트랜스포머 모델을 이미지 데이터 분석에 적합하도록 변형하고, 효과적인 학습법을 소개해준 것이 금일 세미나의 골짜이다. 왜 이러한 연구가 등장하였는가에 대해 이해하기 위해서는 inductive bias와 기존 트랜스포머 모델에 대한 이해가 중요한데, 본 세미나를 통해 야무지게 이해할 수 있었다. 또한, 위의 대표적인 핵심 사항들 이외에도 중요하지만 간과하고 넘어가기 쉬운 세부적인 사실들(논문을 직접 읽지 않는 이상 파악하기 어려운) 대해서도 본 세미나를 통해 잘 정리할 수 있었다. (이미지 분야에서 트랜스포머 모델을 사용하는데 유용한 팁들이 잘 정리되어 있다.) 좋은 세미나를 준비해주신 진혁이형에게 감사의 말씀을 전하며 세미나 후기를 마치도록 한다.

유이경

이번 세미나는 'How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers’를 주제로 진행되었다. Vision Transformer(ViT)는 NLP 분야에 주로 적용되던 Transformer 구조를 Computer vision 분야에 새롭게 적용하며 SOTA를 달성해 크게 주목을 받았다. 본 세미나에서는 이러한 ViT의 등장 배경부터 모델 아키텍처, 특성들을 가볍게 소개한 후, 해당 특성에 맞는 효율적인 학습을 위한 dataset, augmentation, regularization 기법들을 구체적으로 설명해주었다. 그중에서도 대용량의 데이터셋에서 사전학습 된 경우 좋은 성능을 보인다는 결과가 인상적이었는데, 최근 image classification 분야에서 중간 크기의 데이터셋으로 사전 학습 없이도 CNN보다 우세한 성능을 보이는 ViT 아키텍처를 제안한 논문을 접했던 것이 떠올랐다. 이처럼 등장한 시점부터 지금까지 많은 연구가 지속적으로 빠르게 이루어지고 있는 분야인 만큼 필요한 부분을 알맞게 팔로업하는 것도 중요할 것 같다. 또한 센서 데이터를 이용한 연구와 프로젝트를 많이 접하고 있다보니 시야가 해당 분야로 많이 좁아지고는 하는데, 본 세미나를 통해 Vision 분야에 쏟는 관심과 그에 걸맞는 노력을 게을리해서는 안되겠다는 생각을 다시금 할 수 있었다. 세미나를 준비하느라 고생해주신 진혁오빠께 감사한 마음을 전하며 이상으로 후기를 마친다.

정진용

이번 세미나는 'How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers'주제로 진행됐다. 자연어처리에서 사용되었던 self-attention 메커니즘 기반의 트랜스포머가 vision분야에 적용되면서, 트랜스포머 architecture가 vision분야에서 수 많은 State-of-the-art를 달성했다. 이번 세미나에서는 이러한 연구들의 기반이 되는 Vision Transformer(ViT)와 ViT의 성능 비교를 위한 기법들이 소개되었다. 본 세미나를 통해 ViT에서 기존 트랜스포머의 변형과 inductive bias에 대해서 잘 이해할 수 있었다. Data, augmentation, regularization 관점에서 다양한 실험 비교 분석을 보여주었고, 성능을 올릴 수 있는 방안에 대해 설명해주었다. ViT 학습과 관련된 핵심적인 부분들에 대해서 본 세미나를 통해 다시 한번 정립할 수 있었다. 좋은 세미나를 준비해준 진혁이에게 감사함을 전한다.

임새린

이번 주 세미나는 Vision Transformer를 학습시킬 때 활용할 수 있는 여러 테크닉에 대한 주제로 진혁이형이 발표를 해주었다.

ViT는 자연어 처리나 음성 분야 등에서 큰 성공을 거둔 Transformer만을 컴퓨터 비전 분야에 활용한 최초의 모델이다. 이 ViT는 여러 CNN모델 계열의 성능을 갈아치우고 SOTA를 달성한 뒤, ViT를 기반으로 한 다양한 발전된 모델들이 성능을 꾸준히 높이고 있다.

하지만 ViT의 단점으로는 데이터가 매우 많이 필요하다는 것, 사전학습 후 down stream task를 진행한다는 것 등 학습 시간이 많이 걸리게 된다. 때문에 hyper parameter search와 같은 반복실험이
여러 번 필요한 경우 결과를 확인하려면 매우 힘들 것이다.

구글 리서치에서 발표한 논문에서는 ViT를 학습할 때 사전학습 데이터셋, data augmentation과 regularization 관점에서의 가이드라인을 제시한다. ViT를 다양한 컴퓨터 비전 분야에 적용하게 되면서 ViT를 접하는 빈도도 많아졌으며 실제로 사용해야 할 일도 생기게 되었다. 이번 세미나를 통해서 ViT를 사용할 때 더욱 효율적으로 사용할 수 있을 것이다. 실용적인 테크닉을 소개해준 진혁이형에게 감사드리며 이번 세미나 후기를 마친다.

고은지

금일 세미나는 vision transformer의 효과적인 학습법을 주제로 진행되었다. Vision transformer는 이미지 데이터 분석 분야에서 CNN의 대안으로 언급되고 있다. CNN은 translational equivariance한 특징이 있으나, vision transformer는 없기 때문에 이를 극복하기 위해서는 다량의 훈련 데이터셋 또는 strong augmentation and regularization schemes이 필요하다. 본 세미나에는 vision transformer의 등장 배경 및 기본 아이디어부터 효율적인 학습을 위한 다양한 기법을 소개한다. Vision transformer를 학습시키기 위해 대규모 데이터셋을 pre-training한 모델을 fine-tuning하는 방식이 주로 사용된다. Pre-training을 하는 경우 pre-training에 사용한 데이터셋과 fine-tuning에 사용한 데이터셋 간의 관련이 적어도 vision transformer가 잘 학습됨을 알 수 있었다. 이외에도 regularization 여부 등에 따라 성능이 어떻게 변화하는지에 대한 결과를 보인다.

조한샘

이번 세미나는 "How to train your vit?"라는 주제로 진행됐다. ViT는 이미지 분류 문제에 Transformer구조를 적용했을때 CNN 모델에 비해서 좋은 성능을 낼 수 있다는 것을 보여줬다. 이후에 많은 연구들에서 computer vision task에서 ViT가 CNN보다 좋은 성능을 보임이 입증되었다. 이번 세미나에서 소개된 논문을 어떻게 더 효율적으로 학습시킬 수 있을지에 대해 소개되었다. Augmentation을 사용해 사전학습을 할 경우 그렇지 않은 모델에 비해 좋은 성능을 보인다는것을 확인할 수 있다. 또한 처음부터 학습하는 것보다는 전이학습을 활용하는 것이 좋으며 이 경우 데이터의 양이 많은 것이 도움이된다. Regularization 기법은 항상 좋은 성능을 보장하지는 않으며 validation set에서 좋은 성능을 보이는 모델을 선택하는것이 가장 도움이 된다고 조언한다. 또한 모델의 사이즈를 줄이기 위해서는 patch size를 키우는것이 효율적인 방법이라고 언급하고 있다.

Seminar