2022 International Conference on Learning Representations - 고은지
- 2022년 5월 23일 오후 3:32
- 조회수: 1118
Reviewed by
고은지
고은지
[학회 후기] 2022 ICLR 학회가 온라인으로 진행되어, 다양한 발표를 접해볼 수 있었다. 특히 멘토인 재훈 오빠의 추천으로 참여하게 된 첫 해외 학회라 더욱 재미있게 논문들을 리뷰할 수 있었다. 최근에는 현실에서 주로 발생하는 data imbalance나 annotation 문제 상황에서도 좋은 성능을 내는 방법론에 관심을 두고 연구하고 있었기 때문에 학회에서 발표된 다양한 논문 중 관련 주제를 위주로 리뷰하였다. 2022 ICLR 학회를 통해 평소에 접할 기회가 없었던 다양한 연구 주제를 알아볼 수 있었고, 관심 분야의 최근 연구 동향을 파악할 수 있는 좋은 기회였다.
[Self-Supervised Learning is More Robust to Dataset Imbalance, Liu et al.]
본 논문은 데이터 불균형 상황에서 supervised learning보다 self-supervised learning이 더욱 좋은 성능을 냄을 실험적으로 보이고, supervised learning과 self-supervised learning을 통해 생성된 representation의 특징을 비교함으로써 그 이유를 설명한다. 우선, supervised learning과 self-supervised learning의 representation 생성 원리를 상기시켜보면, 다음과 같다. Supervised learning의 경우에는 label을 분류하기 위한 특징을 위주로 모델이 데이터의 representation을 추출한다. 이를 달리 말하면 데이터에 label 분류와 무관한 특징이 내재되어 있는 경우에는 모델이 이를 간과할 위험이 있다. 반면, self-supervised learning은 모델이 representaion을 생성하는 과정에서 데이터의 label 정보를 사용하지 않기 때문에 label 분류와 무관하게 데이터에 내재된 모든 특징을 추출한다. 따라서 데이터 불균형 상황에서는 supervised learning의 경우, 희소한 class 데이터의 특징은 잘 추출하지 못하게 되고 빈번하게 등장하는 class 데이터의 특징만을 잘 추출하게 된다. 이는 결국 최종적인 분류 성능 저하를 유발한다. 이와 달리, self-supervied learning은 class와 무관하게 데이터에 내재된 특징을 모두 추출하고자 하였기 때문에 특정 class 데이터 특징에 치우치지 않고 학습이 진행되며 높은 분류 성능으로 이어진다. 실제로 실험 결과에 따르면, 다양한 크기의 데이터셋과 데이터 불균형 비율 하에서 self-supervised learning이 상대적으로 좋은 성능을 내는 것을 알 수 있다.
데이터 불균형 상황에서 supervised learning보다 self-supervised learning이 더욱 적합함을 알았으나, 현실 데이터에 적용하기에는 아직 한계가 있다. 왜냐하면 위의 실험은 사용한 데이터셋이 불균형 상황이라는 것을 이미 알고 있지만, 현실에서 새로운 데이터를 접하게 되면 데이터 불균형 여부를 알지 못하기 때문이다. 본 논문은 이를 극복하기 위해 불균형 데이터에서도 잘 작동하는 self-supervised learning 프레임워크를 제안한다. 제안된 프레임워크는 데이터가 입력되면 kernel density estimation(KDE)를 통해 분포를 추정하여 데이터 불균형 여부를 판단하게 되고, 희소한 class 데이터의 loss 계산 시 가중치를 부여한다. 또 추가적으로 sharpness-aware minimization(SAM)을 적용할 것을 제안한다. 본 논문의 실험 결과는 제안된 프레임워크는 데이터 수, 불균형 여부와 무관하게 좋은 분류 성능을 내는 것을 보인다.
평소에 self-supervised learning은 labeled annotation 문제를 극복하고, 다량의 unlabeled 데이터를 활용하기 위한 방법론으로 활용해왔는데, 이번 학회를 통해 self-supervised learning이 데이터 불균형 문제에서도 적합한 모델임을 알게 되었다. 기존 방법론을 새로운 시각에서 보는 것이 또 다른 인사이트를 낼 수 있다는 것을 느낄 수 있었던 의미 있고 재미있는 논문이었다.
[How Do Vision Transformer work?, Park et al.]
본 논문은 vision transformer(ViT)에서 multi-head attention(MSA)의 작동 원리와 작동 특징에 대해 설명한다. 특히 아래 3가지 특징을 위주로 설명이 진행된다.
1) MSA는 loss landscape을 flatten함으로써 좋은 일반화 성능을 갖음
2) MSA와 convolution의 작동 방식이 다르기 때문에 상호 보완적으로 활용 가능
3) multi-stage neural network(여러 블록으로 구성된 NN)는 작은 개별 모델의 연속적인 연결인 것처럼 작동하며, 이때 마지막 stage에서의 MSA는 모델의 prediction을 위한 key role을 수행
본 논문은 위의 특성을 고려하여 Convolution과 MSA를 적절히 사용하는 AlterNet을 제안한다. AlterNet은 초기 stage에서는 MSA보다 상대적으로 특징을 잘 추출하는 convolution 블록을 배치하고, 후반 stage에서는 MSA 블록을 추가하여 CNN에서 생성된 다양한 feature를 앙상블하는 효과를 낸다. 이를 통해 성능 향상을 이루었다. 실험 결과를 통해 실제 AlterNet이 좋은 성능을 냄을 보였고, MSA에 대해 보편적으로 알려져 있는 사실(MSA는 데이터 수가 적은 경우 overfitting이 빈번하게 발생함)을 반박하는 흥미로운 논문이었다. 본 논문은 재훈오빠, 현지와 함께 리뷰하였는데, 이 과정에서 논문에 대한 이해를 높일 수 있었고, 관련한 다른 개념까지도 톺아볼 수 있었다.