고려대학교 DMQA 연구실

2022 International Conference on Learning Representations - 김재훈

2022년 5월 23일 오후 1:38
조회수: 963

Reviewed by

김재훈

[학회 후기] 2022 ICLR은 올해에도 온라인으로 학회가 진행되어 참여할 수 있었다. 이번 학회에서 주목하여 본 주제는 모델의 작동 원리에 관한 것이었다. 지난 해에도 self-supervised learning에 관련된 많은 논문들을 비롯하여, 비전계의 대격변이라고 할 수 있는 Vision Transformers도 나왔다. 다만, 좋은 성능의 모델들이 많이 나왔지만 어떤 이유로 성능이 좋은지를 명쾌하게 알려주지는 못 했다. SimSiam은 2021년에 CVPR에서 나온 non-contrastive learning 모델 중 하나로 기존 SOTA 모델의 성능을 최대한 유지하되 학습을 완전히 실패해버리는 representation collapse를 방지하는 기능을 최소한으로 갖출 수 있도록하였다. 다만 여러 실험을 통해서 어떤 요소들이 해당 현상을 방지한다고 추정할 뿐, 그 원리를 설명하지는 못하였다. ViT는 2021년에 ICLR에서 나온 Transformer 계열의 모델로 기존에 쓰이던 시계열 혹은 자연어처리 분야가 아닌 이미지 분야에 적합하도록 설계되었다. 하지만 이미지에 대한 Self-Attention의 효과를 설명하지는 못했다. 이번 ICLR을 통해 그런 아쉬운 점을 어느 정도 해소할 수 있는 좋은 기회를 가질 수 있었다.

[How Does SimSiam Avoid Collapse Without Negative Sample?, Zhang, Chaoning, et al.]

본 논문은 (비)대조학습에서 발생하는 representation collapse가 왜 발생하는지를 분석한 논문이다. Representation collapse는 모델이 데이터에서 유의미한 특징을 전혀 학습하지 못한체 train loss만을 줄이는 방향으로 학습하는 현상을 말한다. 따라서 보통 인코더가 해당 현상을 겪으면 어떤 이미지가 들어오건 constant vector만을 출력하게 된다. 한편, SimSiam은 기존 SOTA 모델의 성능을 최대한 유지하되 representation collapse를 방지하도록 최소한의 구성요소로 만든 비대조학습 모델이다. 여기서 최소한의 구성요소는 stop-gradient와 predictor를 말하는데 왜 이 두 구성요소가 collapse를 방지하는지는 설명을 하지 못한다.

우선 본 논문에서는 기존 SimSiam에서 주장한 내용의 일부를 반박한 뒤 자신의 분석을 설명한다. SimSiam을 비롯한 그 변형된 구조들과 Siamese 모델을 통해 여러가지 아키텍처를 만들어 실험을 진행한다. 이를 통해서 기존 SimSiam에서 언급했던 두 구성요소를 포함하더라도 collapse는 발생할 수 있으며 단순히 모델 구조만을 가지는 collapse 방지를 설명할 수 없음을 보인다. 따라서 인코더에서 출력하는 표현 벡터를 중심 벡터(center vector)와 잔차 벡터(residual vector)로 나누어 이를 업데이트하는 기울기 관점에서 분석을 진행한다. 논문에서는 중심 벡터의 비중이 높아질수록 collapse 현상에 가까워진다고 한다. 결론적으로 모델의 비대칭성에서 비롯된 extra gradient가 이 중심 벡터가 커지는 것을 억제하며(de-centering), 이에 대한 trade-off로서 잔여 벡터의 비중이 커지는데 이는 차원 간의 상관 관계를 낮추어(de-correlation) 타겟을 구분할 수 있는 풍부한 정보를 저장할 수 있도록 한다고 한다. 마지막에 언급한 de-correlation의 경우 같은 ICLR 2022에 나온 "Understanding Dimensional Collapse in Contrastive Self-Supervised Learning"의 dimensional collapse와 연관이 있어 보여서 함께 읽어보면 좋을 것 같다는 생각이 들었다.

[How Do Vision Transformers Work?, Namuk, Park, et al.]

본 논문은 Vision Transformer에서 Multi-head Self Attention(MSA)이 어떻게 작동하는지 그리고 학습하는 특성에 대해서 분석을 한 논문이다. "일반적으로 알려져있는 사실"로는 CNN과는 달리 MSA는 weak inductive bias를 가지며 데이터의 long-range dependency를 잘 잡아내는 특징이 있다. 하지만 너무나도 강력한 학습력 때문에 적은 수의 데이터를 학습할 경우 오버피팅이 빈번하게 일어나는 단점이 있다고 한다. 하지만 논문에서는 이 주장을 CNN과 MSA를 비교하는 실험을 통해서 반박한다. 저자는 두 모델이 학습되는 기울기를 추적하여 loss landscape를 그리고 hessian eigenvalue를 구한다. 이 때 MSA는 (데이터가 매우 많은 상황에서) 평탄한 loss landscape를 가지기 때문에 기존 CNN보다 더 좋은 성능과 일반화 성능을 가질 수 있다. 하지만 데이터가 적은 상황에서는 negative hessian eigenvalue가 다수 나오기 때문에 non-convex 문제가 되어 학습이 어려워진다. 반면 CNN은 데이터가 적은 상황에서도 loss landscape가 convex하기 때문에 안정적인 학습이 가능하다. 한편 두 방법론 간의 학습 특성도 분석을 하는데, MSA는 데이터의 특징을 모으는 방식(mean)이라면 CNN은 특징을 다양화(채널 수를 늘리고, 마지막에 flatten하는 것)하는 것에 초점을 맞춘다고 한다. 또한 저자는 특이하게도 푸리에 분석을 적용하는데 MSA는 고주파 영역을 억제하는 low-pass filter 특징을 가지며 CNN은 고주파 영역을 증폭하는 high-pass filter 특징을 가진다고 한다. 따라서 MSA와 CNN은 상호보완 관계가 될 수 있음을 보여준다. 이러한 분석들을 바탕으로 저자는 AlterNet이라는 모델을 제안한다. 모델은 총 네 개의 stage를 가지고 있는데 초반 학습이 불안정한 MSA의 특성을 고려하여 첫 stage는 CNN으로만 구성을 하며 두 번째 stage부터는 마지막에 MSA를 추가하여 CNN으로부터 생성된 다양한 feature map으로부터 앙상블 효과를 기대할 수 있도록 하였다.