[학회 후기] 온라인으로 진행된 2022 ICLR 학회에 참여하여 새로운 논문들을 읽어보았다. 재훈 오빠와의 멘토링을 통해 처음으로 학회에 참여해본 것이었다. 많은 발표와 논문들이 있었지만, 최근에는 Transformer 계열의 모델들을 공부하고 있었기 때문에 Attention mechanism과 Vision Transformer와 관련된 논문들을 리뷰하였다. 평소에 논문을 읽을 때는 블로그나 유튜브에 다른 사람들이 리뷰한 자료들을 참고해서 논문을 읽었었는데, 이번에는 혼자서 새로운 논문을 읽다 보니 많은 시간이 걸렸다. 그렇지만 더 꼼꼼히 많은 고민을 하며 읽을 수 있었고, 재훈 오빠와 은지 언니와 함께 리뷰를 해서 더 깊이 있게 이해할 수 있었다. 이렇게 학회 참여를 통해 다양한 분야의 최신 연구들을 접할 수 있어서 좋았고, 앞으로도 꾸준히 여러 학회에 관심을 가지고 참여해야 겠다는 생각이 들었다.

[On the Connection between Local Attention and Dynamic Depth-wise Convolution, Qi Han, et al]

본 논문에서는 sparse connectivity와 weight sharing, dynamic 측면에서 local attention과 depth-wise convolution를 비교 분석한다. 그리고 Swin Transformer의 local attention mechanism을 동일한 window size의 depth-wise convolution으로 대체하여 성능을 평가했는데, 그 결과 계산 비용은 더 낮아지고, 성능은 거의 동등하게 유지하는 것을 보여주었다. 저자들은 이를 통해 사람들이 local attention과 depth-wise convolution, 그리고 기본 모델 아키텍처 설계에 대해 재고하길 바란다고 말한다. 
먼저 local attention과 dynamic depth-wise convolution의 유사점은 sparse connectivity로, channel간 connection이 없다는 점이다. Local attention의 각 position은 작은 local window 안에 있는 position에만 연결되고, channel 간의 connection은 없다. Depth-wise convolution은 각 channel에 single convolution filter를 적용하기 때문에 역시 channel 간의 connection은 없다.
그러나 local attention과 dynamic depth-wise convolution은 weight sharing 방법에서 차이점이 있다. Depth-wise convolution는 spatial position 전반에 걸쳐 connection weight를 공유하는 반면, local attention은 각 channel의 그룹(window)내에서 weight를 공유하며 더 나은 성능을 위해 channel 간에도 weight를 공유한다. 그리고 Dynamic weight computation 방식에도 차이점이 있다. Depth wise convolution은 모델 파라미터로 학습을 하며 static 하다고 볼 수 있는 반면 local attention은 각 인스턴스에서 dynamic하게 예측한다.
이러한 비교 분석을 바탕으로 Swin transformer의 local mechanism을 동일한 window size의 deph-wise convolution으로 대체하여 실험을 진행한다. 이때, depth-wise convolution에 dynamic weight를 사용하여, local attention처럼 dynamic하게 weight를 예측하도록 하였다. 그 결과 파라미터 및 계산 복잡성은 낮추면서 성능은 비슷하게 유지하였다. 
최근에는 비전 분야에서 CNN기반 모델보다 Vision Transformers 계열 모델들이 더 좋은 성능을 보이면서 주목을 받고 있지만, 해당 논문은 기존 CNN이 attention mechanism보다 계산 비용은 더 낮으면서도 성능은 비슷하게 끌어올릴 수 있다는 것을 보여주어 매우 흥미로웠다. 저자들의 말처럼 비전 분야에서 local attention과 depth-wise convolution 및 모델 설계에 있어 더 생각하고 고민해봐야할 거 같다.

[How Do Vision Transformers Work?, Namuk, Park, et al.]

본 논문에서는 비전 분야에서 multi-head self-attention(MSAs)의 작동원리와 특성에 대해 설명한다. 그 특성들은 다음과 같다.
- Loss landscape를 flatten한다.
    이는 성능 향상과 일반화를 유리하게 한다. 그러나 데이터가 적을 때는 음의 Hessian eigenvalue를 가질 수있기 때문에 loss landscape가 볼록해져 최적화가 어렵게 된다.
- Convolution과 작동방식이 반대이다.
    Feature map을 diversify하는 Convolution과 달리 MSA는 feature map을 aggregate한다. 또한 MSA는 고주파 신호를 감소시키는 반면, Conv는 고주파 성분을 증폭시킨다. 이렇게 둘의 작동방식이 반대이기 때문에 상호보완적으로 사용할 수 있는 기회가 된다.
- 다음으로 MSA와 Conv를 조화시킬 수 있는 방법을 소개한다. 
    Multi-stage neural networks는 작은 개별 모델의 연속적인 연결처럼 동작하는데, 여기에 MSA를 stage의 끝에 배치하면 예측에 중요한 역할을 수행할 수 있다. 따라서 저자들은 Conv와 MSA를 번갈아 배치하는 것을 제안한다. 추가로 Transformer의 MLP 블록에 Conv를 추가하면 accuracy와 robustness를 향상시킬 수 있다고 한다. 
이러한 특성들을 바탕으로 MSA와 Convolution을 함께 사용한 AlterNet을 제안하였다. 앞단에는 convolution 블록을 배치해 특징을 빠르게 추출하도록 하고, 뒷단에는 MSA블록을 배치에 앞에서 추출된 feature들을 앙상블하는 효과를 내도록 했다. 해당 모델은 큰 데이터 셋에서 뿐만 아니라 작은 데이터 셋에서도 좋은 성능을 보였다.
본 논문을 통해 MSA의 작동원리에 대해 더 잘 이해할 수 있었고, Convolution과 함께 사용하는 방안까지 알 수 있어 흥미로웠다. 또한 일반적으로 알려진 것과 달리 ViT 모델이 데이터가 적은 경우에 과적합이 되지 않는다는 것을 실험을 통해 보여준 점이 인상 깊었다.