- 2022년 3월 12일 오전 1:11
- 조회수: 6337
REFERENCES
INFORMATION
- 2022년 3월 11일
- 오전 12시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
딥러닝이 주목받기 시작한 이래 컴퓨터 비전 분야의 거의 모든 모델은 합성곱 신경망(CNN)을 기반으로 했다. 하지만 최근 자연어처리에서 개발된 Transformer 구조를 기반으로 한 이미지 분류 모델 Vision Transformer(ViT)가 CNN 기반 모델의 성능을 넘어서면서 CNN의 왕좌가 위협받고 있다. CNN의 시대는 이대로 끝일까. 아직은 이르다. Transformer에 대한 관심만큼이나 CNN 구조 모델의 잠재력을 재평가하는 연구도 쏟아지고 있다. 대표적인 CNN 기반 모델인 ResNet의 성능을 최대로 끌어올릴 수 있는 학습 전략과, ResNet의 구조 일부만을 개선해 Transformer보다 높은 성능을 기록한 하이브리드 CNN 모델 등을 소개하고자 한다.
참고 문헌:
1. Zhao, Y., Wang, G., Tang, C., Luo, C., Zeng, W. and Zha, Z. (2021), A Battle of Network Structures: An Empirical Study of CNN, Transformer, and MLP. arXiv preprint arXiv: 2103.07579
2. Bello, I., Fedus, W., Du, X., Cubuk, E., Srinivas, A., Lin, T., Shlens, J. and Zoph, B. (2021), Revisiting ResNets: Improved Training and Scaling Strategies, ICML 2021.
3. Liu, Z., Mao, H., Wu, C., Feichtenhofer, C., Darrell, T. and Xie, S. (2022), A ConvNet for the 2020s. arXiv preprint arXiv:2201.03545v2
청취자 후기

금일 세미나는 정원 누나가 Revisiting CNNs을 주제로 진행해주었다. 합성곱 신경망(convolutional neural networks, CNN)이 어떠한 이유로 이미지 분석에 좋은 성능을 갖는지와 Vision Transformer(ViT) 모델이 CNN 대비 어떠한 장단점을 갖는지 알 수 있는 세미나였다. 그렇기에 합성곱 신경망과 ViT의 대립 구조로 각 모델별 등장 배경부터 핵심 장단점을 쭈욱 리뷰 받을 수 있는 좋은 세미나였다. 또한, 2021, 2022년에 등장한 최신 논문들의 인싸이트를 토대로 세미나가 진행되었기 때문에, 이미지 분석 분야에서 최신 best 모델이란 어떠한 특성을 갖고 있어야 하는지 알 수 있었다. 이 부분들은 잘 기억해두었다가 개인 연구 및 연구실 프로젝트에 적극 활용하면 좋겠다고 생각했다.
최신 연구들을 열심히 살펴보며 좋은 세미나를 준비해주신 정원 누나에게 감사의 말씀을 전하며, 세미나 후기를 마치도록 한다.

금일 세미나는 정원 누나가 Revisiting CNNs라는 주제로 세미나를 발표하였다. 최근에 비전 계열 모델에서 신흥 강자로 떠오르고 있는 Vision Transformer(ViT)에 대항하고자 CNN 모델을 개선하는 연구가 많이 이루어지고 있다. 이번 세미나에서는 이와 같은 일련의 연구들을 소개하였다.
ViT 계열의 모델이 벤치마크 데이터셋에서 CNN 계열의 모델을 뛰어넘는 성능을 보여주고 있기 때문에 많은 주목을 받고 있지만 성능 대비 효율성에 대한 trade-off가 존재하고 각자만의 장단점이 뚜렷하기 때문에 아직까지 대체할 수 있다고 보는 것은 시기상조이다. 세미나에서는 두 계열의 모델에 대해서 성능을 비교하고 CNN의 개선 가능성과 두 모델을 혼용하는 전략에 대해서 알아본다.
CNN은 이미지에 대한 inductive bias를 기반으로 효율적인 연산과 강력한 성능으로 많은 쓰임을 받고 있다. ViT는 CNN과 달리 locality 뿐만 아니라 global context까지 한꺼번에 분석을 하지만 inductive bias가 존재하지 않기 때문에 CNN 대비 상당히 많은 데이터를 요구하며 transformer의 특성상 입력값이 많아질수록 연산량이 기하급수적으로 늘어난다는 단점이 존재한다.
첫 번째로 소개하는 논문, A Battle of Network Structures는 두 계열의 모델 성능을 비교하는 논문으로 두 아키텍처를 동등한 비교를 할 수 있는 조건으로 수정한 뒤에 실험을 진행하였다. 결론적으로 말하자면 모델이 가벼워질수록 CNN의 성능이 더 좋으며 모델이 무거울수록 ViT의 성능이 더 좋아진다. 이 때 CNN의 locality 모델링이 효율적인 학습의 주요 요소로 지목되었으며 두 계열의 모델이 융합된다면 상호보완되어 추가 성능 개선을 달성할 수 있을 것으로 전망하였다.
두 번째로 소개하는 논문, Revisiting ResNets는 ResNet의 아키텍처를 개량하여 성능을 높이는 연구를 진행하였다. 이 때 ResNet의 주요한 모델 구조는 변경하지 않고 학습 방식이나 규제 방식만을 변경하도록 하였다. 다양한 방법론을 추가 및 변경해보는 실험을 거듭하면서 성능을 개선하였고 결과적으로 기존 ImageNet에 대한 정확도인 79%에서 83.4%까지 향상을 이루었다. ResNet이 2015년도 나온 모델임을 감안할 때 학습 방식과 규제 방식만을 변경하여 4% 이상의 성능을 높인 것은 매우 고무적이라고 볼 수 있다.
마지막으로 소개하는 논문인 A ConvNet for the 2020s는 신흥강자 ViT의 기세를 한 풀 꺾기 위해서 등장한 논문이라고 볼 수 있다. 이 논문은 두 번째로 소개한 논문에서 더 나아가 Transformer에서 쓰인 기법을 ResNet에 적용한 뒤 성능을 측정하는 실험을 진행하였다. 앞서 언급했듯이 ResNet은 2015년에 나온 논문이기 때문에 최근 ViT에서 쓰이는 GELU, AdamW 등 최신의 activation layer나 optimizer를 쓰지 않고 있다. 단순히 ResNet을 ViT 계열 모델들과 비교하기에는 좀 억울한 측면이 없잖아 있다. 그렇게 해서 ResNet을 개량한 ConvNeXt라는 모델은 ViT에서 SOTA를 달성하고 있는 Swin Transformer보다 더 좋은 성능을 보여준다고 논문에서는 주장하고 있다.
A ConvNet for the 2020s라는 논문이 나왔을 때 읽어봐야지라는 생각만 하고 있던 중에 정원 누나가 관련 세미나를 발표하신다고 하셔서 너무 반가웠다. ViT 관련 스터디를 하면서 Transformer의 강력한 성능과 활용성에 대해서 놀라기도 했지만 반대로 학습 효율성과 계산 복잡도를 해결하기 위해서 더 많은 연구가 필요하겠다는 생각도 들었었다. 그러한면에서 여전히 보편적으로 활용되며 강력한 baseline으로 쓰이는 ResNet이 정말 명작 알고리즘이라는걸 다시 한 번 느낄 수 있는 세미나였던 것 같다. 따끈따끈한 논문을 쉽고 재미있게 준비해주신 정원 누나에게 감사의 말씀을 전한다. Long live the king ResNet!