[전체후기]
이번 ICML은 코로나19로 온라인으로 진행되었다. 상대적으로 저렴한 가격에 시공간 제약이 없어서 듣고 싶을 때 듣고 반복해서 들을 수 있는 점은 굉장히 좋았다. 다만 학회장 특유의 분위기나 현장감을 느끼지 못하는 점은 아쉬웠다. 그래도 이런 식으로 온라인 진행이 활성화되었으면 좋겠다. ICML은 머신러닝, 인공지능 전반을 아우르는 학회인 만큼 다양한 주제의 연구들이 발표되었다. 눈에 띄는 것은 최근 연구하고 있는 그래프 관련 페이퍼들이 많이 제출되었고, 또 최근 연구실에서 관심을 갖고 연구하고 있는 사람들이 있는 self-supervised learning 연구들이 활발하게 진행되고 있다는 점이였다. 그리고 세미나를 통해 처음 접해본 adversarial attack 관련 논문들도 눈에 들어왔다. 주 관심분야인 NLP쪽에서는 sentence generation 관련 페이퍼 몇 가지가 눈에 들어왔지만 메인 분야가 아니다보니 흥미로운 논문이 많지는 않았다. ACL이나 EMNLP같은 자연어처리 학회도 온라인으로 개최되었으면 좋겠다.

[Concept Bottleneck Models]
Google AI에서 발표한 페이퍼였다. 딥러닝 모델의 학습 방식은 input data와 output의 end-to-end learning이다. 복잡하고 깊은 신경망 구조가 output을 잘 설명하는 input data의 특성을 학습하는 딥러닝 모델은 이미 다양한 분야에서 그 성능을 입증하였다. 논문에서는 당연하게 여겨졌던 학습 방식을 깨기 위해concept bottleneck layer을 두는 일종의 2-stage 학습 방식을 제안하였다. Input data x는 concept c를 예측하도록 학습하고, concept c는 target y를 예측하도록 학습하는 구조이다. 예를 들면 새 이미지를 학습할 때 이미지로부터 날개의 색, 꼬리 색, 부리의 길이와 같은 concpt을 학습하고, 예측된 concept으로부터 새 종류를 분류해내는 딥러닝 모델을 학습하도록 모델 구조를 설계하여 학습 성능을 높일 수 있다는 것이다. 기존에는 x로 c와 y를 동시에 예측하는 방식인 multitask learning으로 concept을 학습에 이용하여 예측 성능을 높이는 방식이 있었다. 제안 모델은 이러한 기존의 틀을 깬 학습 방식이라는 점과 이러한 학습 방식은 다양한 분야에 적용이 가능할 수 있다는 점에서 흥미로웠지만, 결국 concept을 정의하는지에 따라 모델 성능이 천차만별이 될 수 있을 것 같다는 점은 여전히 한계점이라고 생각한다. 그리고 concept loss를 계산하려면 결국 concept label이 다 있어야 하는데 이런 데이터셋을 구하는 것 자체가 어렵기 때문에 현실 문제에 적용하기에는 데이터 확보가 쉽지 않다는 근본적인 문제가 있다.

[Simple and Deep Graph Convolutional Networks]
2017년에 발표되었던 Graph Convolutional Networks(GCN)의 단점을 개선하기 위한 구조를 제안한 연구였다. GCN은 그래프 구조로 표현되는 데이터 구조를 학습하여 node classification, edge prediction 등 다양한 테스크를 수행할 수 있는 딥러닝 모델이다. GCN 등장 이후 다양한 변형 모델들이 등장하였고 그 중 대표적인 모델으로는 Graph Attention Network(GAT)가 있다. Vanilla GCN이나 GAT 모두 레이어를 깊게 쌓으면 노이즈들이 과하게 발생되거나 학습이 일정 수준에서 멈추어 진전되지 않는 over-smoothing 문제들이 공통적으로 발생한다.(Vanilla GCN과 GAT 모두 2개의 layer을 stack한 형태에서 가장 좋은 성능을 보이는 shallow 구조라는 특징이 있다.) 발표에서는 multi-layer을 쌓는 GCN 모델에서도 모델이 잘 학습될 수 있도록 Initial residual connection과 Identity mapping이라는 두 가지 아이디어를 결합한 GCN 구조를 제안하였다. Initial residual connection은 Resnet에서의 residual connection의 컨셉과 동일한데, 다만 매 층에서 결합하는 hidden이 첫번째 layer의 hidden이다. 그래서 Initial이 붙었다. 다음으로 Identity mapping은 i번째 layer에서의 weight matrix에 Identity matrix를 더한다. 이 두가지 테크닉 모두가 Resnet의 컨셉과 비슷하며 이는 논문에서도 언급하고 있다. 정리하자면 GCN을 깊게 쌓기 위해 over-smoothing 문제를 Resnet의 컨셉을 적용하여 해결했다는 것이다.(그래서 논문 제목도 Simple과 Deep을 붙혔다.) 최근 GAT모델을 baseline으로 개인연구를 진행하고 있는데, 레이어를 깊게 쌓거나 head를 늘려도 성능의 큰 차이가 없어서 헤매고 있었는데 비슷한 고민을 하고 있는 연구자가 중국에도 있어서 반가웠다. 간단한 아이디어로 이러한 문제를 해결하는 것을 보니 대단하면서도 나는 왜 이렇게 생각해보지 못했을까라는 아쉬움도 동시에 느꼈다.