고려대학교 DMQA 연구실

2020 International Conference on Machine Learning - 강현구

2020년 8월 3일 오후 11:59
조회수: 590

Reviewed by

강현구

Title: Constructing Multi-View Representation Learning on Graphs

이번 ICML에는 Self-Supervised Learning (SSL) 관련 연구들이 여럿 등장했는데, 그래프의 좋은 representation을 학습하기 위해 SSL을 적용한 사례다. 요즘 대세를 이루는 Contrastive Learning 기반의 SSL의 핵심은 data augmentation이다. 올해 3월 ArXiv에 공개되고 이번 ICML에 등장하기도 한 Google Research의 “A Simple Framework for Contrastive Learning of Visual Representations” (a.k.a SimCLR) 논문에서도 말하듯 SSL에 적합한 data augmentation을 찾는 것이 성능 향상에 매우 주요하다. (Supervised Learning에서 사용하는 augmentation 기법과는 다소 차이가 있을 수도 있다고 한다.) 그래프에 SSL을 적용한 이 논문의 경우에도 ‘어떻게 그래프를 augmentation 할 것이냐?’에 많은 무게를 두고 있다. 저자들이 선택한 augmentation은 graph diffusion에 기반하는데, adjacency matrix와 diffusion matrix를 각기 사용한 두 graph representation 간 상호정보(Mutual information, MI)가 최대화되도록 학습한다. Graph diffusion matrix는 어느 그래프의 특성을 표현하는 adjacency matrix에 기반하여 만들어지는데, 자세한 내용은 배경지식이 부족하여 아직 이해하진 못했다. 실험에서는 Semi-supervised Node Classification 문제에 평가하여 그 성능을 입증하고 있다. 아무래도 직관적으로 받아들일 수 있는 이미지의 augmentation보단 Spectral Graph Theory가 많은 지분을 가지고 있어 제대로 이해하기 위해선 별도로 공부를 해야 할 것 같다. Contrastive learning-based self-supervised learning을 지난 몇 달간 공부하면서 ‘그래프에는 어떻게 적용할 수 있을까?’에 대한 고민을 꾸준히 해왔는데, 이렇게 완성된 연구로 마주하게 되니 지식 수준에서의 괴리감도 들면서 한편으로는 나의 연구 방향성이 잘못되진 않았다는 생각에 안도하기도 한다. 이 논문이 좋은 이정표를 세워주었으니 빠르게 습득하고 어떻게 개선시킬 수 있을지, 또 나아가 Combinatorial Optimization에는 어떻게 적용될 수 있을지 고민해보고자 한다 (e.g. TSP, VRP).

Title: Generative Pretraining from Pixels (a.k.a ImageGPT)

컴퓨터비전 분야에서는 최근 Contrastive Learning 기반의 Self-supervised Learning 기법들이 많은 이목을 끌고 있지만, 그 이전에는 Generative Model 기반의 연구들이 대세를 이루고 있었다. 대표적인 예로는 GAN 기반의 BiGAN 혹은 Big BiGAN, 분야를 막론한다면 자연어 처리에서 GPT 계열 모델을 예로 들 수 있다. '어떤 입력 값이 주어졌을 때, 그와 관련된 데이터를 생성해낼 수 있다면 그 모델은 데이터의 분포를 이해하고 있다.'는 가정에서 출발하는 Generative Model의 가정은 매우 좋다고 생각하나, 생성해야 하는 feature space가 커지면 아무래도 많은 난관에 부딪히곤 한다 (이를 해결하기 위해 NVIDIA의 Progressive GAN에서는 작은 사이즈의 이미지를 생성하도록 먼저 학습하고 순차적으로 생성해야 하는 이미지의 크기를 확장해나가는 것을 확인할 수 있다.) 이번 ICML에 등장한 OpenAI의 ImageGPT는 'Generative model로는 어렵다'는 사람들의 기존 관념을 깨기에 충분하다고 생각한다. 이미지 내 픽셀들을 일렬로 편 이후에 이등분하여 절반을 Transformer에 입력 후, 나머지 절반을 예측하도록 한다. 비록 학습이 가능하도록 하는데는 많은 테크닉들이 부여되었지만, 생성된 결과물의 품질을 보면 놀람을 금할 수 없다. 어디에 응용할 수 있을까 고민한다면 시계열 데이터의 representation을 예측하는데 사용할 수 있을 것 같다. 그렇다면 방대한 양의 시계열 데이터를 필요로 할텐데, 당장 생각해 볼 수 있는 건 주식 데이터다. 여유가 된다면 개인적인 유희로 시도해보고자 한다.