[학회 후기] 2020 ICML은 온라인으로 학회를 진행했다. ICML은 여러 학회 중에서도 탑 티어에 속하는 학회로 세계적으로 유명한 기업, 대학교 연구원들이 참석할 뿐만 아니라 좋은 논문들이 발표되는 학회이다. ICML은 직접 참여하기 어려운 학회였지만 올해 온라인으로 진행되면서 참석할 수 있는 좋은 기회였다. 올해 ICML에서 발표한 논문 주제들을 살펴보면 크게 reinforcement learning, data representation, graph neural networks, machine learning 등 다양한 주제로 연구되고 있음을 알 수 있었다. 이번 학회를 통해 연구의 트렌드를 다시 한 번 살펴볼 수 있는 시간이었고 특히 나의 연구 분야인 강화학습에서도 최신 트렌드를 확인할 수 있었다.

 

[A Simple Framework for Contrastive Learning of Visual Representations, Chen, Ting, et al.]

본 논문은 Google research, brain team에서 연구한 논문이다. 논문에서 제안하는 SimCLRvisual representation을 위해 contrastive learning을 사용한 간단한 프레임워크를 선보였다. SimCLR는 같은 데이터 이미지에 다른 data augmentation이 적용된 이미지들 사이 (positive pair)similarity를 최대화함으로써 visual representation을 배운다. SimCLR4가지의 주요 부분으로 구성되어 있다. (1)은 같은 이미지를 다른 두 가지 방법의 data augmentation을 통해 positive pair를 만들고 이 때 random cropping, random color distortions, random Gaussian blur를 사용했다. (2)augmented data들로부터 representation vector를 추출하는 encoder 네트워크를 사용하며 (3)representation들을 contrastive loss가 적용된 vector 공간에 매핑한다. (4)contrastive loss function을 제안하여 주어진 augmented data set에서 positive pair (xi, xj) 중 주어진  xi에 대해 xj를 잘 식별할 수 있도록 했다. 본 연구의 핵심은 data augmentation의 중요성을 강조하고 data representation 할 수 있는 네트워크와 contrastive loss function을 적용한 것만으로도 색다른 self-supervised learning task를 만들어냈다고 생각한다.

 

[Agent57: Outperforming the Atari Human Benchmark, Badia, A. P. et al.]

강화학습 커뮤니티에서는 Atari game이 오랫동안 벤치마크가 되어왔다. 본 논문은 Atari의 모든 게임에서 일반인을 능가한 성능을 보이는 새로운 방법론을 제안했다. 현재까지 일반인의 성능을 능가하기 위해 다양한 방법론들이 연구되어 왔지만 여전히 모든 게임에서 이기기에는 역부족이었다. 일반화된 강화학습 알고리즘 연구를 위해서는 long-term credit assignment 문제와 action exploration 문제를 해결할 수 있어야 한다. 제안하는 Agent57long-term credit assignment 문제와 exploration 문제를 해결하기 위해 state-action value functionintrinsic rewardextrinsic reward의 기여도를 분리하는 방법을 통해 학습의 안정성을 높이고 exploration ratereward discount factordynamic하게 조정함으로써 agent policy를 선택하는 메커니즘을 사용했다. 본 논문은 이전에 연구되었던 Recurrent Replay Distributed DQN (R2D2)Never Give Up (NGU)의 핵심 아이디어로부터 출발하여 알고리즘을 개선할 수 있었다. 강화학습이 주 연구 분야인 나는 매우 흥미롭게 읽었지만 강화학습이 생소한 연구원들에게는 전문 용어가 많아 쉽지 않을 것이라고 생각한다. 만약 강화학습을 연구 분야로 정한 연구원들이 있다면 value-based 방법론인 DQN부터 R2D2, NGU, Agent57 순으로 접하는 것을 추천한다.

 

[CURL: Contrastive Unsupervised Representations for Reinforcement Learning, Srinivas, A. et al.]

본 논문은 강화학습의 학습 수렴 속도를 높이기 위해 contrastive learning을 활용한 연구이다. 연구의 핵심은 query encoderkey encoder 네트워크를 제안하고 replay buffer에 저장된 statedata augmentation하여 임의의 이미지들을 각 네트워크로부터 state representation을 한다. 이 때 현재 시점의 state와 과거 시점의 state 사이의 연관성을 contrastive learning을 활용하여 학습한다. 각 네트워크로부터 나온 representationcontrastive loss로부터 positive pair인지 아닌지를 판단하고 연관성을 파악한다.

강화학습은 markov property를 가지는 markov decision process (MDP) 환경 가정하에 model-freemodel-based method가 존재한다. Model-free는 현재 시점 정보에서 다음 시점의 정보에 대한 transition probability를 알 수 없는 상황이기에 굉장히 많은 학습 시간을 갖게 되며 학습 수렴을 기대한다. 본 연구는 크게 보면 Model-freetransition probability를 대체할 수 있는 방안과 함께 학습 수렴 속도 문제를 개선하기 위한 연구가 아닐까 싶다.

 

이번 ICML에서는 큰 꼭지로 강화학습 연구에 초점을 두고 강화학습의 고질적인 문제를 해결하는 연구에 대해 공부했다. 개인적으로 강화학습은 data representation이 굉장히 중요하다고 생각하며 이를 중점으로 연구를 찾아보았다. 이 외에도 강화학습 문제를 해결하기 위한 다양한 방법들이 적용된 것을 알 수 있었고 현재 진행하고 있는 개인 연구에 논리적 타당성을 판단하여 적용해보고자 한다.