고려대학교 DMQA 연구실

2020 International Conference on Machine Learning - 박진혁

2020년 8월 3일 오전 2:18
조회수: 389

Reviewed by

박진혁

International Conference on Machine Learning (ICML)이 7월 12 ~ 18일 동안 진행되었다. ICCV이후 세계적으로 유명한 학회는 두번째였다. 처음 참석했던 ICCV는 주로 computer vision에 대해 다루었다면 ICML은 최적화와 관련된 주제를 주로 다루었던 것 같다. 최적화와 관련된 주제를 다루어서 그런지 강화학습에 관한 논문들을 많이 살펴볼 수 있었다. 최적화와 강화학습에 여전히 익숙하지 않지만 이번 학회를 계기로 한발짝 다가갈 수 있었다.

이번 ICML은 COVID-19의 영향으로 온라인으로 진행되었다. 직접 참가해서 세션을 볼 수는 없었지만 미리 영상과 자료를 올려주어서 전체적인 세션에 접근하기에는 온라인도 나쁘지 않다는 생각이 들었다. ICCV를 참가했을 당시의 나는 기본적인 공부가 되어있지 않아 하나하나 이해하는데 어려움이 있었는데 이번 학회는 청취하는데 보다 쉬웠다. ICCV와 ICML을 청취하면서 공통적으로 느낀점은 기본적인 공부가 되어있어야 한다는 점이다. 다소 낯선 주제가 많았던 학회지만 그 중에서 관심있는 주제를 선택하여 청취하였다.

[Data-Efficient Image Recognition with Contrastive Predictive Coding]

해당 논문은 DeepMind에서 발표한 논문이며 기존의 supervised learning을 극복하기 위한 contrastive method기반의 unsupervised learning을 도입하여 기존 classification task에서 supervised learing보다 좋은 성능을 보여준 논문이다. 사람과 동물은 약간의 예시만을 가지고도 물체의 종류나 형태를 빠르게 학습하는 반면에 컴퓨터(인공지능)은 학습을 하기 위해서 많은 데이터를 필요로 한다. 본 논문은 단 하나의 예시를 가지고 학습한 모델이 사람을 뛰어넘는 성능을 보일 수 있음을 증명하였다. 즉 잘 준비된 representation이 data efficiency를 향상시킬 수 있는 가능성을 보여 준 것이다. Data efficiency를 향상시키기 위해서 unsupervised method중 하나인 Contrastive Predictive Code(CPC)를 사용하였다. CPC는 관찰이 시간적 또는 공간적 차원과 같이 순서에 따라 이루어지도록 요구하는 기술이다. 이러한 기술을 사용하여 아주 적은 labeled images를 사용했을 때 pixel supervised method보다 성능이 좋아지는 것을 확인 할 수 있었다. 이번 논문을 접하면서 Contrastive Predictive Code라는 것을 공부하게 되었고 본 논문은 이제 시작단계라고 생각하며 개선의 여지가 많다고 생각한다. 또한 image외에도 audio, video, robotic manipulation등에도 적용될 수 있다고 생각한다.

[Learning Human Objectives by Evaluating Hypothetical Behavior]

강화 학습은 이상적인 학습 과정을 통해 환경에 대한 반응으로부터 목표를 찾아간다. 이러한 목표를 찾아가는 과정에서 reward가 발생하게 된다. 하지만 unknown dynamics, unknown reward function에서 사용자가 querying을 하게 된다면 많은 비용이 발생하게 될 것이다. 이를 막기위해 ‘가정(What if)’라는 질문을 제시하여 사용자의 reward function을 보다 안전하고 효율적으로 학습하는 알고리즘을 제시하였다. 본 논문은 초기 상태의 생성 모델과 policy외 data에 대해 학습 된 forward dynamics model로 시작 한다. 이러한 방법으로 가상의 행동을 합성하고 사용자에게는 행동으로 reward를 나타내며 신경망을 훈련시켜서 reward를 예측한다. 핵심 아이디어는 환경과 상호작용하지 않고 정보의 가치에 대한 proxy를 최대화 하여 가상 행동(What if)을 처음부터 적극적으로 합성하게 만든다. 논문을 살펴보면서 먼저 인간이라는 존재가 얼마나 구현하기 힘든 존재인지 알게 되었으며 이를 구현하기위해 강화학습에서는 인간의 기저에 대해 생각을 하고 그것을 구현해 나가는 것 같아 흥미로웠다.

ICML을 청취하면서 Computer vision에만 국한되어 있던 나를 좀 더 다양한 영역으로 확장하는 계기가 된 것 같다.