고려대학교 DMQA 연구실

2020 International Conference on Machine Learning - 조 억

2020년 8월 3일 오후 1:31
조회수: 525

Reviewed by 조 억

조 억

첫 참석했던 ICCV 2020를 미국 출장과 겹쳐서 마지막날 포스터 세션만 참석해서 저자들에게 시간이 없었던 만큼 여기저기 기웃거리며 짧게나마 저자와 얘기를 하면서 나중에 꼭 참석해서 진득하게 볼 거라 결심했던 적이 있었다. 그러다 작년 회사를 통해 ICML 참석할 기회가 있었는데 스케쥴상 포기했었던 기억이 있었습니다. 학회가서 긍정적인 경험을 해서 학수고대했으나 상황이 여의치 않았지만 이번 온라인 학회로 장소, 시간 제약이 풀린만큼 부담없이 들을 수 있어서 오프라인에서 피부로 오는 전율은 없었지만 그 이상을 만회하고 남았던것 같습니다.

최근 학회의 동향을 계속 보진 않아서 주요 연구분야인 강화학습쪽에 인기가 좀 식지 않았을까라는 생각과는 달리 강화학습 관련 논문들이 100편이 넘게 accept되는걸 보면서 여전히 강화학습이 많은 가능성이 있음을 재확인하였다. 특히 중국 쪽에서 Bandit 문제를 가지고 많은 논문들이 나왔으며, 이 bandit을 가지고 강화학습의 기존 연구를 확장하여 좋은 결과를 얻은 논문들이 있었다. Google Deepmind에서 Atari 57개의 게임에서 인간 벤치마크 점수를 월등히 앞서는 Agent57 라는 알고리즘을 발표하였는데 여기에 Policy와 각종 하이퍼파라메터를 bandit으로 상황에 맞게 조정하여 성능을 향상시키는 부분이 있었으며, 아래에서 소개하겠지만 에이전트에서 받아들이는 정보를 augmentation해서 기존 알고리즘 성능을 향상시키는 논문인데 이 augmentation trick의 아이디어세 발전하여 Multi-armed Bandit(UCB)를 이용하여 일반화시킨 논문 2편이 같은 소속에서 나왔다는 점이 흥미로웠다. 그리고 다른 하나는 엘레베이터 연구하면서 고민을 하던 것과 유사한 실험에 대한 논문이 있어서 참 반가웠고 기존 강화학습 연구와 접근하는 것이 완전 다른 논문이 있어서 2가지를 소개해보고자 한다.

[Automatic Data Augmentation for Generalization in Reinforcement Learning]

이 논문을 보기전에 "Image Augmentation Is All You Need: Regularizing Deep Reinforcement Learning from Pixels"라는 포스터 논문을 먼저 보았다. 강화학습중 Cartpole의 경우는 데칼코마니 같이 화면을 180도로 회전해서 샘플을 넣어도 이건 실제 환경과 동일한 샘플이 될 수 있다. 여러가지 이미지 기반의 augmentation 기법들을 있는데 이를 섞어서 state를 transofrm하여 샘플을 boostraping 하였다고 한다. 실제로 논문을 보면 파이썬 소스 코드가 있는데 논문에 왠 파이선 코드를 넣는 경우가 있나 생각했지만 저자는 리플레이 버퍼에 데이터를 넣을때 몇줄의 코드만으로 성능을 개선시키는 것을 강조하고 싶어서 넣었다고 영상에 언급하였다. 간단한 트릭이지만 실험 결과가 좋아지면서 이 자체로도 논문의 accept여부가 결정되는걸 보고 신선하였다. 그 후 여러 다른 발표를 살펴보다가 지금 소개하는 이 페이퍼 메인 발표세션 초반에 저자들이 위 포스터 논문을 언급하면서 이 저자는 Bandit algorithm을 사용하여 data augmentation도 사람이 설정하는게 아니라 일반화해서 적용할수 있다고 아이디어를 낸 논문이었다. 찾아보니 같은 뉴욕대학교에서 같은 지도교수로 나오는걸 확인하였으며 간단한 트릭에서 출발한 논문이 같은 연구실에서 2편의 페이퍼가 accept된걸 보고 또 한번 신기하였다.

[Towards TempoRL : Learning When to Act]

Q 러닝으로 아주 간단한 게임에 적용한 논문인데 개인연구로 진행하는 엘레베이터 연구에서 고민한던것과 상당히 유사해서 재미있게 보았다. 모든 에이전트들이 액션을 결정할지에 대한(What) 고민만 하면서 학습시킬려고 하는데 그러지말고 언제 액션을 내려야 하는지(When)에 대한 학습도 같이 하자는 것이다. Skip Connection을 사용하여 when과 what을 결정한다고 하는데 간단한 예를 들어 설명하면 Cliff Walking이라는 환경에서 절벽을 피해 목적지에 도달한다고 하였을 때 매번 액션을 내리는게 아니라 중요 시점, 즉 에이전트가 절벽 만났을때 절벽 근처에 방향을 전화하는 시점에 대한 액션만 집중적으로 학습을 하면 샘플 효율성도 좋아지고 중요한 시점에 더 시행착오를 범하면서 빠르게 학습을 할 수 있다고 주장하였다. 즉, Proactive한 의사결정을 하는 에이전트를 학습하자는 것이다. 이 논문은 추적을 하면서 추후 엘레베이터에서 갖고 있는 문제에 대한 고민을 이 논문의 아이디어에서 힌트를 얻어 좋은 아이디어와 그 결과를 내면 좋겠다라는 생각을 하였다.

마지막으로 구글과 딥마인드 소속의 사람 2명이 Model Based Learning이라는 주제로 튜토리얼을 봤었다. 이전에 스타크래프트 산학시절에 Model Based RL이 이해하고 State와 Reward에 대해서 학습을 model free RL과 같이 접목을 해봤던 적이 있었다. 하지만 이제 Model Free RL 만큼이나 다양한 분야들이 존재하고 그 분야에 해당하는 대표알고리즘들이 있다라는것에 놀라웠다. 이전 구글 딥마인드에 David Ha라는 저자를 컨퍼런스에서 World Model이라는것을 가져와서 Model Based RL의 가능성과 신선함을 안겨다 주었는데 그 이후에 많은 업데이트가 있다는 점. 우리가 알고 있는 MCTS 알고리즘 또한 Decision_Time Planning에서 Discrete Action의 한 경우이며 그 외에 많은 알고리즘이 있음에 감탄하고 공부할 것이 많아 넓은 세상을 다시 한번 느꼈던 것 같다. 마지막으로 정리했던 것을 잘 기록해서 추후 연구에 잘 활용되도록 해야겠다.