고려대학교 DMQA 연구실

2020 International Conference on Machine Learning - 김재훈

2020년 8월 3일 오전 1:45
조회수: 480

Reviewed by

김재훈

[학회 후기]

많은 학회들이 코로나 사태로 인해 취소된 가운데 2020년도 ICML(International Conference on Machine Learning) 학회는 온라인으로 진행되었다. 올해에 해외 학회를 참여할 수 있을 것이라는 생각을 전혀 하고 있지 않았는데 이렇게 생각지도 못한 기회를 가지게 되었다. 이번 1학기 수업도 그랬지만 온라인으로 진행되다 보니 개인 일정에 맞추어서 자유롭게 발표를 청취할 수 있었고 발표 영상 또한 필요에 따라서 멈추었다가 다시 재생하니 듣는 사람 입장에서는 여러모로 편한 면도 있었다. 그래도 오프라인만의 현장감을 느끼지 못한 점은 조금 아쉬웠다. 어서 코로나 사태가 진정되고 다시 현장에서 학회가 개최되었으면 하는 마음이다.

ICML에는 굉장히 많은 논문들이 발표가 되었고 그 분야도 매우 다양하여 종류만 30여 가지가 넘었다. 최근에 관심을 가지고 있는 분야인 컴퓨터 비전을 위주로 보려 했지만 생각보다 논문 개수가 적었고 대신 강화학습 논문이 기대한 것보다 훨씬 많았다. 이번 후기에서는 그 중에서 흥미롭게 읽은 논문 내용을 공유하고자 한다.

해당 논문에서 중심이 되는 키워드는 Experience Replay로 Off-policy에 해당하는 Deep RL 알고리즘에서 데이터를 생성하는 주요한 방법론이다. 최근에 나오고 있는 Deep RL 알고리즘의 어떤 요소와 어떻게 상호작용을 하는지에 대한 이해를 돕기 위해서 이와 관련된 부분을 나누어서 설명을 진행한다. Replay Capacity와 Replay Ratio를 기준으로 분석을 진행한다.

실험은 우선 환경을 Atari game으로, 모델은 Dopamine Rainbow로 하여 Replay Capacity와 Oldest Policy 수치를 조정해가면서 진행을 한다. 실험에 따르면 일반적으로 Oldest Policy의 값을 고정하였을 때 Replay Capacity의 값을 높일수록 모델의 성능이 좋아지며, 거꾸로 Replay Capacity를 고정하였을 때에는 Oldest Policy의 값이 낮아질수록 모델의 성능이 좋아진다. 하지만 모델을 DQN으로 바꾸게 된다면 해당 경향성이 보이지 않게 된다.

이 때 Dopamine Rainbow는 DQN을 기본으로 하되 replay buffer에서 데이터를 샘플링 하는 방법이나 최적화 방법 등을 Prioritized Experience Replay, n-step returns, Adam, C51의 방법론으로 개선한 알고리즘이다. 논문의 저자는 각각의 개선 요소들을 분석하여 어떤 요소가 해당 경향성을 보이게 만드는지 알아보기 위하여 additive 및 ablative study를 진행한다. 참고로 ablative study는 모델을 구성하는 요소 중에서 특정 요소를 제거하였을 때 성능에 어떤 영향을 미치는지 파악하는 방법이다. 실험 결과 n-step return이 가장 중요한 요소인 것으로 나온다.

따라서 n-step return이 성능에 큰 영향을 미치는 이유를 가설을 세운 뒤 부합하는지 알아본다. 여기서 세운 가설은 “더 큰 replay capacity가 추정 값의 분산을 줄여 줄 것”이다. n-step 방법은 TD(0)(one step)과 Monte Carlo(step until the end)사이의 방법론에 해당한다. 따라서 n이 커지면 커질수록 bias-variance tradeoff에 따라서 variance는 커지고 bias는 작아지게 된다. 실험은 추정 값의 분산이 점점 커지도록 하는 sticky action과 그렇지 않은 non-sticky action에 대하여 step의 숫자가 커질수록 replay capacity를 늘렸을 때 성능이 얼마나 오르는가를 측정한다. 이 때 sticky action은 step이 커질수록 계속해서 성능이 오르는 경향을 보이지만 non-sticky action의 그래프는 점점 평평해지는 경향을 보인다. 이를 통해서 step이 커지더라도 replay capacity가 적절하게 커지고 있다면 성능 향상으로 이어진다는 결론이 나오게 된다.

<Context-aware Dynamics Model for Generalization in Model-Based Reinforcement Learning>

Model-based RL은 Model-free RL보다 환경의 변동성(dynamics)에 적합한 모델을 보다 데이터 효율적으로 만들어낸다. 하지만 일반화가 힘들기 때문에 다양한 환경에서 쓰일 수 있는 모델을 만들기는 힘들다. 해당 논문에서는 이런 일반화 성능을 끌어올리기 위하여 Context 정보를 활용한다. 여기서 제안하는 모델은 CaDM(Context-aware Dynamics Model)로 context encoder를 통해서 최근 경험에 대한 contextual information을 latent vector로 표현한다. 강화학습이 풀고자 하는 문제(MDP)에서는 유사한 context에서는 유사한 action을 취할 것이라는 가정이 있기 때문에 표면적으로는 서로 다른 환경이더라도 latent vector가 연결점이 될 수 있다는 것으로 해석을 하였다. 이 latent vector에 대하여 모델을 잘 훈련시켜서 새로운 환경에서도 효율적으로 적응할 수 있다고 한다.

논문에서는 context encoder와 모델을 최적화할 때 자신들만의 손실함수를 제안하여 사용하였다. 현재 state에서 다음 state를 예측하는 forward 모델과 미래 state의 정보로 현재 state를 예측하는 backward 모델을 생성하여 예측에 따른 loss 값에 대한 가중 합을 최소화하는 파라미터를 찾는 것이다. 여기서 헷갈리지 말아야할 것은 해당 모델에는 모두 과거의 state 정보로 만든 latent vector가 사용된다는 점이다. CaDM의 또 다른 특징으로는 model-free model에도 적용이 될 수 있다는 점이다. 이 경우에는 policy의 조건으로서 context encoder가 들어가게 된다.

해당 논문은 실험에 사용한 모델의 코드도 함께 올려두었기 때문에 이후 재현 실험을 해보기 좋을 것 같다.

이번 ICML 학회를 통해서 강화학습을 다시 보게 된 것 같다. 정말 시도해볼 연구가 많다는 것을 느꼈고 꾸준히 연구가 진행되고 있다는 것을 알 수 있었다. 아직 강화학습에 대한 지식이 많지 않기에 완벽하게 이해를 하기에는 어려웠지만 이 분야가 정말 흥미로운 분야라는 것을 다시 한 번 깨달을 수 있는 기회였던 것 같다.