[전체 후기]

이번 ICML은 처음 참여하는 학회라서, 어떤 식으로 학회가 진행되는지, 어떠한 분야의 연구가 활발히 진행되는지를 볼 수 있는 기회라 좋았다. COVID-19의 국제적 위기로 인해 온라인으로 진행되어서 현장감 등이 조금 떨어져 아쉽기도 하였다. 수 백편 이상의 연구 논문들 가운데, 주 관심 분야인 강화학습을 떠나 다양한 주제를 살피며 안목을 넓히고자 하였다. 최근 연구실에서 진행하는 연구미팅 혹은 세미나의 주제에서 Attention Mechanism Self-Supervised Learning (Representation Learning) 이 많이 언급되는데, 이번 ICML 도 그 흐름이 주를 이룬 것 같다. 또한 Optimization Reinforcement Learning 등의 주제 또한 눈에 많이 띄었다. 아직 다양한 분야의 도메인을 많이 공부하지 못하여 이해하고 와 닿았던 것은 몇 개밖에 되지 않았지만, 그래도 편협한 시각에서 벗어나 최대한 많은 분야를 접하게 된 계기였다.

 

[Growing Action Space]

Facebook AI labOxford에서 함께 발표한 강화학습 분야의 연구였다. 기존의 강화학습은 Action SpaceEnvironmentObservation Space의 조합이 매우 많아 다양한 action 을 골고루 탐험하고 학습하는 것이 힘들고, 학습에 있어서 불안정성이나 분산이 매우 높은 것이 결점이었다. 해당 논문은 강화학습에 Curriculum Learning을 접목시켜 좀 더 안정적으로 agent를 학습 할 수 있는 방법론을 제시하고, 해당 방법론을 적용한 Off-Policy Value Based AlgorithmGAS 라고 명명했다. Curriculum Learning Supervised Learning 에서 신경망이 쉬운 task에서 시작해 점점 어려운 task를 학습하게 하는 방법론이다. 강화학습에서 Curriculum Learning을 적용할 때, Environment의 난이도나 Observation Space Dimension을 조절하여 agent가 순차적으로 학습할 수 있도록 하는 것이 Curriculum Learning이라고 생각하기 쉽지만, Environment를 조작하는 것은 쉽지 않다. 따라서 내부적으로 AgentAction Space를 조절하는 것이 해당 논문의 Scheme이다. Action Space가 제한 되어있으면, 차원이 줄어듦으로 효율적은 학습이 가능하나 Performance가 제한된다. Full Action Space에서 학습을 시키면 이상적으로는 Optimal Performance로 가겠지만, 학습이 비효율적이게 된다. 이 두 가지의 장점을 결합하여, 점점 Action space를 늘려가며 agent를 학습시키는 것이 GAS의 원리이다. Action spacelevel을 정하고 해당 level에서 할 수 있는 action을 제한 시킨다. 그 다음 low level action space에서 충분한 탐색을 거쳐 Q-value를 구한 다음, 다음 level action space에 초기값으로 사용한다. 이렇게 할 경우 다음 level에서의 Q-value는 이전 levelQ-value Lower Bound로 가지게 된다. 해당 연구는 Multi-Agent 방법론으로 Starcraft minigamemicro-management에 적용 되었다. 차후에 일반적인 Q-learning 알고리즘과 GAS 의 성능비교를 해보고 싶다. 또한 해당 논문에서는 Value-Based Algorithm을 사용하였지만 Actor Critic 알고리즘에 GAS 방법론을 적용해보는 연구를 진행해보고 싶다.