고려대학교 DMQA 연구실

2019 NCSOFT AI-DAY - 박영준

2019년 1월 29일 오후 12:02
조회수: 716

Reviewed by

박영준

NCSOFT에서 개최한 AI-DAY포럼에 참석하였다. AI-DAY포럼에서는 게임뿐만 아니라 NLP등 AI와 관련된 다양한 최신 연구를 학회처럼 들을 수 있는 기회였다. 우리 연구실에서는 나와 강현구 연구원이 스타크래프트 과제를 진행하면서 수행했던 연구를 주제로 이번 포럼에서 발표했다.

[발표후기]

발표주제: Cooperative Multi-Agent Reinforcement Learning for Global Reward

단일 에이전트로 구성된 환경에서의 강화학습은 다양한 응용 분야에서 성과를 내며 주목을 받고 있다. 하지만 현실의 많은 문제는 여러 개의 에이전트가 서로 상호작용하며 공동의 목표를 달성해야 하는 경우가 많기 때문에 멀티에이전트 강화학습이 활발하게 연구되고 있다. 기존의 멀티에이전트 강화학습은 여러 개의 에이전트 마다 독립적인 보상을 통해 학습을 한다. 이 경우 좋은 행동을 하는 에이전트와 그렇지 못한 에이전트가 학습 과정에서 서로 다른 피드백을 받는다. 하지만 현실의 문제에서 에이전트 마다 개별 보상을 얻기는 쉽지 않다. 본 연구에서는 에이전트 마다 개별적인 보상을 얻지 못하는 상황에서 통합된 보상만으로 다수의 에이전트를 효과적으로 학습하는 방법론에 대해 제안한다. 제안하는 방법은 순환신경망으로 구성된 액터-크리틱 (actor-critic) 기법으로 통합된 보상을 개별 에이전트에게 분배해줄 수 있게 한다. 제안하는 방법은 멀티에이전트 환경에서 기존의 다른 알고리즘 보다 좋은 성능을 내는 것을 입증하였다.

Q1. 예측한 next state는 어떻게 활용되는가? Next state를 예측하는 부분이 어떻게 에이전트의 성능을 개선할 수 있는가?

A1. 예측한 next state는 따로 활용되지 않는다. 따로 활용되는 기법은 model-based RL에서 활용하는 방식으로 model-free 기법과 다른 강화학습의 큰 줄기다. Next state를 예측하는 부분의 효과는 actor의 gradient가 어떻게 계산되는지 보면 알 수 있다. 기존 model-free 기법은 모델에 대한 이해를 배제하고 학습이 진행된다면, 제안하는 기법은 모델에 대한 이해를 추가한 model-based 강화학습 기법이라 할 수 있다.

Q2. Categorical action에 대해 어떻게 DDPG를 이용할 수 있는가?

A2. 최근 이 분야에서 많이 활용되는 Gumbel softmax를 이용하여 action을 결정한다.

[청취후기]

발표주제: Interactive Character Animation by Learning Multi-Objective Control

3D 애니메이션에서 캐릭터의 움직임을 만들어 내기 위해서는 복잡한 코딩이 필요한데 본 발표에서는 데이터로 학습한 모델을 이용해 대체할 수 있는 방안에 대해 소개했다. 발표자는 자연스러운 애니메이션을 만들어 내기 위해 다양한 objective를 결합하여 RNN을 이용하여 학습했다. 검증환경으로 사용한 농구 애니메이션에서는 적은 양의 데이터로 학습한 경우에도 자연스러운 모습을 보여주는 것을 확인했다. 한가지 아쉬운 부분은 도메인이 바뀔 때 마다 objective function을 세심하게 설계해야 한다는 점이다. 또한 강화학습을 연구하는 입장에서 이러한 모델을 이용하여 에이전트를 학습하는 기법으로 연구를 확장해도 흥미로울 것 같다.

Conference