- 2024년 8월 30일 오후 2:39
- 조회수: 34917
INFORMATION
- 2024년 8월 30일
- 오후 12시 ~
- 온라인 비디오 시청 (YouTube)
TOPIC
On-Line Video
OVERVIEW
청취자 후기
이번 세미나는 Multi-Agent Reinforcement Learning (MARL) 분야에서 value decomposition을 통해 credit assignment를 해결한 방법론들에 대해 소개해주었다. 여기서 credit assignment란 MARL에서 전체 보상에 대해 개별 에이전트의 기여도를 파악하기 어려운 문제를 말한다. 본 세미나에서는 축구 경기에서 득점에 이르기까지 팀 선수들의 기여도를 예시로 설명해주었고, 게임을 예시로 생각해보면 교전에서 승리하기 위해 아군끼리의 적절한 협력을 통해 목적을 달성하는 것을 생각해 볼 수 있다.
VDN은 centralized, decentralized 접근법의 장점만을 사용하는 Centralized Training Decentralized Execution (CTDE) 방식을 사용했다. Additive factorization을 통해 팀 보상을 개별 에이전트의 가치 함수로 분해하여, 개별 가치 함수는 팀 전체 보상으로부터의 back propagation에 의해 학습되게 된다. 그러나 VDN은 각 에이전트의 가치 보상 함수의 합을 선형으로 합산하고, 전체적인 상태 정보를 무시하기 때문에 최적 정책의 학습에 문제가 있을 수 있다. 따라서, 이를 보완하고자 한 QMIX가 제안되었다. QMIX는 각 에이전트의 가치 보상 합을 mixing network를 통해 비선형적으로 결합하였고, mixing network에서 전역 상태 정보를 추가로 사용할 수 있도록 프레임워크를 설계하였다. 실험 결과에서, VDN-S를 같이 비교하면서 전역 상태 정보를 활용하는 것은 비선형 합산 방식과 조합을 해야 효과적임을 보여준 것이 흥미로웠던 해석이었다. 마지막으로 QTRAN은 앞선 두 방법론이 만족했던 IGM 조건을 상태 보정 함수(V)와 변환된 공동 행동 가치 함수(Q')을 통해 만족시켰다. 상태 보정 함수 수식을 통해 제약 조건을 걸어두었으며, QTRAN-alt의 경우는 공동 행동 보상이 최적이 아닌 경우에 학습의 안정성을 확보하기 위해 보다 강한 제약을 걸어두었다. 결과적으로, QTRAN-alt는 모든 시나리오에서 제일 우수한 성능을 이루었다.
그간 정인이형의 진행 연구를 통해 QMIX를 접하긴 했었는데 이번 세미나를 통해 QMIX와 이와 같은 문제를 해결하고자 한 VDN, QTRAN 까지 살펴볼 수 있었다. 확실히 여러 에이전트를 고려해야 하다 보니 전역 정보와 로컬 정보를 같이 고려해야 하는 등의 어려운 부분이 많은 것 같고, 오히려 이러한 점이 연구의 가능성을 많이 열어주고 있는 것 같다. 이번 세미나에서는 방법론 뿐만 아니라 결과 해석적인 부분에서도 디테일하게 설명해주어 많은 도움이 되었다. 좋은 세미나를 준비하느라 고생한 정인이형에게 고맙다는 말을 전하며 본 세미나 후기를 마친다.
연구실에서 다양한 분야에 대한 세미나를 많이 들었었다. 하지만 가끔 세미나 주제가 이전과 좀 중복되는 주제가 많기도 하였다. 강화학습 세미나도 많이 진행되었었지만, 기존에 다른 포털이나 웹에서 찾아볼 수 있는 주제 혹은 이미 여러번 다뤄진 적이 있던 주제가 있었던 것도 사실이다. 특히 대부분의 강화학습 세미나 리뷰가 Single-agent RL 위주로 흘러갔었는데, 금일 세미나는 강화학습 세미나 중 최초로 (내가 아는한) Multi-agent RL 쪽 논문을 위주로 다루었다. 특히 MARL 중에서도 value-based 쪽 논문인 VDN, QMIX, QTRAN을 다루었다.
초기 MARL의 갈래는 Fully centralized vs Fully decentralized였다. 전자의 경우는 딱 그냥 '공산주의'와 같다고 생각하면 될 것 같다. 한 명만 잘해도 다 똑같이 배급받는데 나머지는 뭐하러 일하나 싶은 느낌이랄까...그래서 전자의 경우는 나머지 에이전트는 거의 노는(학습이 잘 이루어지지 않는) lazy agent 문제가 발생한다. 그렇다면 반대는 어떨까? 반대는 오히려 극단적 개인주의라고 볼 수 있다. 이에 따라 주변 에이전트와의 협력을 고려하지 않는다. 뿐만 아니라, MARL에서는 다른 에이전트의 행동이 환경에 영향을 미치기 때문에 한 에이전트가 같은 상태에서 같은 행동을 취하더라도 다른 에이전트의 행동에 따라 상태전이 확률이 달라진다. 이러한 문제를 non-stationarity라고 하는데, 결론은 둘 다 문제라는 것이다.
이에 대한 중도안으로 나온 것이 CTDE 패러다임이다. CTDE에 대한 설명은 세미나에 잘 나와있으니 생략하겠지만, 이러한 CTDE에서도 골머리를 앓는게 있는데 바로 Credit Assignment Problem이다. 즉, 모두가 협력해서 하나의 상을 받았는데, 이 상의 기여도를 어떻게 측정할 것인가 이다. 이러한 Credit Assignment 문제를 해결한 논문들이 금일 소개한 3가지 논문이며, VDN-QMIX-QTRAN 차례대로 기존에 가지고 있던 방법론의 강력한 제약조건을 완화하여 일반적인 가정하에 쓸 수 있게 되었다고 할 수 있다.
VDN의 경우는 개별 에이전트의 Q의 합이 전체 joint Q와 같다는 매우 강력한 가정인 '선형성'을 기저로 한다. QMIX의 경우는 이러한 가정을 조금 완화하여 비선형성을 일부 보장하되, 전체의 joint Q가 높아지는 행동이 개인의 이득을 위한 행동과 같아지도록 하기 위해 '단조성'을 가정하였다. QTRAN은 에이전트의 비협력성까지 고려하여 조금된 완화된 조건을 성립하기 위해 단조성에 대한 제약 조건 대신 joint state value V를 보정값으로 추가하여 이해상충적인 상황에서도 에이전트가 잘 학습되도록 고안하였다.
굉장히 좋은 흐름이었다고 생각한 세미나였다. 세미나를 준비하느라 고생한 정인이형에게 감사의 말을 전한다.