- 2025년 3월 21일 오전 10:11
- 조회수: 90
INFORMATION
- 2025년 3월 21일
- 오후 12시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
요약
- 다중 에이전트 강화학습에서 QMIX는 여전히 널리 사용되는 방법론으로, 개별 에이전트의 Q 값을 혼합 네트워크(mixing network)를 통해 글로벌 Q 값으로 통합하여 협력적 정책 학습을 가능하게 하는 중앙 집중 학습(CTDE) 구조를 갖는다.
- 최근에는 QMIX의 한계를 극복하기 위해 구조를 확장하거나 개선하는 다양한 연구가 진행되고 있으며, 이번 세미나에서는 이러한 발전된 방법론들을 소개하고자 한다.
참고자료 :
[1] Wang, J., Ren, Z., Liu, T., Yu, Y., & Zhang, C. (2020). Qplex: Duplex dueling multi-agent q-learning. arXiv preprint arXiv:2008.01062.
[2] Khan, M. J., Ahmed, S. H., & Sukthankar, G. (2022, October). Transformer-based value function decomposition for cooperative multi-agent reinforcement learning in starcraft. In Proceedings of the AAAI Conference on Artificial Intelligence and Interactive Digital Entertainment (Vol. 18, No. 1, pp. 113-119).
[3] Hu, Z., Zhang, Z., Li, H., Chen, C., Ding, H., & Wang, Z. (2023). Attention-guided contrastive role representations for multi-agent reinforcement learning. arXiv preprint arXiv:2312.04819.
청취자 후기

강화학습은 순차적인 의사 결정 환경에서 에이전트가 받는 누적 보상 값을 최대화하는 정책을 탐색하는 과정이다. 스타2의 다중 에이전트 학습을 가정하는데, 시점 t에 따라 얻는 정보들을 통해 한 팀의 유닛이 모두 사라질 때 까지 정책을 탐색하여 얻는 데이터를 에피소드라고 한다. 여러 번 반복하여 얻은 에피소드들을 이용해 네트워크를 학습 시킨다. 다중 에이전트 환경에서는 각각 에이전트의 기여도를 파악하기가 어렵다는 Credit Assignment 문제가 발생한다. 오늘 세미나에서는 Credit Assignment를 해결하기 위한 방법론인 QMIX와 QMIX의 한계를 극복한 QPLEX, TransMix, ACORM을 설명해주었다.
강화학습 알고리즘이 게임으로부터 많이 발전하고 있는데 현실에서 어떤 상황에 적용 할 수 있을지 궁금해졌다.
스타2로 강화학습을 재밌게 설명해준 정인이형에게 고맙다는 말 전하고 싶다.

이번 세미나는 MARL에서 근간이 되는 Q-Mix와 더불어, credit assignment 문제를 해결한 방법론들에 대해 소개해주었다. QPLEX는 처음으로 공동 행동 가치 함수와 개별 가치 함수를 모두 고려하는 dueling mixing network를 통해 Q-Mix를 개선하였다. TransMix는 transformer 기반의 mixing network를 사용하였으며, 흥미로웠던 점은 global state에 가우시안 노이즈를 부여하여 마치 전쟁에 안개가 뒤엎인 듯한 상태에서의 성능을 도출한 점이였다. 이를 통해, 노이즈에 보다 강건하다는 것을 정량적으로 입증하였다. 그러나 한 가지 의문이였던 것은, 발표자인 정인이형도 얘기했듯이, 정성적 결과를 봤을 때 QPLEX와의 차이가 거의 나지 않는다는 점이다. 특히 최종 스텝인 2백만 스템에서도 승률이 사실상 거의 똑같이 보이기 때문에, 이 부분은 의아스럽다. 그래서 뒤이어 소개되는 ACORM에서는 굳이 TransMix는 비교하지 않은 것 같기도 하다. ACORM의 가장 중요한 특징은 대조 학습을 적용한 것이다. 대조 학습을 통해, 유사한 행동 패턴을 가진 에이전트들이 보다 가까운 역할 표현을, 그렇지 않은 에이전트들은 먼 역햘 표현을 가지도록 학습하게 된다. 매우 어려운 시나리오들에서 다른 모델들을 압도함을 보여줌으로써, 방법론의 효과를 강조하였으며, ablation study를 보면 대조 학습의 효과가 크다는 것 또한 확인할 수 있다.
정인이형의 세미나들을 통해 MARL 분야를 접하고 있다. 해당 분야는 single agent 상황 대비 고려해야 할 부분이 많아 방법론 측면에서 어려운 부분이 많게 느껴지는 것 같다. 대조 학습 뿐만 아니라, 다른 보조 학습을 적절히 사용하는 다양한 연구들이 이어져 나올 것으로 생각되고, 역시나 무궁무진한 분야인 것 같다. 어려운 내용을 이해하기 쉽게 설명해준 정인이형에게 고맙다는 말을 전하며 본 세미나 후기를 마친다.

가치 기반 멀티 에이전트 강화학습 알고리즘에 대한 세미나로써, QMIX의 진화버전 방법론 3개에 대해 알아보았다. 전체적으로 설명하기 복잡한 알고리즘들이 꽤나 있었는데, 30분 내로 컴팩트하게 잘 정리된 것 같은 느낌이 들었다.
1. QPLEX : Dueling DQN에서 고안된 느낌이 강하게 든다. Q-value를 V와 A로 분해하는 것과 Multi-head attention을 쓴 것이 메인이라고 하는데, 내가 봤을 때 가장 중요한 것은 Multi-agent에서 Q-value를 Decompose하는 부분인 것 같다. Single Agent와 달리, Multi Agent에서는 전역 상태 정보, 지역 상태 정보, 그리고 다른 에이전트의 행동 조합 때문에 Q-value를 분해하는 것에 대한 정의를 어떻게 내릴까가 굉장히 궁금했었다. 게다가 Multi-agent에서는 개인의 최적 선택이 전체의 최적 선택이 되도록 하여 학습을 용이하게 하는 Individual Global Max (IGM) 조건까지 만족해야하는 제약이 있다. Q-PLEX에서 Local V 값은 에이전트의 개별 observation sequence에 대해 action space에 대한 Max 값으로 정의한다 (Value-based 라서 Max로 정의한 것 같은데, 그렇다면 Actor-Critic 방식에서는 그냥 Expectation으로 해도 밑에 다른 수식들과 Collision이 있을지는 모르겠다). 그리고 Advantage의 겨우 Q-V를 그대로 사용한다. 이 다음부터가 중요한데, Global V값의 경우 Local V값의 선형 결합으로 구성하되, IGM Condition을 만족하기 위해 w의 값을 항상 양수로 설정한다. 그리고 Global A 값은 w_i 가중합을 통해 계산한다.
2. TransMix: Transformer를 활용하여 non-linear한 가치함수 분해를 가능하게 한다는 이점이 있다. 또한 입력값의 순서와 환경의 fogging 및 noise에 강건하다고 하는데, 솔직히 Transformer를 쓴 것과 Noise에 강건한 이유에 대한 커넥션이 잘 이해가 가진 않는다.
3. ACORM : MoCo, Clustering을 활용하여 RODE처럼 에이전트 별 role representation을 만들어주는 것이 핵심같다. 한가지 궁금한건 role representation을 위한 contrastive learning을 진행할 때, positive와 negative의 정의를 Cluster label로 하는데, 이때 클러스터링을 매 스텝마다 진행하는 것인지, 그렇다면 계산 시간이 상당히 오래걸릴 것 같다는 느낌이 든다. 만약 아니라면, 학습 초기의 GRU embedding을 가지고 어떻게 적절한 클러스터링을 만드는 것일까가 좀 궁금하다.
금일 세미나를 준비하느라 고생한 정인이형께 감사의 말을 전한다.