Multi-Agent Preference-Based Reinforcement Learning
- 2026년 5월 22일 오전 7:01
- 조회수: 47
INFORMATION
- 2026년 5월 22일
- 오후 12시 ~
온라인 비디오 시청 (YouTube)
발표자:
김정인
김정인
TOPIC
Multi-Agent Preference-Based Reinforcement Learning
On-Line Video
OVERVIEW
요약
강화학습에서 적절한 보상 함수를 설계하는 것은 모델의 성능을 결정하는 중요한 요소이지만, 실제 복잡한 환경에서는 사람이 직접 보상을 정의하기 어렵다는 한계가 존재한다. 이러한 문제를 완화하기 위해 인간 또는 AI의 선호도 정보를 활용하여 보상 함수를 학습하는 preference-based reinforcement learning 연구가 활발히 진행되고 있다. 그러나 다중 에이전트 환경에서는 에이전트 간 상호작용, 협력 관계, temporal credit assignment, individual contribution assignment 등의 문제가 함께 발생하기 때문에 기존 단일 에이전트 기반의 선호도 학습 방법을 그대로 적용하기 어렵다. 본 세미나에서는 다중 에이전트 환경에서 선호도 정보를 활용하는 대표적인 연구들을 소개하고자 한다. 구체적으로 temporal dependency와 cooperative dependency를 고려하여 보상 모델을 학습하는 MAPT, 에이전트 별 선호도 사용 및 보상 모델을 사용하지 않는 AMADPO을 중심으로 multi-agent preference-based reinforcement learning의 연구 흐름을 살펴보고자 한다.
참고자료
[1] Zhu, T., Qiu, Y., Zhou, H., & Li, J. (2024, March). Decoding global preferences: Temporal and cooperative dependency modeling in multi-agent preference-based reinforcement learning. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 38, No. 15, pp. 17202-17210).
[2] Kou, Q., Li, M., Liu, Z., Qian, L., Chen, Z., Wan, L., ... & Lan, X. (2025, May). Offline Multi-Agent Preference-Based Reinforcement Learning with Agent-aware Direct Preference Optimization. In Proceedings of the 24th International Conference on Autonomous Agents and Multiagent Systems (pp. 1181-1190).