Deterministic Policy Gradient Algorithms
- 2024년 11월 1일 오후 4:14
- 조회수: 19369
REFERENCES
INFORMATION
- 2024년 11월 1일
- 오전 12시 ~
- 온라인 비디오 시청 (YouTube)
발표자:
이준범
TOPIC
Deterministic Policy Gradient Algorithms
On-Line Video
OVERVIEW
요약 : 강화학습은 순차적인 문제 상황에서 에이전트(Agent)가 환경(Environment)과 상호작용하며 행동(Action)을 수행하고, 그 결과의 누적보상을 최대화하기 위한 정책을 학습하는 알고리즘이다. 세미나에서는 연속적인 행동공간에 사용 가능한 결정론적 정책(Determinisitc Policy)을 사용한 알고리즘을 다룬다. 결정론적 정책에 딥 뉴럴 네트워크를 적용한 Deep Deterministic Policy Gradient (DDPG) 알고리즘을 소개하고, 이후 DDPG 알고리즘에서 발생하는 과대추정 편향(Overestimation Bias) 문제를 개선한 Twin Delayed Deep Deterministic policy gradient (TD3) 알고리즘에 대해 설명한다.
참고자료 :
[1] Silver, D., Lever, G., Heess, N., Degris, T., Wierstra, D., & Riedmiller, M. (2014, January). Deterministic policy gradient algorithms. In International conference on machine learning (pp. 387-395). Pmlr.
[2] Lillicrap, T. P. (2015). Continuous control with deep reinforcement learning. arXiv preprint arXiv:1509.02971.
[3] Fujimoto, S., Hoof, H., & Meger, D. (2018, July). Addressing function approximation error in actor-critic methods. In International conference on machine learning (pp. 1587-1596). PMLR.