Reinforcement Learning with Human Feedback: Preference-based Reinforcement Learning 2
- 2024년 8월 23일 오전 2:20
- 조회수: 34607
INFORMATION
- 2024년 8월 23일
- 오후 12시 ~
- 온라인 비디오 시청 (YouTube)
발표자:
허종국
TOPIC
Reinforcement Learning with Human Feedback: Preference-based Reinforcement Learning 2
On-Line Video
OVERVIEW
요약: RLHF란 인간의 피드백만을 가지고 강화학습 에이전트를 학습하는 분야를 가리키며, 도메인 지식을 기반한 구체적인 보상 함수 설계없이 복잡한 태스크를 수행할 수 있음을 시사한다. 금일 세미나에서는 RLHF의 다양한 분야 중 '이진 비교'에 기반한 Preference-based Reinforcement Learning (PbRL)에 대해 소개한다. 지난 Preference-based Reinforcement Learning 1 세미나에서는 PbRL에 불확실성 (Uncertainty) 및 준지도학습 (Semi-Supervised Learning)을 적용한 사례를 알아보았다면, 이번 편에서는 자가지도학습 (Self-Supervised Learning), 메타러닝(Meta-Learning), 액티브 러닝 (Active Learning), 레이블 노이즈 (Label Noise) 관련 연구를 살펴보고자 한다.
참고문헌 :
[1] Christiano, P. F., Leike, J., Brown, T., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in neural information processing systems, 30.
[2] Lee, K., Smith, L. M., & Abbeel, P. (2021, July). PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training. In International Conference on Machine Learning (pp. 6152-6163). PMLR.
[3] Haarnoja, T., Zhou, A., Hartikainen, K., Tucker, G., Ha, S., Tan, J., ... & Levine, S. (2018). Soft actor-critic algorithms and applications. arXiv preprint arXiv:1812.05905.
[4] Liu, R., Bai, F., Du, Y., & Yang, Y. (2022). Meta-reward-net: Implicitly differentiable reward learning for preference-based reinforcement learning. Advances in Neural Information Processing Systems, 35, 22270-22284.
[5] Metcalf, K., Sarabia, M., Mackraz, N., & Theobald, B. J. (2023, December). Sample-Efficient Preference-based Reinforcement Learning with Dynamics Aware Rewards. In Conference on Robot Learning (pp. 1484-1532). PMLR.
[6] Hu, X., Li, J., Zhan, X., Jia, Q. S., & Zhang, Y. Q. Query-Policy Misalignment in Preference-Based Reinforcement Learning. In The Twelfth International Conference on Learning Representations.
[7] Cheng, J., Xiong, G., Dai, X., Miao, Q., Lv, Y., & Wang, F. Y. RIME: Robust Preference-based Reinforcement Learning with Noisy Human Preferences.