Reinforcement Learning with Human Feedback: Preference-based Reinforcement Learning 4
- 2025년 9월 26일 오전 3:18
- 조회수: 91
INFORMATION
- 2025년 9월 26일
- 오후 12시 ~
온라인 비디오 시청 (YouTube)
발표자:
허종국

TOPIC
Reinforcement Learning with Human Feedback: Preference-based Reinforcement Learning 4
On-Line Video
OVERVIEW
요약
RLHF란 인간의 피드백만을 가지고 강화학습 에이전트를 학습하는 분야를 가리키며, 도메인 지식을 기반한 구체적인 보상 함수 설계없이 복잡한 태스크를 수행할 수 있음을 시사한다. 금일 세미나에서는 RLHF의 다양한 분야 중 '이진 비교'에 기반한 Preference-based Reinforcement Learning (PbRL)에 대해 소개한다. 지난 3편에 이어 이번 시간에는 순차적 쿼리 샘플링을 활용해 효율적인 인간 피드백 추출을 위한 방법론 2가지와 보상 함수 없이 대조 학습을 이용하여 강화학습 에이전트를 학습시키는 방법론 1가지를 소개하고자 한다. SeqRank [1] 는 기존의 독립적 쿼리 추출 방식을 벗어나 순차적 순위 기반 쿼리 추출 방식을 활용하여 적은 수의 인간 레이블로부터 더 많은 선호 데이터를 추출할 수 있게 하는 Online PbRL 방법론이다. LiRE [2]는 모든 선호 데이터에 대한 우열 관계를 순차적 순위 리스트로 구성하여, 순차적 순위 기반 쿼리 추출 방식을 고도화한 Offline PbRL 방법론이다. 마지막으로, CPL [3]은 대조 학습과 regret 기반 선호 모델링을 통해 보상 함수 학습없이 정책 함수를 직접 학습시키는 방법론이다.
참고자료
[1] Hwang, M., Lee, G., Kee, H., Kim, C. W., Lee, K., & Oh, S. (2023). Sequential preference ranking for efficient reinforcement learning from human feedback. Advances in Neural Information Processing Systems, 36, 49088-49099.
[2] Choi, H., Jung, S., Ahn, H., & Moon, T. (2024, July). Listwise Reward Estimation for Offline Preference-based Reinforcement Learning. In International Conference on Machine Learning (pp. 8651-8671). PMLR.
[3] Hejna, J., Rafailov, R., Sikchi, H., Finn, C., Niekum, S., Knox, W. B., & Sadigh, D. Contrastive Preference Learning: Learning from Human Feedback without Reinforcement Learning. In The Twelfth International Conference on Learning Representations.