Reinforcement Learning with Human Feedback: Preference-based Reinforcement Learning 2
- 2024년 8월 23일 오전 2:20
- 2024년 8월 23일
- 오후 12시 ~
온라인 비디오 시청 (YouTube)

On-Line Video
요약: RLHF란 인간의 피드백만을 가지고 강화학습 에이전트를 학습하는 분야를 가리키며, 도메인 지식을 기반한 구체적인 보상 함수 설계없이 복잡한 태스크를 수행할 수 있음을 시사한다. 금일 세미나에서는 RLHF의 다양한 분야 중 '이진 비교'에 기반한 Preference-based Reinforcement Learning (PbRL)에 대해 소개한다. 지난 Preference-based Reinforcement Learning 1 세미나에서는 PbRL에 불확실성 (Uncertainty) 및 준지도학습 (Semi-Supervised Learning)을 적용한 사례를 알아보았다면, 이번 편에서는 자가지도학습 (Self-Supervised Learning), 메타러닝(Meta-Learning), 액티브 러닝 (Active Learning), 레이블 노이즈 (Label Noise) 관련 연구를 살펴보고자 한다.
참고문헌 :
