- 2023년 12월 25일 오전 12:44
- 조회수: 27005
INFORMATION
- 2023년 12월 29일
- 오전 12시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
청취자 후기

이번 세미나는 RLHF의 다양한 분야 중 하나인 Preference-based Reinforcement Learning(PBRL)에 대해 진행되었다. LLM에 대해 공부를 해보신 분들은 RLHF가 언어 모델이 Instruct-GPT부터 Chat-GPT 모델 등으로 발전할 때 사람의 추가적인 피드백이 사용되었던 방법으로 많이 알고 있을 것이고 물론 나도 그랬다. 그러나 이에도 다양한 분야가 있다는 것을 이번 세미나를 통해 알게 되었고 그 중 PBRL 분야의 네 가지 방법론들에 대해 소개되었다.
먼저 PrefPPO/PrefA3C 에서는 앙상블 모델을 통해 예측 확률 분산이 큰 쿼리를 선택한다는 것이 가장 큰 특징이라고 할 수 있다. 즉 예측하기 어려운 쿼리들에 집중을 한다고 할 수 있다.
두 번째로 PEBBLE은 이전에 수집된 데이터도 재학습에 사용 가능하도록 Off-Policy 알고리즘인 SAC 모델을 베이스로 사용했다. 우선 다양한 trajectory를 수집하기 위해 어느 것이 더 선호되는지 human labeling을 통해 이진 분류 방식으로 학습하고 replay buffer를 사용 시 학습이 불안정해지는 것을 방지하기 위해 업데이트 된 reward estimator로 replay buffer에 저장된 모든 experience에 대해 relabeling한다는 것이 가장 큰 특징이다.
세 번째로 SURF는 PEBBLE 방식에 추가로 다량의 unlabeled data도 활용하기 위해 준지도 학습의 대표적인 알고리즘인 FixMatch 알고리즘을 적용하였다. Augmentation 기법으로는 Temporal Cropping이라는 기법을 사용했고 unlabeled data에서 최대 예측 확률이 threshold를 넘는 경우 이를 pseudo labeling하여 augmentation 된 unlabeled data의 예측 확률과의 cross entropy loss를 사용한다.
마지막으로 RUNE은 학습 도중에도 익숙하지 않은 상태에 대해 추가적으로 탐험하도록 하기 위해 제안 된 방법론이다. 보상 함수를 정의할 때 단순 앙상블 결과의 평균만 사용하는 것이 아닌, 표준 편차도 같이 사용함으로써 불확실성을 활용했다고 볼 수 있다.
아직 강화 학습에 대해서는 모르는 것이 너무나도 많지만 이번 세미나가 그래도 큰 도움이 되었다. 특히 불확실성이나 unlabeled data가 이 분야에서는 이렇게 활용될 수 있구나를 알 수 있었고 비교적 간단하면서도 좋은 성능을 도출했음을 확인할 수 있었다. 긴 분량이었지만 필기를 통해 친절하게 설명해주어 이해를 보다 쉽게 할 수 있었다. 좋은 세미나를 준비해준 종국이에게 감사의 말을 전하며 본 세미나 후기를 마친다.

Preference-based reinforcement learning(PbRL)은 별도의 보상함수를 지정하지 않고 사람의 선호도를 보상으로 사용하여 강화학습 정책을 학습하는 방법론이다. 이는 보상함수 설계하는 것이 매우 복잡하고 까다로운 측면이 있는데 이런 어려움을 해소하고자 고안된 방법론으로 볼 수 있다. 기본적으로 PbRL은 이진 분류의 선호를 기반으로 학습한다. 우선 에이전트가 수행한 두 가지의 상호작용 데이터를 사람이 확인하고 어떤 상호작용이 더 나았는지 (혹은 둘 다 동일한지) 선택을 한다. 이렇게 선호한 정보를 기반으로 보상을 설정하여 정책을 학습한다. 한편 reward estimator는 두 선택지에 대한 로짓값을 계산하고 사람이 레이블을 부여하며 이에 따른 손실함수로 업데이트하게 된다.
최근 LLM에서 RLHF가 해당 분야의 하위 카테고리로 볼 수 있고 굉장히 활발하게 연구되고 있다. 우선 2017년도에는 PrefPPO/PrefA3C 연구가 진행되었다. 이는 앞서 설명한 PbRL 프레임워크를 PPO와 A3C에 적용한 것이다. 비교할 transition 쌍을 샘플링할 때 reward estimator 앙상블 내에서 예측 확률 분산이 큰 쌍을 선택하여 사람이 선호도를 선택하는 과정을 수행한다. 2021년도에는 PEBBLE 방법론이 소개되었다. 앞선 연구의 데이터 효율성을 개선하기 위하여 다양한 transition을 확보하고자 하였다. 따라서 에이전트를 사전학습하여 에이전트의 탐험 성능을 높였으며 이를 통해 다양한 데이터를 수집하고 PbRL 프로세스를 수행하였다. 한편 효과적인 정책 학습을 위해서 reward estimator가 더 정교하게 학습됨과 동시에 replay buffer에 수집된 데이터의 보상 값들도 함께 업데이트를 수행한다.
PEBBLE을 기반으로 이를 다양한 방식으로 개선한 연구들이 수행되었다. 2022년에 나온 SURF는 준지도학습을 응용하였다. Fixmatch를 함께 사용하여 선호도에 대해 label이 된 데이터는 기존 방식 그대로 binary cross entropy를 구하고 unlabeled 데이터는 pseudo-label 방식으로 학습을 수행하였다. RUNE 역시 2022년에 나왔으며 탐험 방법론인 Self-supervised exploration via disagreement을 활용하였다. 다수의 reward estimator를 만든 다음 예측한 보상 값의 분산(=불확실성)을 계산한 다음 이를 intrinsic reward로 설정하여 에이전트가 익숙하지 않은 곳을 탐험하도록 장려하였다.
최근에 활발하게 연구되고 있는 분야였기에 매우 궁금했는데 종국이가 친절하고 쉽게 설명해준 덕분에 많은 지식을 얻어갈 수 있었다. 앞으로 나올 PbRL 두 번째 버전 많은 기대를 하고 있다. 발표를 정성껏 준비해준 종국이에게 감사한 마음을 전한다.