- 2026년 1월 9일 오후 5:51
- 조회수: 380
INFORMATION
- 2026년 1월 9일
- 오전 10시 ~
온라인 비디오 시청 (YouTube)
이준범
TOPIC
On-Line Video
OVERVIEW
청취자 후기
허종국
금일 세미나는 강화학습을 이용한 LLM fine-tuning 방법론에 대해 알아보았다. InstructGPT 부분은 너무 유명한 내용이었고, 이번 세미나에서는 RRHF와 GRPO에 대해서 새롭게 알아보게 되었다.
RRHF는 기존 RLHF에서 별도의 보상 모델 학습 및 가치 함수 기반 보상 스케일링 등의 번거러움을 덜어주는 방법론으로써, 개별 response에 대한 보상을 직접 예측한다기 보다, 선호도 레이블의 순서를 기반으로 로그 우도 자체에 대한 margin loss를 사용하는 방법론이다. 즉, A가 B보다 선호 된다면, A의 생성 확률이 B의 생성 확률보다 낮아지지 않도록 학습한다.
GRPO는 가치 함수, 보상 함수, 정책 함수, reference model를 함께 학습하는 PPO 방식의 InstructGPT와 달리, 가치 함수 및 reference model을 제거하고 오로지 다중 출력(group)에 대한 보상 스케일링만을 활용하여 정책 함수를 추가 학습한다.
짧은 시간 안에 여러 가지 최근 테크닉을 준비한 이준범 연구원에게 감사의 말을 전한다.
장성인
이번 세미나는 LLM을 강화학습을 통해 기존 모델이 가진 한계를 극복할 수 있는 Alignment Tuning에 대해 알아보았다. InstructGPT, RRHF, GRPO 3가지 방법론에 대해 알아보게 되었다.
InstructGPT는 인간의 의도와 선호에 맞게 답변하도록 최적화하는 방법론으로 총 3가지 스텝으로 이루어져 학습이 진행된다. 사람이 직접 모범 답안은 주면서 미리 만들어진 LLM을 fine-tuning하는 Supervised fine-tuning, 사람이 LLM이 생성한 답변의 순위를 매기는 reward modeling 그리고 점수를 잘 받기 위해 스스로 학습하며 성능을 올리는 PPO를 이용하여 학습한다.
RRHF는 기존 모델에서 보상 설계, 다수의 모델 사용, 하이퍼 파라미터 튜닝과 같은 불편함을 해결한 방법론으로, 각각의 답변에 대한 보상을 예측하지 않고 비교를 통해 우위를 정한 뒤 이를 기반으로 학습을 진행하는 방법론이다. 여러 모델에서의 답변을 가지고 온 뒤 모델 점수를 매긴 뒤 순위를 정하고, 정한 순위에서 Log-likelihood를 통해 순위가 높은 답변을 선택할 확률을 높이도록 학습한다.
GRPO는 intructGPT에서의 정책 모델, 가치 모델, 보상 모델, 참조 모델을 동시에 최소 4개의 모델을 학습해야했던 문제를 해결하기 위해 가치 모델을 없애고 대신 보상이 상대적으로 좋은지 나쁜지를 비교하여 상대적으로 좋은 답변이 잘 나오도록 학습한다. 이 때 보상의 상대적 비교는 여러 답변들의 보상의 평균과 표준편차를 통해 Advantage를 계산하게 되며 이를 이용하여 정책 함수를 학습하게 된다.
InstructGPT부터 RRHF,GRPO에 대해서 새로운 방법론과 분야에 대해서 학습하였으며 도식화하여 이해하기 쉽게 설명해준 이준범 선배님께 감사의 말씀을 전하며 본 세미나 후기를 마친다.
장성호
금일 세미나는 강화학습 기반 LLM Alignment Tuning 방법론에 대해 소개되었다.
기존에 잘 알려진 InstructGPT 뿐만 아니라 RRHF와 GRPO 방법론까지 정리가 잘 되어있었다.
InstructGPT는 SFT, Reward Modeling, Reinforcement Learning의 3단계 과정을 통해 인간의 선호도를 반영하도록 학습시키는 방법론이다. SFT를 통해서 사람이 만든 질문과 모범 답안을 학습하고, 답변에 대한 순위를 기반으로 Reward Model을 학습한다. 이후 PPO 방법을 통해 스스로 답변을 생성하고 수정하는 과정으로 이루어져 있다. 손실함수에서 Reward Term, KL Term, Pretraining Term의 결합으로 학습을 진행하여 과최적화와 Catastrophic Forgetting 문제를 해결한 것이 인상적이었다.
RRHF는 기존 PPO 기반 RLHF의 복잡한 학습 구조를 단순화한 방법론으로, 별도의 value model 없이 응답 간의 상대적 순위를 기반으로 학습을 수행한다. 각 응답의 절대적인 보상을 예측하기보다는, 선호되는 응답의 log-likelihood가 더 높아지도록 ranking loss를 적용한다는 점이 기존 RLHF와의 주요 차이로 느껴졌다.
최근 많이 사용되는 GRPO는 동일 질문에 대해 생성된 여러 응답의 상대적 보상을 활용하여 advantage를 계산하는 방법론이다. Value Model을 제거하고 그룹 내 상대 평가를 통해서 학습 효율성을 극대화한 것이 인상 깊었다.
RLHF 계열 방법론의 흐름과 차이점을 이해하기 쉽게 정리해주신 이준범 연구원에게 감사의 말을 남기며 세미나 후기를 마친다.