Reinforcement Learning based Alignment Tuning in Large Language Models
- 2026년 1월 9일 오후 5:51
- 조회수: 143
INFORMATION
- 2026년 1월 9일
- 오전 10시 ~
온라인 비디오 시청 (YouTube)
발표자:
이준범
이준범
TOPIC
Reinforcement Learning based Alignment Tuning in Large Language Models
On-Line Video
OVERVIEW
요약:
대규모 언어 모델(LLM)은 단순히 다음 단어를 예측하는 사전 학습(Pre-training) 방식만으로는 사용자의 의도를 정확히 파악하지 못하거나, 유해하고 무익한 답변을 생성하는 한계를 보인다. 이러한 문제를 해결하기 위해 모델의 출력을 인간의 의도, 가치관, 그리고 안전 가이드라인에 부합하도록 조정하는 정렬(Alignment) 과정이 필수적이다.
본 세미나에서는 기존의 사전 학습 모델이 가진 한계를 극복하고, 강화 학습을 통해 인간의 의도에 맞춰 정렬시키는 Alignment Tuning 방법론을 소개하고자 한다.
참고자료:
[1] Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., ... & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in neural information processing systems, 35, 27730-27744.
[2] Yuan, Z., Yuan, H., Tan, C., Wang, W., Huang, S., & Huang, F. (2023). Rrhf: Rank responses to align language models with human feedback without tears. arXiv preprint arXiv:2304.05302.
[3] Shao, Z., Wang, P., Zhu, Q., Xu, R., Song, J., Bi, X., ... & Guo, D. (2024). Deepseekmath: Pushing the limits of mathematical reasoning in open language models. arXiv preprint arXiv:2402.03300.
청취자 후기
허종국
금일 세미나는 강화학습을 이용한 LLM fine-tuning 방법론에 대해 알아보았다. InstructGPT 부분은 너무 유명한 내용이었고, 이번 세미나에서는 RRHF와 GRPO에 대해서 새롭게 알아보게 되었다.
RRHF는 기존 RLHF에서 별도의 보상 모델 학습 및 가치 함수 기반 보상 스케일링 등의 번거러움을 덜어주는 방법론으로써, 개별 response에 대한 보상을 직접 예측한다기 보다, 선호도 레이블의 순서를 기반으로 로그 우도 자체에 대한 margin loss를 사용하는 방법론이다. 즉, A가 B보다 선호 된다면, A의 생성 확률이 B의 생성 확률보다 낮아지지 않도록 학습한다.
GRPO는 가치 함수, 보상 함수, 정책 함수, reference model를 함께 학습하는 PPO 방식의 InstructGPT와 달리, 가치 함수 및 reference model을 제거하고 오로지 다중 출력(group)에 대한 보상 스케일링만을 활용하여 정책 함수를 추가 학습한다.
짧은 시간 안에 여러 가지 최근 테크닉을 준비한 이준범 연구원에게 감사의 말을 전한다.