Reinforcement Learning based Alignment Tuning in Large Language Models
- 2026년 1월 9일 오후 5:51
- 조회수: 59
INFORMATION
- 2026년 1월 9일
- 오전 10시 ~
온라인 비디오 시청 (YouTube)
발표자:
이준범
이준범
TOPIC
Reinforcement Learning based Alignment Tuning in Large Language Models
On-Line Video
OVERVIEW
요약:
대규모 언어 모델(LLM)은 단순히 다음 단어를 예측하는 사전 학습(Pre-training) 방식만으로는 사용자의 의도를 정확히 파악하지 못하거나, 유해하고 무익한 답변을 생성하는 한계를 보인다. 이러한 문제를 해결하기 위해 모델의 출력을 인간의 의도, 가치관, 그리고 안전 가이드라인에 부합하도록 조정하는 정렬(Alignment) 과정이 필수적이다.
본 세미나에서는 기존의 사전 학습 모델이 가진 한계를 극복하고, 강화 학습을 통해 인간의 의도에 맞춰 정렬시키는 Alignment Tuning 방법론을 소개하고자 한다.
참고자료:
[1] Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., ... & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in neural information processing systems, 35, 27730-27744.
[2] Yuan, Z., Yuan, H., Tan, C., Wang, W., Huang, S., & Huang, F. (2023). Rrhf: Rank responses to align language models with human feedback without tears. arXiv preprint arXiv:2304.05302.
[3] Shao, Z., Wang, P., Zhu, Q., Xu, R., Song, J., Bi, X., ... & Guo, D. (2024). Deepseekmath: Pushing the limits of mathematical reasoning in open language models. arXiv preprint arXiv:2402.03300.