- 2025년 12월 5일 오후 3:54
- 조회수: 316
INFORMATION
- 2025년 12월 5일
- 오후 12시 ~
- 고려대학교 신공학관 218호
온라인 비디오 시청 (YouTube)
정재우
TOPIC
On-Line Video
OVERVIEW
월드 모델(World Model)은 기존 강화학습의 샘플 비효율성을 개선하고, 더욱 지능적인 에이전트 학습을 가능하게 하는 모델 기반 강화학습 (Model-Based Reinforcement Learning, MBRL)의 핵심 분야이다. 위 방법론은 에이전트가 환경과 상호작용하며 수집한 경험 데이터를 바탕으로, 환경의 역학 (dynamics)을 학습하여 환경을 시뮬레이션할 수 있는 내부 모델을 구축하는 것을 학습 목표로 설정한다.
이러한 환경 모델링을 통해 강화학습의 에이전트는 실제 환경과의 상호작용 없이 가상의 경험을 무한히 생성하고, 이 가상 경험을 통해 행동 정책을 학습하거나 계획 (planning)을 수행할 수 있으며, 이는 실제 환경 데이터를 활용한 학습량을 획기적으로 줄여 샘플 효율성을 극대화한다.
이번 세미나에서는 월드 모델의 기본 개념, 모델 학습 방법론, 그리고 발전된 연구들을 소개하고자 한다.
청취자 후기
허종국
연구실에 다양한 강화학습 세미나가 올라왔지만 모델 기반 강화학습 (Model-based Reinforcement Learning, MBRL) 세미나는 최초인 것 같다. 모델 기반 강화학습 내용이 어려울 뿐만 아니라, (개인적으로는) 다른 강화학습 논문들과 사용하는 notation이나 서술 방식이 달라서 그렇기 때문이라고 생각한다. 이번 세미나에서는 연구실 신입생인 정재우 연구원이 MBRL의 대표적인 논문 중 2가지, World Model과 Dreamer-v1을 쉽게 설명해주었으며, 이를 통해 모델 기반 강화학습에도 많은 사람들이 관심을 가질 것이라고 생각한다.
모델 기반 강화학습은 크게 2가지가 있는 것으로 아는데, 하나는 진짜 MDP의 모든 인과가 주어졌을 때 이를 활용하는, 즉 Given Model 상황이고, 두번째는 MDP를 모사하는 방식인 Learn Model 상황이다. 전자의 경우는 보통 학습이라는 개념보다는 최적의 플랜을 짜는 Planning이나 Control을 위주로 진행된다. 후자의 경우는 강화학습 시뮬레이터나 실제 환경에서 데이터를 수집하는 것에 대한 비용이 너무 클 때, 이를 모사하는 Dynamics Model을 만들어서 가상의 데이터를 수집한 후, 강화학습 에이전트를 학습하는 방식이다. 금일 세미나에서는 후자에 관련된 연구 두 개를 소개하였다.
World Model은 이러한 방식을 최초로 제안한 방법론으로써 시각(V), 기억(M), 행동(C) 모델 3가지로 이루어져있다. V 모델의 경우 VAE 구조로 학습이 진행되며, M 모델의 경우 시계열적 정보 특성 반영을 위해 LSTM을 사용+ mixture density를 사용하여 stochastic한 다음 상태를 예측하는데 쓰인다. Racing Car 환경이나 VizDoom 같이 지금으로써 보면 굉장히 간단한 환경에서 평가되었지만, dream 이라는 rollout을 통해 실제 환경 상호 작용하는 것과 거의 유사한 가상의 데이터가 생성되는 것을 보고 신기해하였던 기억이 난다.
Dreamer의 경우 가장 대중적으로 잘 알려진 모델 기반 강화학습 연구이다. 금일 세미나에서는 초창기 버전인 Dreamer-v1만 소개되었으며, Dreamer-v1은 DMControl 같은 연속 행동 공간을 가진 환경에 적합하다. 이후 Atari 같이 이산 행동 공간을 가진 환경에 적합하도록 변형 및 개선된 Dreamer-v2가 나왔다. 2023~4년에는 arXiv에 마인 크래프트를 포함한 다양한 환경에서 적용이 가능한 Dreamer-v3가 나온걸 얼핏 본적이 있는데, 이 세미나를 시청하다가 기억이 나서 다시 찾아보니 2025년에 Nature에 게재된 걸 확인했다. Dreamer의 경우 RSSM 기반 World Model을 구축하였으며, 이는 확률의 deterministic한 정보와 stochastic한 정보를 모두 반영하는 모델이다. World Model을 통해서 단기 보상을 예측할 뿐만 아니라, 행동 선택 및 long horizon에 대한 평가를 위해 n-step + lambda 기반 TD target을 사용하였다. 실제로 Dreamer에서 사용한 World Model은 초기 5시점만 주어지더라도, 약 50시점까지의 미래를 실제 결과와 거의 비슷하게 예측할 수 있었다. 그리고 Value Model 유무에 따른 결과가 흥미로웠는데, Value Model이 Imagination 과정에서 직접 얻을 수 없는 보상까지 고려하여 정책에 반영하기 때문에 Imagination Horizon 변화에도 강건한 성능을 보였다. 좋은 세미나를 만드느라 고생한 정재우 연구원에게 감사의 말을 전한다.