- 2025년 12월 5일 오후 3:54
- 조회수: 1669
INFORMATION
- 2025년 12월 5일
- 오후 12시 ~
- 고려대학교 신공학관 218호
온라인 비디오 시청 (YouTube)
정재우
TOPIC
On-Line Video
OVERVIEW
월드 모델(World Model)은 기존 강화학습의 샘플 비효율성을 개선하고, 더욱 지능적인 에이전트 학습을 가능하게 하는 모델 기반 강화학습 (Model-Based Reinforcement Learning, MBRL)의 핵심 분야이다. 위 방법론은 에이전트가 환경과 상호작용하며 수집한 경험 데이터를 바탕으로, 환경의 역학 (dynamics)을 학습하여 환경을 시뮬레이션할 수 있는 내부 모델을 구축하는 것을 학습 목표로 설정한다.
이러한 환경 모델링을 통해 강화학습의 에이전트는 실제 환경과의 상호작용 없이 가상의 경험을 무한히 생성하고, 이 가상 경험을 통해 행동 정책을 학습하거나 계획 (planning)을 수행할 수 있으며, 이는 실제 환경 데이터를 활용한 학습량을 획기적으로 줄여 샘플 효율성을 극대화한다.
이번 세미나에서는 월드 모델의 기본 개념, 모델 학습 방법론, 그리고 발전된 연구들을 소개하고자 한다.
청취자 후기
허종국
연구실에 다양한 강화학습 세미나가 올라왔지만 모델 기반 강화학습 (Model-based Reinforcement Learning, MBRL) 세미나는 최초인 것 같다. 모델 기반 강화학습 내용이 어려울 뿐만 아니라, (개인적으로는) 다른 강화학습 논문들과 사용하는 notation이나 서술 방식이 달라서 그렇기 때문이라고 생각한다. 이번 세미나에서는 연구실 신입생인 정재우 연구원이 MBRL의 대표적인 논문 중 2가지, World Model과 Dreamer-v1을 쉽게 설명해주었으며, 이를 통해 모델 기반 강화학습에도 많은 사람들이 관심을 가질 것이라고 생각한다.
모델 기반 강화학습은 크게 2가지가 있는 것으로 아는데, 하나는 진짜 MDP의 모든 인과가 주어졌을 때 이를 활용하는, 즉 Given Model 상황이고, 두번째는 MDP를 모사하는 방식인 Learn Model 상황이다. 전자의 경우는 보통 학습이라는 개념보다는 최적의 플랜을 짜는 Planning이나 Control을 위주로 진행된다. 후자의 경우는 강화학습 시뮬레이터나 실제 환경에서 데이터를 수집하는 것에 대한 비용이 너무 클 때, 이를 모사하는 Dynamics Model을 만들어서 가상의 데이터를 수집한 후, 강화학습 에이전트를 학습하는 방식이다. 금일 세미나에서는 후자에 관련된 연구 두 개를 소개하였다.
World Model은 이러한 방식을 최초로 제안한 방법론으로써 시각(V), 기억(M), 행동(C) 모델 3가지로 이루어져있다. V 모델의 경우 VAE 구조로 학습이 진행되며, M 모델의 경우 시계열적 정보 특성 반영을 위해 LSTM을 사용+ mixture density를 사용하여 stochastic한 다음 상태를 예측하는데 쓰인다. Racing Car 환경이나 VizDoom 같이 지금으로써 보면 굉장히 간단한 환경에서 평가되었지만, dream 이라는 rollout을 통해 실제 환경 상호 작용하는 것과 거의 유사한 가상의 데이터가 생성되는 것을 보고 신기해하였던 기억이 난다.
Dreamer의 경우 가장 대중적으로 잘 알려진 모델 기반 강화학습 연구이다. 금일 세미나에서는 초창기 버전인 Dreamer-v1만 소개되었으며, Dreamer-v1은 DMControl 같은 연속 행동 공간을 가진 환경에 적합하다. 이후 Atari 같이 이산 행동 공간을 가진 환경에 적합하도록 변형 및 개선된 Dreamer-v2가 나왔다. 2023~4년에는 arXiv에 마인 크래프트를 포함한 다양한 환경에서 적용이 가능한 Dreamer-v3가 나온걸 얼핏 본적이 있는데, 이 세미나를 시청하다가 기억이 나서 다시 찾아보니 2025년에 Nature에 게재된 걸 확인했다. Dreamer의 경우 RSSM 기반 World Model을 구축하였으며, 이는 확률의 deterministic한 정보와 stochastic한 정보를 모두 반영하는 모델이다. World Model을 통해서 단기 보상을 예측할 뿐만 아니라, 행동 선택 및 long horizon에 대한 평가를 위해 n-step + lambda 기반 TD target을 사용하였다. 실제로 Dreamer에서 사용한 World Model은 초기 5시점만 주어지더라도, 약 50시점까지의 미래를 실제 결과와 거의 비슷하게 예측할 수 있었다. 그리고 Value Model 유무에 따른 결과가 흥미로웠는데, Value Model이 Imagination 과정에서 직접 얻을 수 없는 보상까지 고려하여 정책에 반영하기 때문에 Imagination Horizon 변화에도 강건한 성능을 보였다. 좋은 세미나를 만드느라 고생한 정재우 연구원에게 감사의 말을 전한다.
김현이
강화학습을 공부해본 적은 없어서 처음에는 내용이 어렵게 느껴질까 걱정했는데, 전반적인 흐름을 쉽게 설명해주셔서 흥미롭게 들을 수 있었다. 특히 기존의 model-free 방식이 환경과 직접 상호작용하면서 학습해야 해서 비효율적일 수 있다는 점, 그리고 이를 해결하기 위해 환경 자체를 모델링해서 사용하는 model-based 강화학습이 등장했다는 흐름이 잘 이해되었다. 단순히 데이터를 많이 써서 학습하는 것이 아니라, 환경을 이해하고 그 안에서 시뮬레이션을 돌리며 학습한다는 개념이 새롭게 느껴졌다. World Model에서 V, M, C로 나누어 인간의 인지 과정을 모방한다는 설명도 직관적으로 이해가 되었고, 특히 “dream” 개념이 흥미로웠다. 실제 환경이 아니라 모델이 예측한 가상의 환경 안에서 정책을 학습한다는 점이 처음에는 신기하게 느껴졌고, 이런 방식으로도 실제 환경에서 잘 동작할 수 있다는 점이 인상적이었다. 물론 모델이 실제 환경을 완전히 반영하지 못하면 잘못된 방향으로 학습될 수 있다는 한계도 함께 설명해주셔서, 왜 이후 연구들이 계속 발전해왔는지도 자연스럽게 이해할 수 있었다. Dreamer와 같은 방법이 이런 문제를 어떻게 개선하려는지도 간단히 알 수 있어 좋았다.
전체적으로 강화학습에 익숙하지 않은 입장에서도 큰 흐름을 이해할 수 있도록 설명해주셔서 도움이 많이 되었고, 어렵게 느껴졌던 개념들을 한 번 정리해볼 수 있는 계기가 되었다. 좋은 세미나를 준비해주신 정재우 연구원님께 감사드린다.
장성인
이번 세미나에서는 모델 기반 강화학습에 대해서 알아볼 수 있었다. 처음 강화학습을 배웠을 때 모델 기반 강화학습이 있다는 것은 알고 있었지만 어떻게 구현되어 있는지를 몰랐었는데 이번 기회를 통해 알아볼 수 있었으며 대표적인 논문인 World Model과 Dreamer-v1에 대해서 설명해주었다.
모델 기반 강화학습은 model-free 방식에서의 직접 상호작용한다는 것에서 비효율적이기에 이를 해결하기 위한 방안으로 볼 수 있다. 실제 환경과 비슷한 Model을 만들어서 모델과 상호작용 하면서 시뮬레이션을 진행해 실제 환경과의 상호작용을 줄여 효율적으로 학습할 수 있는 장점이 있다.
World Model은 VMC(시각,기억,행동) 3가지 모델로 나누어져 있다. V 모델은 VAE 구조를 채택하여 시각적 정보를 핵심적인 정보 위주로 단순화할 수 있도록 중요한 특징을 가져온다. M 모델은 시계열적 흐름을 파악하여 과거의 상태와 행동을 기억하고 다음에 올 상태를 예측한다. 그리고 C 모델은 앞의 V,M 두 모델에서 받은 정보를 바탕으로 실제 어떤 행동을 취할지 결정한다. 이 과정에서 하나의 신기한 부분으로 M 모델 과정에서 Dream과 연결하여 에이전트가 실제 물리적 환경과 상호작용하지 않고 가상의 환경에서 학습을 진행할 수 있다는 사실이 흥미로웠다.
Dreamer-v1은 장기적인 행동을 학습할 수 있도록 한다. 특히 RSSM은 world model에서 언급된 V,M 모델의 연장선이며 장기적인 행동을 할 수 있는 핵심으로 보인다. 특히 Deterministic한 상태와 Stochastic의 상태를 이용해서 과거 기억을 바탕으로 미래에 일어날 수 있는 다양한 상황을 상상할 수 있도록 도와준다.
이번에는 정재우 연구원의 모델 기반 강화학습과 이에 대한 2가지 논문인 World Model과 Dreamer-v1에 대해서 알아볼 수 있었고, 쉽고 자세하게 설명해준 정재우 연구원님께 감사의 말을 전한다.