2025 Conference on Robot Learning(CoRL)에서 발표된 연구들은 로봇 학습 분야의 패러다임이 중대한 전환점에 있음을 명확히 보여주었다. 특히 시뮬레이션의 한계를 극복하려는 시도, 최신 생성 모델의 적극적인 도입, 그리고 언어 및 다중 감각 정보를 활용한 상호작용 지능의 고도화가 핵심적인 연구 동향인 것을 파악할 수 있었다. 또한 다음과 같은 발표 세션의 주제들이 인상적이었다.


[Sim-to-Real을 넘어선 데이터 생성 패러다임의 확장]

전통적인 Sim-to-Real 접근법은 물리 엔진의 부정확성이라는 한계를 지녔다. 이번 학회에서는 이를 우회하거나 보완하는 창의적인 연구들이 다수 발표되었다. 대표적으로 "Real2Render2Real: Scaling Robot Data Without Dynamics Simulation or Robot Hardware" 연구는 물리 시뮬레이션이나 실제 로봇 하드웨어 없이 렌더링 기술만으로 로봇 데이터를 확장하는 혁신적인 파이프라인을 제시했다. 또한 "The Sound of Simulation" 은 생성형 오디오를 활용해 다중 모달(multimodal) 정책을 학습하는 독창적인 접근을, "X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real" 은 서로 다른 로봇 형태 간의 학습 전이를 시도하며 데이터 생성의 범위를 확장시켰다. 이는 현실 세계의 복잡성을 극복하기 위해 데이터 자체의 생성 방식에 대한 근본적인 고민이 시작되었음을 시사한다.


[디퓨전 모델(Diffusion Models)의 정책 학습 주류화]

이미지 생성을 넘어, 디퓨전 모델과 플로우 매칭(Flow-matching)은 이제 로봇의 연속적인 행동 정책을 표현하는 강력한 도구로 자리 잡았다. "Steering Your Diffusion Policy with Latent Space Reinforcement Learning" 연구는 디퓨전 정책을 잠재 공간 상에서 강화학습으로 미세 조정하는 방법을 제안했으며, "Streaming Flow Policy" 는 행동 궤적을 유선(flow)으로 취급하여 디퓨전 정책을 더욱 단순화하는 방안을 탐구했다. 이는 고차원의 복잡한 행동을 생성하고 제어하는 데 있어 생성 모델이 표준적인 방법론으로 부상하고 있음을 보여준다.


[언어와 다중 감각(Multimodality) 기반의 상호작용 지능]

언어-비전 모델(VLM)의 활용은 단순한 명령 인식을 넘어, 보상 설계와 같은 학습 과정의 핵심으로 깊숙이 통합되었다. "ReWiND: Language-Guided Rewards Teach Robot Policies without New Demonstrations" 는 새로운 시연 데이터 없이 오직 언어적 가이드만으로 보상 함수를 생성하여 정책을 학습시키는 방법을 제시하며 데이터 수집 비용의 절감 가능성을 열었다. 또한, 복잡한 실제 환경에서의 조작 능력은 시각 정보만으로는 부족하다. "SAVOR: Skill Affordance Learning from Visuo-Haptic Perception" 와 "Reactive In-Air Clothing Manipulation with ... Visuotactile Affordance" 등의 연구는 시각과 촉각(haptic/tactile) 정보를 결합하여 물체의 affordance를 학습하고, 이를 통해 정교한 상호작용을 구현하는 성과를 보였다.


CoRL 2025 참가는 로봇이 더 이상 사전 정의된 환경과 작업에 머무르지 않고, 비정형 데이터와 다중 모달리티를 기반으로 스스로 학습하며 현실 세계의 복잡성에 적응해나가는 '학습 에이전트'로 진화하고 있음을 파악할 수 있었던 경험이었다.

특히 물리 시뮬레이션과 수동 시연이라는 기존의 데이터 병목 현상을 극복하기 위한 창의적인 접근법들은 향후 로봇 학습 연구의 중요한 방향이 될 것이라 예상한다.