2025년 9월 27일 토요일, 서울 코엑스에서 개최된 Conference on Robot Learning (CoRL) Workshop에 참석하였다. 개인 연구로 out-of-distribution generalization 중심으로 연구를 진행하고 있어, 로봇 학습 분야에서 분포 변화와 일반화 문제를 어떻게 다루는지 궁금했던 차에 정말 좋은 학회 참가 기회가 되었다. CoRL학회는 Meta, NIVIA 등 유명 기업들 및 여러 유명 해외 대학 연구자들이 대거 참여하여 활발한 교류가 이루어졌다. 학회장을 둘러보며 흥미로웠던 점은 모든 연구가 실제 로봇 하드웨어를 활용한 실증 연구였다는 것이다. 시뮬레이션이 아닌 실물 로봇팔 매니퓰레이터, 드론 등을 통해서 데이터를 수집하고 학습을 진행하는 모습을 보며, 로봇 분야에서는 실제 환경에서의 검증이 필수적임을 느꼈다. 이는 개인 연구 관점에서도 흥미로운 지점이었는데, sim-to-real gap 자체가 하나의 거대한 distribution shift 문제이기 때문이다. 또 다른 흥미로운 점은 많은 연구들이 Vision-Language-Action (VLA)를 광범위하게 활용한다는 점이었다. 시각 정보와 프롬프트를 통합하여 로봇 행동을 생성하는 접근법은, zero-shot이나 few-shot 상황에서도 새로운 환경과 작업에 적응하는 모습을 보여주었다. 대규모 사전학습을 통해서 distribution shift 상황에서도 더 강건한 성능을 유지하려는 시도들도 인상적이었다. 하루 동안의 짧은 Workshop이었지만, 로봇 학습 분야에서 연구들이 어떻게 진행되고 있는지 파악해볼 수 있었고 좋은 경험을 쌓을 수 있었던 유익한 시간이었다.


[Planning in 16 Tokens: A Compact Discrete Tokenizer for Latent World Model]

이 연구는 고해상도 이미지를 16개 이산 토큰으로 압축하는 CompACT tokenizer를 제안했다. 핵심은 planning doesn't need photorealistic generation이라는 점이다. 즉, 로봇 행동 계획 수립에서는 픽셀 단위의 정확한 재현보다는 저주파 의미 정보와 공간적 배치가 더 중요하다는 것이다. 기존 VQ-GAN 방식이 196개 토큰을 사용하는 것과 비교하였을 때 CompACT는 더욱 압축된 표현을 사용하면서도, goal-conditioned visual navigation을 효과적으로 수행했다. 해당 연구는 실증적인 로봇 실험 내용이 없는 몇 안되는 연구이지만, planning latency를 20배 가량 가속화했다는 점에서 실용적인 측면이 부각되어 workshop paper로 선정된 것 같다고 생각했다.


[Hybrid Thinking in Vision-Language-Action Models]

VLA 모델을 로봇 의사결정 과정에 접목한 이 연구는 fast-mode와 slow-mode로 의사결정을 구분 지은 점이 특징적이었다. 이미지로 표현된 현재 상태와 자연어 프롬프트, 그리고 modality token을 입력으로 받아 act, think, follow 중 하나를 선택하는 구조였다. 단순히 학습 데이터와 유사한 in-distribution 환경뿐 아니라, 새로운 물체나 배치 등이 포함된 out-of-distribution 상황에서도 테스트를 진행했다. 'Thinking'이라는 중간 추론 과정을 명시적으로 모델링함으로써, OOD 상황에서도 강건한 일반화 성능을 보였다는 것이 인상적이었다.