- 2025년 9월 30일 오후 1:30
- 조회수: 45

2025년 9월 27일 토요일, 서울 코엑스에서 열린 Conference on Robot Learning (CoRL) Workshop에 참석하였다. 강화학습을 기반으로 하는 ETRI 국가 과제를 함께하는 연구실 동료들과, 추가로 지형이와 함께 참석하게 되었다. Robot learning 자체에는 잘 아는 것이 없어 걱정도 했지만, 생각보다 흥미로운 주제들이 굉장히 많았던 것 같다. Workshop인데도 말이다. 뿐만 아니라 학회장을 돌아다니면서, Meta, NVIDIA 등의 유명한 기업들과 여러 해외 대학의 사람들을 보면서 신기한 감정도 들었다. 가장 크게 느껴진 것은 두 가지 였는데, 첫 번째는 이 쪽 분야는 무조건 실물 로봇을 사용하여 데이터를 수집하는 것을 기반으로 해야 성과적으로 입증될 수 있다는 것이였다. 내가 본 모든 구두 발표, 포스터 발표는 모두 실물 드론, 물체를 집을 수 있는 로봇 등 실물 로봇을 통해 데이터를 수집하고 연구를 진행하였다. 두 번째로는, Vision-Language Model (VLM)이 이쪽 분야에서도 상당히 활발하게 사용되고 있다는 점이였다. Vision-Language Action (VLA) 모듈을 통해 로봇이 다음에 어떤 행동을 할지 예측하는 방식으로 학습이 이루어지게 되며, 학습 뿐 아니라 zero-shot, few-shot 상황에서도 비슷한 로직으로 로봇이 움직이게 된다. 하루 workshop 이였지만 robot learning 분야의 추세를 알 수 있었고 대가들의 패널 세션 또한 경청하며 좋은 경험을 쌓을 수 있었다.
[Hybrid Thinking in Vision-Language-Action Models ]
앞서 언급했듯이, VLA 모델들이 robot learning 분야에서 활발하게 사용되고 있다. 이 방법론은 우선 상태를 나타내는 이미지와 "What should the robot do to put the red triangle on the mug?" 라는 텍스트 프롬프트, 그리고 modality token 이 입력으로 들어가게 된다. 이러한 세 가지 입력 상태들을 통해 act, think, follow에 대한 확률 분포를 도출하게 되고 결과적으로 robot이 어떤 행동을 할지를 예측하는 것으로 이해하였다. 방법론 자체에 "hybrid" 라는 말이 붙은 이유는 thinking의 slow-mode와 non-thinking의 fast-mode로 구분되는 구조를 가지고 있기 때문이다. 해당 연구의 실험은 입력 텍스트 프롬프트를 보면 알겠지만 물체를 집을 수 있는 로봇으로 수집한 데이터로 진행되었고, in-distribution tasks 뿐만 아니라 out-of-distribution tasks들에 대해서도 실험을 진행하며 로봇이 지시를 성공적으로 수행한 횟수의 비율을 통해 성능의 우수함을 입증하였다.
올해 여름에 일본에서 참석하였던 IEA/AIE 학회와는 또 사뭇 다른 분위기였던 것 같고 robot learning이 내 메인 연구 분야는 아니지만 상당히 좋은 경험을 할 수 있었던 것 같다. 좋은 학회에 참석할 수 있도록 기회를 주신 교수님과, 같이 참석한 동료 연구원들께 감사의 인사를 전하며 학회 세미나 후기를 마친다.