- 2026년 4월 29일 오후 12:42
- 조회수: 51
허종국
2026년 4월23일부터 열린 ICLR 학회에 참석하고자 브라질 리우 데 자네이루에 방문하였다. 연구실 생활하면서 "AI 연구자로써 한번 쯤 나도 저런 학회가서 발표하고 청취하고 싶다"라고 계속 꿈꿔왔는데, 이번에 poster session을 통해 여러 연구자들과 커뮤니케이션하면서 연구 아이디어도 교류하는 기회를 가질 수 있어서 너무 좋았다. 학회에는 oral presentation 및 poster presentation 합쳐 약 5300편의 논문이 발표되었으며, 다양한 논문들에 대한 청취를 한 후 전반적인 후기를 남긴다.
[학회 후기]
1. Physical AI 관련 연구 증가
최근 5년 내에 Google의 RT series부터 시작하여, Physical Intelligence 의 Pi-series 등 vision-language-action model (VLA) 연구가 대두되고 있다. 내가 강화학습 및 로봇에 관심을 가지고 연구하고 있어서 이 분야 연구 수요가 증가한다는 것을 어느 정도 느끼고는 있었으나, 이번 ICLR에서 그 수요를 가히 피부로 느낄 수 있었다. 지금으로부터 약 5년전 Google이 RT1과 RT2를 처음 소개하였을 때는 vision-language-model (VLM)에 action을 예측하는 모듈을 붙여 로봇에 실행하는 연구가 태동하였다. 이때까지만 하더라도, 구글이나 굉장히 큰 기업에서 시도해볼만한 프로토타입에 불과하였다. 그리고 약 2~3년전부터는 flow-matching이나 diffusion policy를 통해 long-term sequence를 예측하도록 모델 자체를 고도화하는 연구 + 관절의 개수가 다르거나 다른 모터를 가진 기계(embodiment)에도 범용적으로 적용할 수 있는 cross-embodiment 연구가 대두되었다. 그렇다면 현재 로봇 연구는 어디를 향해 달려가고 있을까? 내가 이번 학회를 통해 살펴본 바로는 크게 Physical AI 쪽 연구는 크게 3갈래가 보였다. 각 분야에 대한 간단한 소개 + 이에 대한 대표 연구를 참조하였다.
1-1. 장기 행동 수행을 위한 memory module [1, 2]: 기존 연구들은 VLA가 입력 이미지와 센서값을 입력받아 단기 행동을 출력하는 것이었다. 허나 이런 방법론들은 과거에 무슨 행동을 하였는지에 대한 정보를 잊어버리기 쉽기 때문에, 장기적인 플랜을 가진 태스크를 풀기가 어렵다. 즉 순차적인 행동 순서를 요구하는 태스크를 실행할 때 있어, 내가 앞서 어떠한 행동을 하였는지 기억하지 못하기 때문에 과거 순서를 반복적으로 행동한다던가, 또는 과거 sub-task를 실패(failure)하였을 때, 이를 복구하지 않고 다음 태스크로 넘어간다던가의 문제가 존재한다. 따라서 인지 모듈 및 행동 모듈 뿐만 아니라 과거 행동에 대한 기억을 retrieval 할 수 있는 memory module을 추가하여 장기 태스크를 극복하자는 연구가 등장하였다.
1-2. CoT 및 reasoning 기반 행동 수행 [3]: Chain-of-thought (CoT) 프롬프트는 LLM 및 VLA에서 태스크 성능을 비약적으로 올려주었다. VLA에서도 마찬가지로 CoT를 활용하여 로봇이 단순히 “인지-행동” 하지 않고, “인지-추론-행동”하도록하여 태스크 성능을 비약적으로 올리는 연구가 대두되었다. 또한 이러한 추론 테크닉은 달성하고자 하는 태스크를 잘게 쪼개어 sub-task에 대한 planning을 구성함으로써 1-1에 소개하였던 장기 태스크를 수행하는 또 다른 테크닉으로도 쓰일 수 있다. 다만 실제 환경과 상호 작용이 없어 추론과정 추가로 인한 속도 저하와 크게 상관없는 VLM과 달리 VLA는 실제 변화하는 환경에 대응해야하기 때문에 모든 step마다 reasoning을 하는 것이 어렵다. 이러한 문제를 타파하기 위해 think module과 action module을 별개로 두어서, reasoning은 일정 스텝마다 갱신하되, action은 reasoning된 결과를 함께 넣어 식의적절한 행동을 추론하는 방식으로 수행한다.
1-3. 데이터 효율성 증가를 위한 사전 학습 방법론 [4, 5, 6]: 대부분의 VLA는 사전학습을 하기 위해 로봇의 행동에 대한 비디오 뿐만 아니라 각 프레임 별 어떠한 행동을 했는지에 대한 action label또한 필요하다. 하지만 이러한 robot demonstration 데이터는 수집하기 어렵다. 이러한 data inefficiency를 해결하기 위해 현재 상태 및 다음 상태를 입력하여 그 사이에 어떠한 행동이 있었는지 예측하는 inverse dynamics model을 학습하여 각 프레임별 action을 예측하는 시도가 등장하였다. 또한 일부 연구에서는 model-based RL처럼 다음 상태까지 예측하는 world model을 도입하여 추가 상호작용 없이 VLA를 학습하고자 하는 시도 또한 존재한다. 또 흥미로웠던 연구는 bi-manual (dual arm) 태스크에 대한 학습 데이터의 부족을 해결하기 위해, 우선 데이터가 많은 개별 single-arm을 학습 시킨 후, 2개를 결합하여 소수의 bi-manual data로 학습하는 시도, 그리고 게임 데이터를 활용하여 로봇을 학습하는 방법론도 등장하였다. 즉 데이터 효율성을 해결하기 위한 연구는 기존의 semi-/self-supervised 방법론보다 훨씬 더 고차원적이고 다양화되었다.
2. 기타 학회 주요 트렌드
VLA뿐만 아니라, VLM의 복잡한 수학 문제 해결을 위한 reasoning 기법 [7], diffusion 기반 강화학습에서의 sub-goal 생성 [8], 3D-aware RL [9], 그리고 웹 에이전트의 OOD 문제 해결 [10] 등 다양한 분야에서 활발한 연구가 진행되고 있다. 이러한 연구들은 겉보기에는 서로 다른 개별 분야처럼 보이지만, 궁극적으로는 하나의 공통된 목표를 지향한다. 즉, 특정 문제를 해결하기 위한 좁은 범위의 기술 개발을 넘어서, 실제 인간과 상호작용할 수 있는 고도의 사용자 친화적 AI를 어떻게 구축할 것인가에 대한 고민이다. 이러한 흐름은 ICLR의 첫 번째 기조연설에서도 잘 드러난다. 해당 연설은 인간 중심 AI를 주제로, 단순히 기능적으로 뛰어난 시스템을 넘어서 인간과 감정적으로 교류하고 지속적으로 상호작용할 수 있는 AI를 만들기 위한 철학과 방향성을 제시하였다. 특히 이 논의는 VLA에 국한되지 않고, 다양한 세부 연구 분야를 아우르는 공통된 문제의식을 보여주었다. 따라서 특정 연구 분야에 집중하더라도, 다른 분야에 대한 탐색을 소홀히 해서는 안 된다는 점을 깨달았다. 한 분야에서 개발된 기법은 다른 분야에 자연스럽게 확장·응용될 수 있으며, 이러한 융합적 접근이야말로 보다 범용적이고 인간 친화적인 AI를 구현하는 데 필수적이다 (일례로, 강화학습 및 VLA를 공부하기 위해서는 최근 CoT, diffusion을 알아두어야 고도화할 수 있는 부분이 많다).
[1] Shi, H., Xie, B., Liu, Y., Sun, L., Liu, F., Wang, T., Zhou, E., Fan, H., Zhang, X., & Huang, G. (2026). MemoryVLA: Perceptual-cognitive memory in vision-language-action models for robotic manipulation. In Proceedings of the Fourteenth International Conference on Learning Representations (ICLR 2026). https://openreview.net/forum?id=54U3XHf7qq
[2] Sridhar, A., Pan, J., Sharma, S., & Finn, C. (2026). Scaling up memory for robotic control via experience retrieval. In Proceedings of the Fourteenth International Conference on Learning Representations (ICLR 2026). https://openreview.net/forum?id=1dH4ARGdwD
[3] Mazzaglia, P., Sancaktar, C., Peschl, M., & Dijkman, D. (2026). Hybrid training for vision-language-action models. In Proceedings of the Fourteenth International Conference on Learning Representations (ICLR 2026). https://openreview.net/forum?id=IBJtOltTbx
[4] Chen, X., Wei, H., Zhang, P., Zhang, C., Wang, K., Guo, Y., Yang, R., Wang, Y., Xiao, X., Zhao, L., Chen, J., & Bian, J. (2026). Villa-X: Enhancing latent action modeling in vision-language-action models. In Proceedings of the Fourteenth International Conference on Learning Representations (ICLR 2026). https://openreview.net/forum?id=y5CaJb17Fn
[5] Im, H., Jeong, E., Kolobov, A., Fu, J., & Lee, Y. (2026). TwinVLA: Data-efficient bimanual manipulation with twin single-arm vision-language-action models. In Proceedings of the Fourteenth International Conference on Learning Representations (ICLR 2026). https://openreview.net/forum?id=jG9W6nAwVz
[6] Choi, S., Jung, J., Seong, H., Kim, M., Kim, M., Cho, Y., Kim, Y., Park, Y. B., Yu, Y., & Lee, Y. (2026). D2E: Scaling vision-action pretraining on desktop data for transfer to embodied AI. In Proceedings of the Fourteenth International Conference on Learning Representations (ICLR 2026). https://openreview.net/forum?id=TRwQND3xpt
[7] She, S., Bao, Y., Lu, Y., Xu, L., Li, T., Zhu, W., Zhang, J., Huang, S., Cheng, S., Lu, L., & Wang, Y. (2026). DuPO: Enabling reliable self-verification via dual preference optimization. In Proceedings of the Fourteenth International Conference on Learning Representations (ICLR 2026). https://openreview.net/forum?id=SD8Z231C45
[8] Haramati, D., Qi, C., Daniel, T., Zhang, A., Tamar, A., & Konidaris, G. (2026). Hierarchical entity-centric reinforcement learning with factored subgoal diffusion. In Proceedings of the Fourteenth International Conference on Learning Representations (ICLR 2026). https://openreview.net/forum?id=TimC6hxVHj
[9] Mun, S., Lee, Y., Min, C.-H., Hong, M., & Kim, Y. M. (2026). 3D-aware disentangled representation for compositional reinforcement learning. In Proceedings of the Fourteenth International Conference on Learning Representations (ICLR 2026). https://openreview.net/forum?id=GE0IFoDx8a
[10] Zadeh, F. P., Choi, S., Lü, X. H., Reddy, S., & Kim, G. (2026). Weasel: Out-of-domain generalization for web agents via importance-diversity data selection. In ICLR 2026 Workshop on Lifelong Agents: Learning, Aligning, Evolving. https://openreview.net/forum?id=ixNDssFCkd