2026 423일부터 열린 ICLR 학회에 참석하고자 브라질 리우 데 자네이루에 방문하였다연구실 생활하면서 "AI 연구자로써 한번 쯤 나도 저런 학회가서 발표하고 청취하고 싶다"라고 계속 꿈꿔왔는데이번에 poster session을 통해 여러 연구자들과 커뮤니케이션하면서 연구 아이디어도 교류하는 기회를 가질 수 있어서 너무 좋았다학회에는 oral presentation  poster presentation 합쳐 약 5300편의 논문이 발표되었으며다양한 논문들에 대한 청취를 한 후 전반적인 후기를 남긴다.

 

[학회 후기]

1. Physical AI 관련 연구 증가

최근 5년 내에 Google RT series부터 시작하여, Physical Intelligence  Pi-series  vision-language-action model (VLA) 연구가 대두되고 있다내가 강화학습 및 로봇에 관심을 가지고 연구하고 있어서 이 분야 연구 수요가 증가한다는 것을 어느 정도 느끼고는 있었으나이번 ICLR에서 그 수요를 가히 피부로 느낄 수 있었다지금으로부터 약 5년전 Google RT1 RT2를 처음 소개하였을 때는 vision-language-model (VLM) action을 예측하는 모듈을 붙여 로봇에 실행하는 연구가 태동하였다이때까지만 하더라도구글이나 굉장히 큰 기업에서 시도해볼만한 프로토타입에 불과하였다그리고 약 2~3년전부터는 flow-matching이나 diffusion policy를 통해 long-term sequence를 예측하도록 모델 자체를 고도화하는 연구 + 관절의 개수가 다르거나 다른 모터를 가진 기계(embodiment)에도 범용적으로 적용할 수 있는 cross-embodiment 연구가 대두되었다그렇다면 현재 로봇 연구는 어디를 향해 달려가고 있을까내가 이번 학회를 통해 살펴본 바로는 크게 Physical AI 쪽 연구는 크게 3갈래가 보였다각 분야에 대한 간단한 소개 + 이에 대한 대표 연구를 참조하였다.

 

1-1. 장기 행동 수행을 위한 memory module [1, 2]: 기존 연구들은 VLA가 입력 이미지와 센서값을 입력받아 단기 행동을 출력하는 것이었다허나 이런 방법론들은 과거에 무슨 행동을 하였는지에 대한 정보를 잊어버리기 쉽기 때문에장기적인 플랜을 가진 태스크를 풀기가 어렵다즉 순차적인 행동 순서를 요구하는 태스크를 실행할 때 있어내가 앞서  어떠한 행동을 하였는지 기억하지 못하기 때문에 과거 순서를 반복적으로 행동한다던가또는 과거 sub-task를 실패(failure)하였을 때이를 복구하지 않고 다음 태스크로 넘어간다던가의 문제가 존재한다따라서 인지 모듈 및 행동 모듈 뿐만 아니라 과거 행동에 대한 기억을 retrieval 할 수 있는 memory module을 추가하여 장기 태스크를 극복하자는 연구가 등장하였다.

 

1-2. CoT  reasoning 기반 행동 수행 [3]: Chain-of-thought (CoT) 프롬프트는 LLM  VLA에서 태스크 성능을 비약적으로 올려주었다. VLA에서도 마찬가지로 CoT를 활용하여 로봇이 단순히 인지-행동” 하지 않고, “인지-추론-행동하도록하여 태스크 성능을 비약적으로 올리는 연구가 대두되었다또한 이러한 추론 테크닉은 달성하고자 하는 태스크를 잘게 쪼개어 sub-task에 대한 planning을 구성함으로써 1-1에 소개하였던 장기 태스크를 수행하는 또 다른 테크닉으로도 쓰일 수 있다다만 실제 환경과 상호 작용이 없어 추론과정 추가로 인한 속도 저하와 크게 상관없는 VLM과 달리 VLA는 실제 변화하는 환경에 대응해야하기 때문에 모든 step마다 reasoning을 하는 것이 어렵다이러한 문제를 타파하기 위해 think module action module을 별개로 두어서, reasoning은 일정 스텝마다 갱신하되, action reasoning된 결과를 함께 넣어 식의적절한 행동을 추론하는 방식으로 수행한다.

 

1-3. 데이터 효율성 증가를 위한 사전 학습 방법론 [4, 5, 6]: 대부분의 VLA는 사전학습을 하기 위해 로봇의 행동에 대한 비디오 뿐만 아니라 각 프레임 별 어떠한 행동을 했는지에 대한 action label또한 필요하다하지만 이러한 robot demonstration 데이터는 수집하기 어렵다이러한 data inefficiency를 해결하기 위해 현재 상태 및 다음 상태를 입력하여 그 사이에 어떠한 행동이 있었는지 예측하는 inverse dynamics model을 학습하여 각 프레임별 action을 예측하는 시도가 등장하였다또한 일부 연구에서는 model-based RL처럼 다음 상태까지 예측하는 world model을 도입하여 추가 상호작용 없이 VLA를 학습하고자 하는 시도 또한 존재한다또 흥미로웠던 연구는 bi-manual (dual arm) 태스크에 대한 학습 데이터의 부족을 해결하기 위해우선 데이터가 많은 개별 single-arm을 학습 시킨 후, 2개를 결합하여 소수의 bi-manual data로 학습하는 시도그리고 게임 데이터를 활용하여 로봇을 학습하는 방법론도 등장하였다즉 데이터 효율성을 해결하기 위한 연구는 기존의 semi-/self-supervised 방법론보다 훨씬 더 고차원적이고 다양화되었다.

 

2. 기타 학회 주요 트렌드

VLA뿐만 아니라VLM의 복잡한 수학 문제 해결을 위한 reasoning 기법 [7], diffusion 기반 강화학습에서의 sub-goal 생성 [8], 3D-aware RL [9], 그리고 웹 에이전트의 OOD 문제 해결 [10] 등 다양한 분야에서 활발한 연구가 진행되고 있다이러한 연구들은 겉보기에는 서로 다른 개별 분야처럼 보이지만궁극적으로는 하나의 공통된 목표를 지향한다특정 문제를 해결하기 위한 좁은 범위의 기술 개발을 넘어서실제 인간과 상호작용할 수 있는 고도의 사용자 친화적 AI를 어떻게 구축할 것인가에 대한 고민이다이러한 흐름은 ICLR의 첫 번째 기조연설에서도 잘 드러난다해당 연설은 인간 중심 AI를 주제로단순히 기능적으로 뛰어난 시스템을 넘어서 인간과 감정적으로 교류하고 지속적으로 상호작용할 수 있는 AI를 만들기 위한 철학과 방향성을 제시하였다특히 이 논의는 VLA에 국한되지 않고다양한 세부 연구 분야를 아우르는 공통된 문제의식을 보여주었다따라서 특정 연구 분야에 집중하더라도다른 분야에 대한 탐색을 소홀히 해서는 안 된다는 점을 깨달았다한 분야에서 개발된 기법은 다른 분야에 자연스럽게 확장·응용될 수 있으며이러한 융합적 접근이야말로 보다 범용적이고 인간 친화적인 AI를 구현하는 데 필수적이다 (일례로강화학습 및 VLA를 공부하기 위해서는 최근 CoT, diffusion을 알아두어야 고도화할 수 있는 부분이 많다).

 

[1] Shi, H., Xie, B., Liu, Y., Sun, L., Liu, F., Wang, T., Zhou, E., Fan, H., Zhang, X., & Huang, G. (2026). MemoryVLA: Perceptual-cognitive memory in vision-language-action models for robotic manipulation. In Proceedings of the Fourteenth International Conference on Learning Representations (ICLR 2026)https://openreview.net/forum?id=54U3XHf7qq

[2] Sridhar, A., Pan, J., Sharma, S., & Finn, C. (2026). Scaling up memory for robotic control via experience retrieval. In Proceedings of the Fourteenth International Conference on Learning Representations (ICLR 2026)https://openreview.net/forum?id=1dH4ARGdwD

[3] Mazzaglia, P., Sancaktar, C., Peschl, M., & Dijkman, D. (2026). Hybrid training for vision-language-action models. In Proceedings of the Fourteenth International Conference on Learning Representations (ICLR 2026)https://openreview.net/forum?id=IBJtOltTbx

[4] Chen, X., Wei, H., Zhang, P., Zhang, C., Wang, K., Guo, Y., Yang, R., Wang, Y., Xiao, X., Zhao, L., Chen, J., & Bian, J. (2026). Villa-X: Enhancing latent action modeling in vision-language-action models. In Proceedings of the Fourteenth International Conference on Learning Representations (ICLR 2026)https://openreview.net/forum?id=y5CaJb17Fn

[5] Im, H., Jeong, E., Kolobov, A., Fu, J., & Lee, Y. (2026). TwinVLA: Data-efficient bimanual manipulation with twin single-arm vision-language-action models. In Proceedings of the Fourteenth International Conference on Learning Representations (ICLR 2026)https://openreview.net/forum?id=jG9W6nAwVz

[6] Choi, S., Jung, J., Seong, H., Kim, M., Kim, M., Cho, Y., Kim, Y., Park, Y. B., Yu, Y., & Lee, Y. (2026). D2E: Scaling vision-action pretraining on desktop data for transfer to embodied AI. In Proceedings of the Fourteenth International Conference on Learning Representations (ICLR 2026)https://openreview.net/forum?id=TRwQND3xpt

[7] She, S., Bao, Y., Lu, Y., Xu, L., Li, T., Zhu, W., Zhang, J., Huang, S., Cheng, S., Lu, L., & Wang, Y. (2026). DuPO: Enabling reliable self-verification via dual preference optimization. In Proceedings of the Fourteenth International Conference on Learning Representations (ICLR 2026)https://openreview.net/forum?id=SD8Z231C45

[8] Haramati, D., Qi, C., Daniel, T., Zhang, A., Tamar, A., & Konidaris, G. (2026). Hierarchical entity-centric reinforcement learning with factored subgoal diffusion. In Proceedings of the Fourteenth International Conference on Learning Representations (ICLR 2026)https://openreview.net/forum?id=TimC6hxVHj

[9] Mun, S., Lee, Y., Min, C.-H., Hong, M., & Kim, Y. M. (2026). 3D-aware disentangled representation for compositional reinforcement learning. In Proceedings of the Fourteenth International Conference on Learning Representations (ICLR 2026)https://openreview.net/forum?id=GE0IFoDx8a

[10] Zadeh, F. P., Choi, S., Lü, X. H., Reddy, S., & Kim, G. (2026). Weasel: Out-of-domain generalization for web agents via importance-diversity data selection. In ICLR 2026 Workshop on Lifelong Agents: Learning, Aligning, Evolvinghttps://openreview.net/forum?id=ixNDssFCkd