2025년 9월 27일, 서울 코엑스에서 개최된 Conference on Robot Learning (CoRL) Workshop에 참여했다. 최근 로보틱스 분야에 큰 관심을 가지고 공부를 하던 차에 최신 연구들을 접할 수 있을 것이란 기대를 가지고 참석했다. 여러 국가 연구자들과 메타·엔비디아 등 기업 연구진이 대거 참여해 학계와 산업계가 함께 방향을 모색하는 풍경이 인상적이었고, 다수의 발표가 실제 로봇 플랫폼을 기반으로 한 실증 결과를 제시해 시뮬레이션 중심의 논의에서 한 걸음 나아가고 있음을 체감했다.


이번 워크숍에서 특히 집중적으로 살펴본 것은 메모리와 행동 검색이다. 현재 태스크를 잘 수행하기 위해, 과거의 기록 혹은 관련 있는 데이터를 검색해 응용하는 방식으로 ai가 agent의 개념으로 나아가기 위해 필수적인 기능들이다. 이를 가장 응집적으로 다룬 세션이 'RemembeRL: what can past experience tell us about our current action?'이었기에 이에 집중하여 워크숍을 참여했다. . RemembeRL의 핵심 문제의식은 단순하다. 로봇이 과거의 에피소드에서 무엇을, 어떤 추상화 수준으로 꺼내 현재 의사결정에 연결할 것인가. 더 구체적으로는 장기 의존이 필요한 추적, 가림(occlusion), 복합 스킬 조합 같은 태스크에서 마코프 가정이 드러내는 구조적 한계를 어떻게 우회할지, 그리고 검색(retrieval)·외부 메모리·in-context/meta-learning을 어떤 비용으로 결합할지가 논의의 중심이었다.


세션의 기조 발표에서는 대형 VLA/RL 모델이 장기 컨텍스트를 다룰 때 겪는 병목이 정리되었다. 과거 정보를 더 붙인다고 해서 항상 성능이 오르는 것은 아니며, 짧은 이력을 억지로 늘릴 때 생기는 spurious correlation과 계산 복잡도 증가가 안정성을 해친다는 지적이 설득력 있었다. 이에 대한 대안으로 ‘과거를 예측 대상으로 삼는’ 식의 학습 목표 전환, 즉 past-token prediction 류의 접근이 소개되었는데, 장기 문맥을 직접 최적화 대상에 포함해 메모리 사용을 안정화하려는 의도가 분명했다. 이 방향은 강화학습 정책의 학습 목표를 재구성한다는 점에서 단순 모듈 추가와는 결이 다르다.


포스터와 스포트라이트에서는 행동 검색을 전면에 둔 작업들이 눈에 띄었다. 그중 ReMoBot: Mobile Manipulation with Vision-based Sub-goal Retrieval은 과거 성공 에피소드에서 시각적  sub-goal을 검색해 현재 장면과 정렬하고, 해당 sub-goal embedding을 정책 조건으로 주어 장거리 조작을 안정화하는 방식을 취한다. 핵심은 “메모리를 쌓는 법”이 아니라 “메모리에서 무엇을 꺼내 어디에 꽂을지”를 명시적으로 설계했다는 점이다. 이 접근은 모델 용량을 키우거나 시퀀스를 길게 만드는 대신, 검색과 조건화(conditioning)로 문제를 구조화해 데이터 효율과 안정성을 동시에 노린다. 실험 결과 또한 OOD 맥락 전환에서의 실패 모드를 줄이는 데 효과가 있음을 시사했다.


종합적으로, 이번 워크숍 참여는 로보틱스 분야는 물론 연구 전반에 대한 시야를 넓히는 데 도움이 됐다. 관련 주제의 흐름과 쟁점을 압축적으로 접하며 많이 배울 수 있었고, 앞으로도 차분히 공부를 이어가고자 한다. 좋은 기회를 주신 교수님께 감사드리며, 함께 참여해 의견을 나눈 동료들에게도 고맙다.