2025 Conference on Robot Learning (CoRL) - 허종국
지난 토요일, 서울 삼성동 코엑스에서 열린 Conference on Robot Learning (CoRL) 학회에 참여하게 되었다. Accept된 논문은 없지만, 연구실의 지원 덕분에 학회에 참여하여 좋은 강연 및 연구들에 대해 들을 수 있었다. 아쉽게도 이번 CoRL에 참여 인원 제한이 있어 Full Conference를 듣지는 못하고 Workshop만 참여하게 되었다. 학회 측에서 요즘 관련 연구가 기하급수적으로 증가하는 것을 따라 잡지 못하여 인원이나 장소에 대한 협찬이 미흡했던 것인지, reddit이나 관련 커뮤니티에서도 accept 되었으나 참여할 수 없을 뻔 했다는 불만글을 많이 보았다. 그럼에도 Workshop에러 Servey Levine이나 Chelsea Finn 등 강화학습 분야의 대가들이 와서 직접 발표 및 질의 응답도 하고, 패널 디스커션을 하는 등 많은 것을 배울 수 있었다. [Human to Robot (H2R) Workshop]- Robot Learning from Human Video with Tactile, Tess Hellebrekers, Microsoft Research인간의 피드백으로부터 학습하거나, 시각적 정보와 같이 인간의 인지 기능을 모사한 정보로부터 학습하는 로봇들에 대해 촉각적 정보까지 부가해 학습할 수 있는지에 대해 발표하였다. 한마디로 human tactile expertise로부터 로봇이 학습할 수 있는지에 대한 연구를 소개해 주었는데, 기존의 로봇의 proprioceptive sensor는 real sense camera 혹은 gps sensor 등으로 학습하기 때문에, 촉각 적보를 인지할 수 있도록 Microsoft Research에서 제작한 OSMO Glove라는 것을 우선 소개하였다. OSMO Glove는 ROS2와 Python과 연동이 되며, 손가락 및 손바닥 마디 별 관절 정보, 압력 센서 등이 부착되어 있어 time series 형태로 데이터를 수집할 수 있다. 이러한 촉각 정보로부터 가장 큰 이득을 볼 수 있는 로봇 태스크는 단연코 물체를 집고 이동하는 grasp 태스크이다. OSMO Glove에서 활용하는 촉각 정보까지 활용한 로봇의 경우 물체를 집고 옮길 때 적당한 악력을 주고, 놓칠 경우 물건을 다시 집으러 가는등의 행동을 보여주었다. 반면, 촉각 센서를 활용하지 않는 경우, 물체를 집었다는 촉각 없이 gripper의 열림 정도만 활용할 수 있기 때문에, 실수로 물체를 떨어뜨렸음에도 로봇은 이를 인지하지 못하고 빈손으로 타겟 지점까지 팔을 움직이는 모습을 보여주었다. 이러한 연구는 기존에 시각/좌표 등의 정보 뿐만 아니라 인간의 다른 오감을 활용하였을 때 더욱 정교한 태스크를 자동화할 수 있음을 보여주었다. 또한 해당 연사의 강연 이후, 물질의 마찰 등 material property가 다른 경우, 즉 unseen object의 경우에도 잘 동작하는지에 대해 물어봤는데, 소음이 심하여 제대로 파악하지는 못했지만 당연히 촉각 센서를 활용할 경우 더욱 일반화가 높아질 것이라는 요지의 답변을 하였다.- Human-in-the-Loop Robot Learning, Matei Ciocarlie, Columbia University설령 SOTA 성능을 보이는 강화학습 (RL) 혹은 모방 학습 (IL) 에이전트일지라도, 학습 환경과 다른 OOD 태스크에서는 distribution shfit로 인해 일반화 성능이 떨어지게 된다. 해당 강연에서는 이러한 에이전트들을 새로운 환경에서 deploy할 때, 최소한의 인간의 개입을 통해 에이전트의 행동을 보정하여 높이는 연구를 소개하였다. 알고리즘이 RL인지 IL인지, 그리고 인간의 개입 시점이 학습 단계인지 인퍼런스 단계인지에 따라 4가지로 나눌 수 있는데, 인퍼런스 단계에서 인간의 개입을 가정하는 연구로써, 연사들이 2024 ICRA에 제출하였던 Decision Making for Human-in-the-loop Robotic Agents via Uncertainty-Aware Reinforcement Learning (HULA)에 대해 소개하였다. HULA는 학습 단계에서 인간의 도움 없이, deployment 단계에서 human expert의 개입이 필요할 때, 어떻게 최소한의 개입을 할당할지를 해결하는 연구이다. 다른 연구들도 소개 해주었으나, HULA는 내가 현재 하고 있는 online preference-based reinforcement learning에도 많은 영감을 줄 것 같아서 추후 정독해보고자 한다. 구체적으로 online PbRL에서는 정해진 feedback schedule에 따라 일정 개수씩 인간의 피드백을 할당하여 보상함수를 학습하게 되는데, 이때 feedback을 주는 주기 및 개수를 어떻게 scheduling할지에 대한 연구는 아직 미진하다. 학습 초기에 너무 많은 피드백을 주게 된다면, 데이터 다양성이 떨어지게 되어 피드백 효율성이 떨어지게 될 것이고, 학습 후기에 너무 많은 피드백을 주게 된다면, plasticity loss로 인해 에이전트가 새로운 정보를 빠르게 습득할 능력을 잃어버렸을 때 인간이 개입하기 때문에 학습의 개선이 잘 이루어지지 않게 될 것이다. 태스크에 맞도록 적정한 인간 피드백을 주기 위한 메트릭을 제안하고자 할 때, HULA에서 많은 영감을 얻을 수 있을 것 같다.[RemebeRL: what can past experience tell us about our current action?]- Remembering at Different Levels of Abstraction, Chelsea Finn, Stanford University최근 스케일이 큰 VLA나 RL 모델들은 memory problem이라는 것을 겪고 있다고 한다. 꽤나 화두인 이슈인지 이번 Workshop에는 해당 문제에 대해 별도로 session이 열리게 되었으며, 해당 session에 MAML과 강화학습 연구로 유명한 Chelsea Finn 교수와 연사로 참석하였으며, Sergey Levine 교수까지 panel discussion에 참석하였다. Chelsea Finn은 SOTA VLA나 RL 모델들이 memory problem을 겪고 있는다 했는데, 구체적으로 어떠한 모델이 갑자기 가려진 물체를 찾아야한다던지, 특정 물체를 지속적으로 tracking해야한다 던지, 아니면 시행 횟수 등을 기록을 해야한다는 상황에서 RL 알고리즘은 MDP 가정으로 인해, 그리고 VLA는 long term dependency로 인해 성능이 저하된다는 것이다. 이러한 memory problem을 해결하기 위해 별도의 memory를 추가하거나, sequence길이를 늘릴 수는 있지만, 단순히 이러한 방법은 되려 성능 저하를 미치며, Finn은 이러한 이유를 1. short horizon history에서 발생하는 과거 상태와 미래 행동 사이의 spurious correlation, 그리고 2. Computation problem을 꼽았다. 그리고 이 두가지를 해결하기 위한 자신의 연구로 이번 CoRL 2025에 accept된 Learning Long-Context Diffusion Policies via Past-Token Prediction (PTP)를 소개하였다. 해당 토픽을 처음 듣게 되어 자세히 이해하진 못했지만, 꽤나 흥미가 생겼으며, 순차적으로 태스크를 해결해야하는 skill-based RL이나 planning, tracking, occlusion 상황에서 문제를 해결하고자 할 때 영감을 얻을 수 있을 것 같다.- Panel Discussion다양한 주제에 대한 패널들의 의견 및 토론을 들어 볼 수 있었으며, 가장 인상 깊었던 주제는 첫 주제였던 것 같다. Memory problem이 최근 VLA나 RL, IL에서 굉장히 큰 화두로 떠오르고 있는데 그렇다면, 과거 한 시점만 고려하는 Markovian Assumption을 벗어나서 문제를 새롭게 정의해야하는 것 아닌가에 대한 논제였다. 여기서 Sergey Levine 교수의 말이 상당히 기억에 남았다. 만약 MDP상황에서 벗어난다면, 이론적인 부분부터 많은 부분에 문제에 대한 재정의, 수학적 증명이 별도로 요구되기 때문에 쉬운일은 아닐 것이다 (i.e., Q나 V 함수는 Markovian Property 가정 하에 Bellman 방정식이 성립하는데, 이전시점까지 고려하게 된다면, Bellman Iteration을 쓸 수 없을 것). 그리거 강화학습의 다른 큰 문제 중 하나는 distribution shift 상황인데, 기존에는 state-action에 대한 distribution 문제 하나만 고려하면 됐다면, memory problem을 해결하기 위해 과거 시점까지 고려할 경우 state-action을 넘어 trajectory 단위의 distribution shift를 고려해야 한다.이때까지 ICIEA, KDD 등 다양한 학회에 참석할 수 있었지만, 내 연구 분야와 관련된 연구가 주를 이루는 학회이다 보니, 더욱 더 적극적으로 참여하게 되었고 기존 내 연구에서 찾지 못했던 돌파구를 다른 연구에서 찾아본다던지, 새로운 연구로는 어떠한 주제가 떠오르는지에 대해 많이 알 수 있었던 학회였다. 참석할 기회를 주신 교수님께 감사의 말씀을 드리며, 같이 좋은 추억을 쌓을 수 있었던 동료 연구원들에게 감사의 말을 전한다.
Reviewed by
허종국
2025.09.30