Conference

Conference

Number of entries: 711 (필터 적용됨)
03
2025.10

2025 Conference on Robot Learning (CoRL) - 김정인

2025년 9월 27일, 서울 삼성동 코엑스에서 열린 Conference on Robot Learning (CoRL) 2025 Workshop에 참석하였다. CoRL은 이름에서 알 수 있듯 로봇 분야와 밀접한 관련이 있는 학회지만, 그보다 더 넓게 보면 강화학습(RL), 모방학습(IL), 표현 학습(representation learning), 비전-언어 통합 학습(VLA) 등을 포함한 기계학습 전반의 최신 기법이 로봇 시스템에 어떻게 접목되는지를 다루는 학회라고 할 수 있다. 이번 학회에는 Meta, NVIDIA, Google DeepMind 등 글로벌 AI 기업뿐만 아니라 Stanford, Berkeley, MIT 등 유수의 해외 대학 연구진들이 다수 참여하여 활발한 연구 발표와 교류가 이루어졌다.현재 다중 에이전트 강화학습(MARL) 및 forward dynamics modeling 기반의 sample-efficient learning 기법에 관심을 가지고 연구 중이며, CoRL 워크숍을 통해 로봇 학습 연구의 최신 트렌드와 그 흐름 속에서 나의 연구가 가지는 확장성과 접점을 고민해보고자 하였다.- Hybrid Thinking in Vision-Language-Action Models이번 워크숍에서 특히 흥미롭게 다가온 점은, 최근의 로봇 학습 연구가 단순한 행동 예측을 넘어 상황에 대한 추론(reasoning)과 장기 기억(long-term memory)을 고려한 의사결정 구조로 진화하고 있다는 점이었다. 대표적인 예로, “Hybrid Thinking in Vision-Language-Action Models” 연구는 이미지, 자연어 프롬프트, modality token을 입력으로 받아 로봇이 어떤 high-level 행동을 취할지 (Think / Act / Follow) 선택하는 구조를 제안한다. 단순히 observation을 기반으로 즉각적 행동을 예측하던 기존 방식에서 벗어나, ‘생각하고 행동하는’ 두 단계를 구분하여 모델링함으로써 zero-shot 환경에서도 더 높은 일반화 성능을 보여주는 것이 인상적이었다.- Remembering at Different Levels of Abstraction또한 Stanford의 Chelsea Finn 교수가 발표한 “Remembering at Different Levels of Abstraction” 세션에서는 최근 대규모 VLA 모델이나 강화학습 모델들이 직면한 memory bottleneck 문제를 중점적으로 다루었다. 강화학습의 MDP 가정은 현재 상태만을 기반으로 다음 행동을 결정하지만, 실제 로봇 시스템에서는 물체의 지속적 추적, 가려짐(occlusion), 연속된 의도 반영 등 장기적인 문맥이 필요한 태스크들이 존재한다. 이를 해결하기 위해 Finn 교수는 과거 상태에 대한 abstraction 기반 token memory를 구성하고, 이를 통해 행동을 예측하는 Past-Token Prediction (PTP) 기반 Diffusion Policy 학습을 제안하였다. 이 구조는 단순히 sequence length를 늘리는 접근보다 훨씬 효율적이며, skill-based RL이나 계획(plan)-중심의 sequential task에도 응용 가능성이 높다는 점에서 많은 영감을 받을 수 있었다.이번 워크숍은 단순히 새로운 논문을 ‘듣는’ 자리를 넘어서, 내가 수행 중인 연구의 위치를 더 넓은 학문적 맥락에서 조망할 수 있었던 기회였다. 특히 CoRL은 시뮬레이션 기반 실험뿐 아니라 실제 로봇 환경 적용을 고려한 실증적 연구들이 많이 발표되는 경향이 있어, 학술적 정합성과 실용적 적용 가능성의 균형을 고민하는 연구자들에게 매우 적합한 학회임을 느낄 수 있었다.짧은 하루의 워크숍이었지만, 다양한 연구자들의 시도와 문제의식을 직접 경험하며 많은 자극을 받을 수 있었고, 내가 놓치고 있던 기술적 허들, 일반화 문제, 표현 학습의 방향성 등에 대해 다시금 성찰해보는 시간을 가질 수 있었다. 이 자리를 빌어 귀중한 학회 참석의 기회를 허락해 주신 교수님께 깊이 감사드리며, 함께 참여한 연구실 동료들과도 좋은 인사이트와 추억을 공유할 수 있었던 뜻깊은 하루였다.
Reviewed by 김정인 김정인
2025.10.03
Read More
30
2025.09

2025 Conference on Robot Learning (CoRL) - 정재우

2025 Conference on Robot Learning(CoRL)에서 발표된 연구들은 로봇 학습 분야의 패러다임이 중대한 전환점에 있음을 명확히 보여주었다. 특히 시뮬레이션의 한계를 극복하려는 시도, 최신 생성 모델의 적극적인 도입, 그리고 언어 및 다중 감각 정보를 활용한 상호작용 지능의 고도화가 핵심적인 연구 동향인 것을 파악할 수 있었다. 또한 다음과 같은 발표 세션의 주제들이 인상적이었다.[Sim-to-Real을 넘어선 데이터 생성 패러다임의 확장]전통적인 Sim-to-Real 접근법은 물리 엔진의 부정확성이라는 한계를 지녔다. 이번 학회에서는 이를 우회하거나 보완하는 창의적인 연구들이 다수 발표되었다. 대표적으로 "Real2Render2Real: Scaling Robot Data Without Dynamics Simulation or Robot Hardware" 연구는 물리 시뮬레이션이나 실제 로봇 하드웨어 없이 렌더링 기술만으로 로봇 데이터를 확장하는 혁신적인 파이프라인을 제시했다. 또한 "The Sound of Simulation" 은 생성형 오디오를 활용해 다중 모달(multimodal) 정책을 학습하는 독창적인 접근을, "X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real" 은 서로 다른 로봇 형태 간의 학습 전이를 시도하며 데이터 생성의 범위를 확장시켰다. 이는 현실 세계의 복잡성을 극복하기 위해 데이터 자체의 생성 방식에 대한 근본적인 고민이 시작되었음을 시사한다.[디퓨전 모델(Diffusion Models)의 정책 학습 주류화]이미지 생성을 넘어, 디퓨전 모델과 플로우 매칭(Flow-matching)은 이제 로봇의 연속적인 행동 정책을 표현하는 강력한 도구로 자리 잡았다. "Steering Your Diffusion Policy with Latent Space Reinforcement Learning" 연구는 디퓨전 정책을 잠재 공간 상에서 강화학습으로 미세 조정하는 방법을 제안했으며, "Streaming Flow Policy" 는 행동 궤적을 유선(flow)으로 취급하여 디퓨전 정책을 더욱 단순화하는 방안을 탐구했다. 이는 고차원의 복잡한 행동을 생성하고 제어하는 데 있어 생성 모델이 표준적인 방법론으로 부상하고 있음을 보여준다.[언어와 다중 감각(Multimodality) 기반의 상호작용 지능]언어-비전 모델(VLM)의 활용은 단순한 명령 인식을 넘어, 보상 설계와 같은 학습 과정의 핵심으로 깊숙이 통합되었다. "ReWiND: Language-Guided Rewards Teach Robot Policies without New Demonstrations" 는 새로운 시연 데이터 없이 오직 언어적 가이드만으로 보상 함수를 생성하여 정책을 학습시키는 방법을 제시하며 데이터 수집 비용의 절감 가능성을 열었다. 또한, 복잡한 실제 환경에서의 조작 능력은 시각 정보만으로는 부족하다. "SAVOR: Skill Affordance Learning from Visuo-Haptic Perception" 와 "Reactive In-Air Clothing Manipulation with ... Visuotactile Affordance" 등의 연구는 시각과 촉각(haptic/tactile) 정보를 결합하여 물체의 affordance를 학습하고, 이를 통해 정교한 상호작용을 구현하는 성과를 보였다.CoRL 2025 참가는 로봇이 더 이상 사전 정의된 환경과 작업에 머무르지 않고, 비정형 데이터와 다중 모달리티를 기반으로 스스로 학습하며 현실 세계의 복잡성에 적응해나가는 '학습 에이전트'로 진화하고 있음을 파악할 수 있었던 경험이었다. 특히 물리 시뮬레이션과 수동 시연이라는 기존의 데이터 병목 현상을 극복하기 위한 창의적인 접근법들은 향후 로봇 학습 연구의 중요한 방향이 될 것이라 예상한다.
Reviewed by 정재우 정재우
2025.09.30
Read More
30
2025.09

2025 Conference on Robot Learning (CoRL) - 최지형

2025년 9월 27일, 서울 코엑스에서 개최된 Conference on Robot Learning (CoRL) Workshop에 참여했다. 최근 로보틱스 분야에 큰 관심을 가지고 공부를 하던 차에 최신 연구들을 접할 수 있을 것이란 기대를 가지고 참석했다. 여러 국가 연구자들과 메타·엔비디아 등 기업 연구진이 대거 참여해 학계와 산업계가 함께 방향을 모색하는 풍경이 인상적이었고, 다수의 발표가 실제 로봇 플랫폼을 기반으로 한 실증 결과를 제시해 시뮬레이션 중심의 논의에서 한 걸음 나아가고 있음을 체감했다.이번 워크숍에서 특히 집중적으로 살펴본 것은 메모리와 행동 검색이다. 현재 태스크를 잘 수행하기 위해, 과거의 기록 혹은 관련 있는 데이터를 검색해 응용하는 방식으로 ai가 agent의 개념으로 나아가기 위해 필수적인 기능들이다. 이를 가장 응집적으로 다룬 세션이 'RemembeRL: what can past experience tell us about our current action?'이었기에 이에 집중하여 워크숍을 참여했다. . RemembeRL의 핵심 문제의식은 단순하다. 로봇이 과거의 에피소드에서 무엇을, 어떤 추상화 수준으로 꺼내 현재 의사결정에 연결할 것인가. 더 구체적으로는 장기 의존이 필요한 추적, 가림(occlusion), 복합 스킬 조합 같은 태스크에서 마코프 가정이 드러내는 구조적 한계를 어떻게 우회할지, 그리고 검색(retrieval)·외부 메모리·in-context/meta-learning을 어떤 비용으로 결합할지가 논의의 중심이었다.세션의 기조 발표에서는 대형 VLA/RL 모델이 장기 컨텍스트를 다룰 때 겪는 병목이 정리되었다. 과거 정보를 더 붙인다고 해서 항상 성능이 오르는 것은 아니며, 짧은 이력을 억지로 늘릴 때 생기는 spurious correlation과 계산 복잡도 증가가 안정성을 해친다는 지적이 설득력 있었다. 이에 대한 대안으로 ‘과거를 예측 대상으로 삼는’ 식의 학습 목표 전환, 즉 past-token prediction 류의 접근이 소개되었는데, 장기 문맥을 직접 최적화 대상에 포함해 메모리 사용을 안정화하려는 의도가 분명했다. 이 방향은 강화학습 정책의 학습 목표를 재구성한다는 점에서 단순 모듈 추가와는 결이 다르다.포스터와 스포트라이트에서는 행동 검색을 전면에 둔 작업들이 눈에 띄었다. 그중 ReMoBot: Mobile Manipulation with Vision-based Sub-goal Retrieval은 과거 성공 에피소드에서 시각적  sub-goal을 검색해 현재 장면과 정렬하고, 해당 sub-goal embedding을 정책 조건으로 주어 장거리 조작을 안정화하는 방식을 취한다. 핵심은 “메모리를 쌓는 법”이 아니라 “메모리에서 무엇을 꺼내 어디에 꽂을지”를 명시적으로 설계했다는 점이다. 이 접근은 모델 용량을 키우거나 시퀀스를 길게 만드는 대신, 검색과 조건화(conditioning)로 문제를 구조화해 데이터 효율과 안정성을 동시에 노린다. 실험 결과 또한 OOD 맥락 전환에서의 실패 모드를 줄이는 데 효과가 있음을 시사했다.종합적으로, 이번 워크숍 참여는 로보틱스 분야는 물론 연구 전반에 대한 시야를 넓히는 데 도움이 됐다. 관련 주제의 흐름과 쟁점을 압축적으로 접하며 많이 배울 수 있었고, 앞으로도 차분히 공부를 이어가고자 한다. 좋은 기회를 주신 교수님께 감사드리며, 함께 참여해 의견을 나눈 동료들에게도 고맙다.
Reviewed by 최지형 최지형
2025.09.30
Read More
30
2025.09

2025 Conference on Robot Learning (CoRL) - 허종국

지난 토요일, 서울 삼성동 코엑스에서 열린 Conference on Robot Learning (CoRL) 학회에 참여하게 되었다. Accept된 논문은 없지만, 연구실의 지원 덕분에 학회에 참여하여 좋은 강연 및 연구들에 대해 들을 수 있었다. 아쉽게도 이번 CoRL에 참여 인원 제한이 있어 Full Conference를 듣지는 못하고 Workshop만 참여하게 되었다. 학회 측에서 요즘 관련 연구가 기하급수적으로 증가하는 것을 따라 잡지 못하여 인원이나 장소에 대한 협찬이 미흡했던 것인지, reddit이나 관련 커뮤니티에서도 accept 되었으나 참여할 수 없을 뻔 했다는 불만글을 많이 보았다. 그럼에도 Workshop에러 Servey Levine이나 Chelsea Finn 등 강화학습 분야의 대가들이 와서 직접 발표 및 질의 응답도 하고, 패널 디스커션을 하는 등 많은 것을 배울 수 있었다. [Human to Robot (H2R) Workshop]- Robot Learning from Human Video with Tactile, Tess Hellebrekers, Microsoft Research인간의 피드백으로부터 학습하거나, 시각적 정보와 같이 인간의 인지 기능을 모사한 정보로부터 학습하는 로봇들에 대해 촉각적 정보까지 부가해 학습할 수 있는지에 대해 발표하였다. 한마디로 human tactile expertise로부터 로봇이 학습할 수 있는지에 대한 연구를 소개해 주었는데, 기존의 로봇의 proprioceptive sensor는 real sense camera 혹은 gps sensor 등으로 학습하기 때문에, 촉각 적보를 인지할 수 있도록 Microsoft Research에서 제작한 OSMO Glove라는 것을 우선 소개하였다. OSMO Glove는 ROS2와 Python과 연동이 되며, 손가락 및 손바닥 마디 별 관절 정보, 압력 센서 등이 부착되어 있어 time series 형태로 데이터를 수집할 수 있다. 이러한 촉각 정보로부터 가장 큰 이득을 볼 수 있는 로봇 태스크는 단연코 물체를 집고 이동하는 grasp 태스크이다. OSMO Glove에서 활용하는 촉각 정보까지 활용한 로봇의 경우 물체를 집고 옮길 때 적당한 악력을 주고, 놓칠 경우 물건을 다시 집으러 가는등의 행동을 보여주었다. 반면, 촉각 센서를 활용하지 않는 경우, 물체를 집었다는 촉각 없이 gripper의 열림 정도만 활용할 수 있기 때문에, 실수로 물체를 떨어뜨렸음에도 로봇은 이를 인지하지 못하고 빈손으로 타겟 지점까지 팔을 움직이는 모습을 보여주었다. 이러한 연구는 기존에 시각/좌표 등의 정보 뿐만 아니라 인간의 다른 오감을 활용하였을 때 더욱 정교한 태스크를 자동화할 수 있음을 보여주었다. 또한 해당 연사의 강연 이후, 물질의 마찰 등 material property가 다른 경우, 즉 unseen object의 경우에도 잘 동작하는지에 대해 물어봤는데, 소음이 심하여 제대로 파악하지는 못했지만 당연히 촉각 센서를 활용할 경우 더욱 일반화가 높아질 것이라는 요지의 답변을 하였다.- Human-in-the-Loop Robot Learning, Matei Ciocarlie, Columbia University설령 SOTA 성능을 보이는 강화학습 (RL) 혹은 모방 학습 (IL) 에이전트일지라도, 학습 환경과 다른 OOD 태스크에서는 distribution shfit로 인해 일반화 성능이 떨어지게 된다. 해당 강연에서는 이러한 에이전트들을 새로운 환경에서 deploy할 때, 최소한의 인간의 개입을 통해 에이전트의 행동을 보정하여 높이는 연구를 소개하였다. 알고리즘이 RL인지 IL인지, 그리고 인간의 개입 시점이 학습 단계인지 인퍼런스 단계인지에 따라 4가지로 나눌 수 있는데, 인퍼런스 단계에서 인간의 개입을 가정하는 연구로써, 연사들이 2024 ICRA에 제출하였던 Decision Making for Human-in-the-loop Robotic Agents via Uncertainty-Aware Reinforcement Learning (HULA)에 대해 소개하였다. HULA는 학습 단계에서 인간의 도움 없이, deployment 단계에서 human expert의 개입이 필요할 때, 어떻게 최소한의 개입을 할당할지를 해결하는 연구이다. 다른 연구들도 소개 해주었으나, HULA는 내가 현재 하고 있는 online preference-based reinforcement learning에도 많은 영감을 줄 것 같아서 추후 정독해보고자 한다. 구체적으로 online PbRL에서는  정해진 feedback schedule에 따라 일정 개수씩 인간의 피드백을 할당하여 보상함수를 학습하게 되는데, 이때 feedback을 주는 주기 및 개수를 어떻게 scheduling할지에 대한 연구는 아직 미진하다. 학습 초기에 너무 많은 피드백을 주게 된다면, 데이터 다양성이 떨어지게 되어 피드백 효율성이 떨어지게 될 것이고, 학습 후기에 너무 많은 피드백을 주게 된다면, plasticity loss로 인해 에이전트가 새로운 정보를 빠르게 습득할 능력을 잃어버렸을 때 인간이 개입하기 때문에 학습의 개선이 잘 이루어지지 않게 될 것이다. 태스크에 맞도록 적정한 인간 피드백을 주기 위한 메트릭을 제안하고자 할 때, HULA에서 많은 영감을 얻을 수 있을 것 같다.[RemebeRL: what can past experience tell us about our current action?]- Remembering at Different Levels of Abstraction, Chelsea Finn, Stanford University최근 스케일이 큰 VLA나 RL 모델들은 memory problem이라는 것을 겪고 있다고 한다. 꽤나 화두인 이슈인지 이번 Workshop에는 해당 문제에 대해 별도로 session이 열리게 되었으며, 해당 session에  MAML과 강화학습 연구로 유명한 Chelsea Finn 교수와 연사로 참석하였으며, Sergey Levine 교수까지 panel discussion에 참석하였다. Chelsea Finn은 SOTA VLA나 RL 모델들이 memory problem을 겪고 있는다 했는데, 구체적으로 어떠한 모델이 갑자기 가려진 물체를 찾아야한다던지, 특정 물체를 지속적으로 tracking해야한다 던지, 아니면 시행 횟수 등을 기록을 해야한다는 상황에서 RL 알고리즘은 MDP 가정으로 인해, 그리고 VLA는 long term dependency로 인해 성능이 저하된다는 것이다.  이러한 memory problem을 해결하기 위해 별도의 memory를 추가하거나, sequence길이를 늘릴 수는 있지만, 단순히 이러한 방법은 되려 성능 저하를 미치며, Finn은 이러한 이유를 1. short horizon history에서 발생하는 과거 상태와 미래 행동 사이의 spurious correlation, 그리고 2. Computation problem을 꼽았다. 그리고 이 두가지를 해결하기 위한 자신의 연구로 이번 CoRL 2025에 accept된 Learning Long-Context Diffusion Policies via Past-Token Prediction (PTP)를 소개하였다. 해당 토픽을 처음 듣게 되어 자세히 이해하진 못했지만, 꽤나 흥미가 생겼으며, 순차적으로 태스크를 해결해야하는 skill-based RL이나 planning, tracking, occlusion 상황에서 문제를 해결하고자 할 때 영감을 얻을 수 있을 것 같다.- Panel Discussion다양한 주제에 대한 패널들의 의견 및 토론을 들어 볼 수 있었으며, 가장 인상 깊었던 주제는 첫 주제였던 것 같다. Memory problem이 최근 VLA나 RL, IL에서 굉장히 큰 화두로 떠오르고 있는데 그렇다면, 과거 한 시점만 고려하는 Markovian Assumption을 벗어나서 문제를 새롭게 정의해야하는 것 아닌가에 대한 논제였다. 여기서 Sergey Levine 교수의 말이 상당히 기억에 남았다. 만약 MDP상황에서 벗어난다면, 이론적인 부분부터 많은 부분에 문제에 대한 재정의, 수학적 증명이 별도로 요구되기 때문에 쉬운일은 아닐 것이다 (i.e., Q나 V 함수는 Markovian Property 가정 하에 Bellman 방정식이 성립하는데, 이전시점까지 고려하게 된다면, Bellman Iteration을 쓸 수 없을 것). 그리거 강화학습의 다른 큰 문제 중 하나는 distribution shift 상황인데, 기존에는 state-action에 대한 distribution 문제 하나만 고려하면 됐다면, memory problem을 해결하기 위해 과거 시점까지 고려할 경우 state-action을 넘어 trajectory 단위의 distribution shift를 고려해야 한다.이때까지 ICIEA, KDD 등 다양한 학회에 참석할 수 있었지만, 내 연구 분야와 관련된 연구가 주를 이루는 학회이다 보니, 더욱 더 적극적으로 참여하게 되었고 기존 내 연구에서 찾지 못했던 돌파구를 다른 연구에서 찾아본다던지, 새로운 연구로는 어떠한 주제가 떠오르는지에 대해 많이 알 수 있었던 학회였다. 참석할 기회를 주신 교수님께 감사의 말씀을 드리며, 같이 좋은 추억을 쌓을 수 있었던 동료 연구원들에게 감사의 말을 전한다.
Reviewed by 허종국 허종국
2025.09.30
Read More
30
2025.09

2025 Conference on Robot Learning (CoRL) - 정진용

2025년 9월 27일 토요일, 서울 코엑스에서 개최된 Conference on Robot Learning (CoRL) Workshop에 참석하였다. 개인 연구로 out-of-distribution generalization 중심으로 연구를 진행하고 있어, 로봇 학습 분야에서 분포 변화와 일반화 문제를 어떻게 다루는지 궁금했던 차에 정말 좋은 학회 참가 기회가 되었다. CoRL학회는 Meta, NIVIA 등 유명 기업들 및 여러 유명 해외 대학 연구자들이 대거 참여하여 활발한 교류가 이루어졌다. 학회장을 둘러보며 흥미로웠던 점은 모든 연구가 실제 로봇 하드웨어를 활용한 실증 연구였다는 것이다. 시뮬레이션이 아닌 실물 로봇팔 매니퓰레이터, 드론 등을 통해서 데이터를 수집하고 학습을 진행하는 모습을 보며, 로봇 분야에서는 실제 환경에서의 검증이 필수적임을 느꼈다. 이는 개인 연구 관점에서도 흥미로운 지점이었는데, sim-to-real gap 자체가 하나의 거대한 distribution shift 문제이기 때문이다. 또 다른 흥미로운 점은 많은 연구들이 Vision-Language-Action (VLA)를 광범위하게 활용한다는 점이었다. 시각 정보와 프롬프트를 통합하여 로봇 행동을 생성하는 접근법은, zero-shot이나 few-shot 상황에서도 새로운 환경과 작업에 적응하는 모습을 보여주었다. 대규모 사전학습을 통해서 distribution shift 상황에서도 더 강건한 성능을 유지하려는 시도들도 인상적이었다. 하루 동안의 짧은 Workshop이었지만, 로봇 학습 분야에서 연구들이 어떻게 진행되고 있는지 파악해볼 수 있었고 좋은 경험을 쌓을 수 있었던 유익한 시간이었다.[Planning in 16 Tokens: A Compact Discrete Tokenizer for Latent World Model]이 연구는 고해상도 이미지를 16개 이산 토큰으로 압축하는 CompACT tokenizer를 제안했다. 핵심은 planning doesn't need photorealistic generation이라는 점이다. 즉, 로봇 행동 계획 수립에서는 픽셀 단위의 정확한 재현보다는 저주파 의미 정보와 공간적 배치가 더 중요하다는 것이다. 기존 VQ-GAN 방식이 196개 토큰을 사용하는 것과 비교하였을 때 CompACT는 더욱 압축된 표현을 사용하면서도, goal-conditioned visual navigation을 효과적으로 수행했다. 해당 연구는 실증적인 로봇 실험 내용이 없는 몇 안되는 연구이지만, planning latency를 20배 가량 가속화했다는 점에서 실용적인 측면이 부각되어 workshop paper로 선정된 것 같다고 생각했다.[Hybrid Thinking in Vision-Language-Action Models]VLA 모델을 로봇 의사결정 과정에 접목한 이 연구는 fast-mode와 slow-mode로 의사결정을 구분 지은 점이 특징적이었다. 이미지로 표현된 현재 상태와 자연어 프롬프트, 그리고 modality token을 입력으로 받아 act, think, follow 중 하나를 선택하는 구조였다. 단순히 학습 데이터와 유사한 in-distribution 환경뿐 아니라, 새로운 물체나 배치 등이 포함된 out-of-distribution 상황에서도 테스트를 진행했다. 'Thinking'이라는 중간 추론 과정을 명시적으로 모델링함으로써, OOD 상황에서도 강건한 일반화 성능을 보였다는 것이 인상적이었다.
Reviewed by 정진용 정진용
2025.09.30
Read More
30
2025.09

2025 Conference on Robot Learning (CoRL) - 이정민

2025년 9월 27일 토요일, 서울 코엑스에서 열린 Conference on Robot Learning (CoRL) Workshop에 참석하였다. 강화학습을 기반으로 하는 ETRI 국가 과제를 함께하는 연구실 동료들과, 추가로 지형이와 함께 참석하게 되었다. Robot learning 자체에는 잘 아는 것이 없어 걱정도 했지만, 생각보다 흥미로운 주제들이 굉장히 많았던 것 같다. Workshop인데도 말이다. 뿐만 아니라 학회장을 돌아다니면서, Meta, NVIDIA 등의 유명한 기업들과 여러 해외 대학의 사람들을 보면서 신기한 감정도 들었다. 가장 크게 느껴진 것은 두 가지 였는데, 첫 번째는 이 쪽 분야는 무조건 실물 로봇을 사용하여 데이터를 수집하는 것을 기반으로 해야 성과적으로 입증될 수 있다는 것이였다. 내가 본 모든 구두 발표, 포스터 발표는 모두 실물 드론, 물체를 집을 수 있는 로봇 등 실물 로봇을 통해 데이터를 수집하고 연구를 진행하였다. 두 번째로는, Vision-Language Model (VLM)이 이쪽 분야에서도 상당히 활발하게 사용되고 있다는 점이였다. Vision-Language Action (VLA) 모듈을 통해 로봇이 다음에 어떤 행동을 할지 예측하는 방식으로 학습이 이루어지게 되며, 학습 뿐 아니라 zero-shot, few-shot 상황에서도 비슷한 로직으로 로봇이 움직이게 된다. 하루 workshop 이였지만 robot learning 분야의 추세를 알 수 있었고 대가들의 패널 세션 또한 경청하며 좋은 경험을 쌓을 수 있었다. [Hybrid Thinking in Vision-Language-Action Models ]앞서 언급했듯이, VLA 모델들이 robot learning 분야에서 활발하게 사용되고 있다. 이 방법론은 우선 상태를 나타내는 이미지와 "What should the robot do to put the red triangle on the mug?" 라는 텍스트 프롬프트, 그리고 modality token 이 입력으로 들어가게 된다. 이러한 세 가지 입력 상태들을 통해 act, think, follow에 대한 확률 분포를 도출하게 되고 결과적으로 robot이 어떤 행동을 할지를 예측하는 것으로 이해하였다.  방법론 자체에 "hybrid" 라는 말이 붙은 이유는 thinking의 slow-mode와 non-thinking의 fast-mode로 구분되는 구조를 가지고 있기 때문이다. 해당 연구의 실험은 입력 텍스트 프롬프트를 보면 알겠지만 물체를 집을 수 있는 로봇으로 수집한 데이터로 진행되었고, in-distribution tasks 뿐만 아니라 out-of-distribution tasks들에 대해서도 실험을 진행하며 로봇이 지시를 성공적으로 수행한 횟수의 비율을 통해 성능의 우수함을 입증하였다. 올해 여름에 일본에서 참석하였던 IEA/AIE 학회와는 또 사뭇 다른 분위기였던 것 같고 robot learning이 내 메인 연구 분야는 아니지만 상당히 좋은 경험을 할 수 있었던 것 같다. 좋은 학회에 참석할 수 있도록 기회를 주신 교수님과, 같이 참석한 동료 연구원들께 감사의 인사를 전하며 학회 세미나 후기를 마친다.
Reviewed by 이정민 이정민
2025.09.30
Read More
29
2025.09

2025 Conference on Robot Learning (CoRL) - 이준범

2025년 9월 27일 서울 코엑스에서 개최된 Conference on Robot Learning (CoRL)에 참석하였다. 현재 강화학습을 중심으로 연구를 진행하고 있어 로봇 분야와 긴밀히 연결된 이 학회는 최신 동향을 확인하고 시야를 넓히는 데 큰 도움이 되었다.이번 학회에는 다양한 국가의 연구자들과 더불어 메타, 엔비디아 등 세계적인 기업들이 대거 참여하였으며, 학계와 산업계가 한자리에 모여 로봇 학습의 성과와 비전을 공유하는 모습이 인상적이었다. 이를 통해 강화학습 기술이 학문적 성과를 넘어 산업 현장으로 빠르게 확장되고 있음을 확인할 수 있었다.CoRL에서는 대부분 실제 로봇을 대상으로 한 실증 연구들이 발표되었다. 강화학습 알고리즘이 시뮬레이션을 넘어 물리적 환경 속 로봇 제어와 행동 학습에 적용되는 사례들을 접하면서 연구의 실질적 가치와 응용 가능성을 실감할 수 있었다. 특히 최근 각광받고 있는 Vision-Language-Action(VLA) 모델에 대한 연구 발표가 다수 이루어졌다. 이 모델은 시각 정보와 언어 지시를 통합하여 로봇이 복잡한 상황 속에서도 인간의 요구를 이해하고 적절히 행동하도록 학습시키는 방법으로, 향후 인간-로봇 협업을 한 단계 도약시킬 수 있는 가능성을 보여주었다.이번 학회 참석을 통해 강화학습과 로봇 연구의 접점에서 이루어지고 있는 세계적 연구 흐름을 체계적으로 파악할 수 있었다. 앞으로의 연구 방향을 모색하는 데 있어 소중한 밑거름이 되었다. Robot learning from Human video with tactile최근 로봇 학습에서는 사람의 시연 영상을 활용하여 행동을 학습하는 연구가 활발히 진행되고 있지만, 단순히 시각 데이터만으로는 환경 변화나 물체 특성의 차이를 충분히 반영하기 어려운 한계가 있다. 이번 발표에서는 이러한 문제를 해결하기 위해 시각 정보와 함께 촉각 데이터를 동시에 수집하고 이를 학습에 반영하는 방법을 제안하였다. 그 결과 로봇은 새로운 물체나 위치 변화와 같은 unseen 상황에서도 안정적이고 높은 성능을 보여주었으며, 이는 마치 사람이 다양한 감각을 활용해 문제를 해결하듯 로봇 역시 멀티모달 정보를 결합해야 한다는 점을 잘 보여주었다. 이러한 접근은 로봇 학습이 단일 센서 의존에서 벗어나 촉각·시각을 포함한 다중 센서 기반 학습으로 확장될 수 있는 중요한 가능성을 제시한 의미 있는 연구였다.human-in-the-loop Robot learning또 다른 흥미로운 발표는 로봇 학습에서 human-in-the-loop 접근법의 필요성을 다룬 연구였다. 강화학습과 모방학습은 공통적으로 훈련 데이터 분포를 벗어난 OOD(out-of-distribution) 상황에 취약하다는 한계를 지니고 있는데, 이러한 경우 단순한 기계학습만으로는 효과적인 대응이 어렵다. 발표에서는 이 문제를 해결하기 위해 인간이 학습 과정에 직접 개입하도록 설계했으며, 단순히 모든 순간에 개입하는 것이 아니라 불확실성 추정 기법을 활용하여 로봇이 어려움에 부딪히는 순간에만 선택적으로 개입하도록 한 점이 특징적이었다. 이를 통해 학습 효율성을 해치지 않으면서도 실제 환경에서 발생할 수 있는 예기치 못한 상황을 효과적으로 극복할 수 있음을 보여주었다. 다양한 실험 사례와 응용 가능성을 통해 이 접근법의 현실성과 필요성을 확인할 수 있었으며, 특히 내가 연구하고 있는 분야와도 깊이 맞닿아 있어 더욱 몰입해서 들을 수 있었다. 학습 효율성을 해치지 않으면서도 실제 환경에서 발생할 수 있는 예기치 못한 상황을 효과적으로 극복할 수 있음을 보여주었다. 다양한 실험 사례와 응용 가능성을 통해 이 접근법의 현실성과 필요성을 확인할 수 있었으며, 특히 내가 연구하고 있는 분야와도 깊이 맞닿아 있어 더욱 몰입해서 들을 수 있었다.
Reviewed by 이준범 이준범
2025.09.29
Read More
03
2025.09

2025 한국데이터마이닝학회 추계학술대회 - 허종국

[학회 후기]작년 데이터마이닝 학회는 경주에서 개최되었었는데, 올해는 하계 학술대회로 평창에서 개최되었다.  작년에 대비해 포스터 세션이 늘어나 더 많은 발표를 심도있게 들을 수 있었다. 가장 좋았던 점은 카이스트 권창현 교수님 그리고 한국인공지능 협회의 박연정 전무님 등 새로운 연사분들이 대거 참여하셔서 물류 시스템 쪽에서의  AI 연구 동향이나 연구를 넘어 산업계에서 필요한 AI가 무엇인지 등에 대해 발표해주셨다. 마지막에는 4분의 연사분들이 'AI 시대의 교육, 연구, 산학협력, 국제화'라는 주제로 토론을 진행해주셨는데, 그 중 특히 강필성 교수님께서 말씀해주신 AS-IS(Answer, Memorize)에서 TO-BE(Ask, Retrieve)하는 인재가 되라는 장표가 가장 인상 깊었다. 해당 장표에 인상깊었던 사람이 많았는지, 패널 디스커션 때 가장 많은 질문이 오갔던게 기억이 남는다.[발표 후기]제목: Policy-Relevant Query Sampling and Dynamic Critic Reset for Efficient Preference-based Reinforcement Learning발표 후기 : 이번에 발표한 주제는 선호 기반 강화학습에서 발생하는 두 가지 문제를 해결하기 위한 연구를 발표하였다: 첫 번째는 query-policy misalignment로써, 기존 PbRL에서 선택되는 query가 현재 정책과는 거리가 멀어 실제로 정책 개선에 도움이 되지 않는 현상이다. 기존 연구인 QPA에서는 이러한 문제를 해결하기 위해 가장 최근 데이터에서 query를 뽑는 방법을 제시하였지만, 가장 최근 데이터라고 해서 현재 policy와 연관성이 높지는 않다는 것을 실험적으로 보였다. 이후, 이러한 문제를 해결하기 위해 현재 정책을 활용하여 해당 query가 발생할 확률인 likelihood를 계산해서 likelihood가 높은 데이터를 뽑는 샘플링을 제안하였다. 두 번째 문제는 online learning에서 발생하는 primcy bias, 그리고 이로 인해 발생하는 overestimation 문제이다.  PbRL에서 보상 함수는 순차적으로 쌓이는 feedback data에 계속해서 학습이 되게 되는데, 이로 인해 학습 초기 데이터에 과한 영향을 받게 된다. 이로 인해 학습 초기에 발생한 low-quality feedback에 대한 reward divergence가 커지게 됨으로써, overestimation이 발생하게 된다. 이러한 현상을 해결하기 위해 보상 함수와 이에 영향을 받는 Q 함수를 reset하는 방법을 제안하였으며, monotonic하게 증가하는 threshold에 대해 Q값이 임계값을 넘으면 reset하는 방식으로 고안되었다.학회 발표를 할 떄 마다 느끼는 것 중 하나는 강화학습, 그 중에서 선호 기반 강화학습이라는 분야가 생소한 만큼, 좀 더 장표를 쉽고 직관적으로 만들 수는 없었을까라는 아쉬움이다. 매번 개선하려고 노력하고 발표도 연습하지만, 실제 현장에 가서는 좀 처럼 잘 되지 않는다. 이번 학회 포스터에서 아쉬웠던 것을 발판 삼아 다음 확회에서 보완하는 방식으로, 조금씩 나아가는 것을 목표로 하고 있다.질문 1 : 두 번째 컴포넌트인 리셋 부분에서 threshold 선정 방식이 너무 heuristic한데 그 근거가 무엇인가요?답변 1 : 해당 threshold의 구체적인 산정 방식은 다소 heuristic할 수 있지만, monotonic하게 increasing한다는 점을 주목해야합니다. 실제 강화학습에서 1. reset은 primacy bias를 줄일 수 있다는 점, 2. critic output(Q-value)는 overestimation을 파악하는데 도움이 된다는 점, 3. policy improvement theorem에 의해 Q-value는 항상 증가해야한다는 점을 토대로 만들어졌습니다. monotonic하게 증가하는 스케줄 방식이라면 다른 스케줄링 방식도 큰 효과가 있을 것이라 생각합니다.[청취 후기]제목 : Calibration for Improving Safe Semi-Supervised Learning내용 : 실제 환경에서 자주 발생하는 label distribution mismatch 문제, 소위 out-of-distribution (OOD) 문제를 해결하기 위한 연구이다. 이러한 safe SSL 방법론들은 overconfidence로 인해 classification의 pseudo-label이나 OOD detection에서 오류를 증가시키는 원인이 된다. 이러한 문제를 해결 하기 위해 classifier와 ood detector에 calibration을 적용하는 safeSSL 방법론을 제안하였다. 가장 대표적인 이미지 데이터셋인 CIFAR-10/100, SVHN, TinyImageNet 벤치마크, 그리고 공인된 비교방법론들과 함꼐 폭넓게 비교 실험한 후 성능을 입증하였다.진수형의 발표였는데, 전반적으로 연구 배경, 실험의 구성, 방법론 수식의 탄탄함이 돋보이는 연구였다. 연구의 흐름이나 진행 방식에서 본받을 부분이 많았다.
Reviewed by 허종국 허종국
2025.09.03
Read More
02
2025.09

2025 한국데이터마이닝학회 추계학술대회 - 임새린

[학회 후기]작년 경주에 이어서 이번에는 평창 알펜시아 리조트에서 열리는 2025 하계 데이터마이팅 학회에 참석하였다. 이번 학회에는 작년보다 훨씬 사람들이 많고 학회 프로그램도 다양해서 더 재미있게 즐길 수 있었다. 특히 포스터 세션의 시간이 2시간에서 3시간으로 늘어나면서 여러 학교 학생들의 다양한 연구를 경험 할 수 있었다.나와 비슷한 분야의 연구가 없어서 아쉬웠지만, 어떤 연구 분야들이 주류를 이루는지, 이러한 방법론들을 실제 산업에 어떻게 활용하는지를 배울 수 있었다.[발표 후기]이번 학회는 작년과 마찬가지로 포스터 발표를 진행하였다. 이번에 발표한 연구는 'Adaptive Consistency Learning Framework for Unknown Class Recognition in Open-Set Semi-Supervised Learning'로 open-set semi-supervised learning의 알고리즘을 개발한 연구이다. 기존 open-set semi-supervised learning 방법론으로 학습된 classifier가 OOD 샘플을 잘 구분하지 못하여, OOD 샘플이 pseudo-label로 사용되는 문제를 해결하기 위한 방법론으로 크게 두 단계로 구성되어 있다. 1) 먼저, logit vector와 OOD score를 활용하여 unlabeled sample에서 open-set knowledge를 추출하고, 2) 추출된 open-set knowledge를 OOD-aware consistency regularization을 통해 classifier로 직접 전달한다. 이러한 방식을 통해서 classifier의 OOD 구분 능력을 올리고 더 정확한 pseudo-label을 얻어 모델 성능을 개선한다. 포스터 발표를 진행하면서 항상 아쉬운 점은 포스터 용지에 모든 내용을 다 담지 못한다는 것이다. 특히 내 연구 분야를 아예 모르는 분들이 오면 semi-supervised learning 중 fixmatch부터 설명해야 전체적으로 이해하기가 수월한데 이러한 내용을 담지 못해 잘 이해시키지 못했다는 느낌을 받았다. 다음 학회에서는 이러한 부분을 고려해 더 좋은 발표를 해야겠다고 느꼈다.질문 1 : classifier의 OOD 구분 능력은 학습 중 계속 올라가는데, pseudo-label은 오히려 조금씩 떨어지는 추세인데 그 이유를 알 수 있을까요?답변 1 : 제 방법론은 모든 class의 OOD score와 logit을 weighted sum하여 OOD class에 대한 logit을 추정합니다. 따라서, under- / over-estimation 문제가 발생할 수 있는데 이를 해결하기 위한 rank-based reweight 전략을 도입하였습니다. 그럼에도 불구하고 학습이 진행되면서 조금씩 ID 샘플을 OOD 샘플로 예측하는 over-estimation 문제가 발생하여 pseudo-label 정확도가 조금씩 떨어지는 현상이라고 이해해 주시면 됩니다. 이 문제는 향후 reweight 함수를 고도화 하여 해결할 예정입니다.[청취 후기]주제: 심층 신경망 내 레이어 간 균형 학습을 위한 스펙트럴 놈 분산 정규화신경망 모델의 깊이가 깊어질수록 레이어 간 학습 정도에 불균형이 발생하여 전체 신경망의 일반화 성능에 악영향을 끼친다. 이를 해결하기 위해 레이어 간 학습 불균형을 해소하기 위해 레이어마다 학습률을 유동적으로 조절하는 방법론이 제안되었지만 , 이러한 방식은 정밀한 튜닝 절차를 요구한다. 최근에는각 레이어에 직접적으로 정규화를 적용함으로써 레이어간 학습 균형을 맞추려는 시도가 이어지고 있다. 해당  연구에서는 신경망 내 layer 간 정보 흐름의 불균형을 완화하기 위한 Spectral Norm Variance Regularization(SNVR)을 제안한다. SNVR 은 각 layer 의 spectral norm 의 크기를 제한하는 동시에, 분산에 대한 정규화 항을 목적 함수에 추가하여 layer 간 비슷한 수준의 정보 흐름을 가질 수 있도록 한다. 실험을 통해 SNVR 이 정보 흐름의 균형을 학습하도록 유도하여 개별 layer 의 학습 안정성을 향상시키고, 나아가 전체 신경망의 일반화 성능을 개선할 수 있음을 검증했다.최근 프로젝트를 하면서 거대 파운데이션 모델을 새로운 도메인에 전이할 때, 레이어 간의 표현력 차이에 대한 연구가 많다는 것을 느꼈고, 해당 포스터에 흥미를 가지게 되었다. 레이어별로 학습률을 조정하는 기법이 있다는 것 정도만 알고 있었는데 이 포스터 발표를 통해서 직접적으로 레이어에 규제를 가하는 방식이 있다는 것을 알게 되었다. 이러한 기법을 통해서 프로젝트를 해결하는데 도움이 되었으면 한다.
Reviewed by 임새린 임새린
2025.09.02
Read More
02
2025.09

2025 한국데이터마이닝학회 추계학술대회 - 고재영

2025년 8월 28~29일 평창 알펜시아 컨벤션센터에서 열린 한국데이터마이닝학회 하계학술대회에 참가하였다. 이번 학회는 인생 첫 학회이자 첫 포스터 발표 자리였기 때문에 내가 진행 중인 연구 내용을 다른 사람들에게 잘 전달할 수 있을까 걱정이 돼서 연구 내용을 속으로 정리하면서 아침 일찍 평창으로 이동했다. 이번 학회는 구두 발표 세션과 포스터 발표 세션이 번갈아 진행되었고 특히 포스터 세션에는 학부 연구생부터 대학원생, 기업까지 약 130여 팀이 참가하여 다양한 분야의 최신 연구 성과를 접할 수 있었다. 발표 시간이 1시간 30분, 질의응답과 청취 시간이 1시간 30분으로 충분히 확보되어 있어서 다른 발표자들이 진행하고 있는 연구를 깊이 있게 이해하고 교류할 수 있는 뜻 깊은 시간이었다.[구두 세션 후기]가장 인상 깊었던 발표는 화이트스캔 안은희 대표님의 “공간 빅데이터 통합 의사결정 지원 AI 플랫폼 및 활용 사례” 강연이었다. Population, Traffic, Consumption 데이터를 종합적으로 활용하여 현실의 문제를 해결해 나가는 다양한 서비스 사례를 들을 수 있었다.단순히 사람들의 위치나 이동 경로를 모니터링하는 수준을 넘어 소비쿠폰에 따른 지역 상권 활성화 효과를 예측하는 등 미래지향적 분석 서비스를 제공한다는 점이 특히 인상적이었다. 또한 Geo-scan(Web 기반 인구 시뮬레이션 플랫폼)을 활용하여 대규모 인파가 몰릴 경우 경찰 인력을 효율적으로 배치할 수 있는 시뮬레이션 분석이 가능하다는 점도 흥미로웠다. 마지막에는 XR 디바이스를 통해 원격 상황실에서도 인구 흐름과 밀집도를 직관적으로 파악할 수 있는 서비스가 소개되었는데 첨단 기기와의 결합을 통해 보다 신속하고 정확한 대응이 가능하다는 점에서 기술의 확장성을 잘 보여주었다. 이번 강연을 통해 데이터 기반 분석이 단순한 모니터링을 넘어 도시 안전 관리와 지역 경제 활성화에도 크게 기여할 수 있음을 실감할 수 있었다.[포스터 세선 후기]내가 발표한 주제는 “다변량 시계열 이상치 탐지를 통한 EUV 노광장비 Collector Mirror 오염 조기 탐지 모델 개발”이었다.현재 EUV 노광장비에서 Collector Mirror 오염은 직접적으로 측정할 수 없기 때문에 Mirror 반사 전후의 EUV 에너지를 이용해 반사율을 간접적으로 산출하고 있다. 그러나 두 센서 데이터의 비율로 계산하다 보니 노이즈가 심하고 결국 장기 이동평균선을 활용해야 하는 한계가 있다. 이는 이미 오염이 상당히 진행된 이후에야 탐지할 수 있다는 문제로 이어진다. 이러한 문제의식을 바탕으로 나는 센서 간 상관관계와 군집화를 고려한 다변량 시계열 이상치 탐지 모델을 제안하였다.발표 중 가장 먼저 받은 질문은 '15개의 센서 데이터만으로 비정상 시점을 정확히 판단할 수 있는가?' 였다. 실제 현업에서는 관측 가능한 센서 외의 외부 요인이 작용하는 경우가 많기 때문에 제한된 데이터만으로 비정상 시점을 포착하기 어려울 수 있다는 지적이었다. 이는 내가 실제로도 고민하고 있던 부분이다. Collector Mirror 오염이 매우 가속화되었던 시점을 비정상 레이블로 설정했음에도 불구하고 제안한 모델이 해당 구간의 이상치 점수가 거의 0에 가깝게 판정하는 문제가 있다. 이는 곧 그 구간의 센서 데이터 상에서는 뚜렷한 이상 징후가 나타나지 않았음을 의미한다. 이 질의 응답을 통해 15개 센서 외의 다른 외부 요인을 고려하지 못한 것은 아닌지, 레이블 처리 과정에 오류가 없었는지 다시 점검할 필요성을 깨달은 값진 시간이었다.
Reviewed by 고재영 고재영
2025.09.02
Read More