- 2026년 5월 8일 오전 9:09
- 조회수: 470
INFORMATION
- 2026년 5월 8일
- 오전 9시 ~
온라인 비디오 시청 (YouTube)
허종국
TOPIC
On-Line Video
OVERVIEW
요약: Vision-language-action (VLA) 모델은 거대 언어 모델 및 멀티 모달 모델의 발전에 힘입어 언어 지시를 이해하고 다양한 로봇 태스크를 수행하는 데 있어 눈부신 성과를 보이고 있다. 그러나 이미지와 자연어를 입력받아 행동을 직접 출력하는 기존 VLA 방식은 공간에 대한 이해, 복잡한 추론, 다단계 계획이 요구되는 상황에서 한계를 드러낸다. 이번 세미나에서는 이러한 한계를 극복하기 위해 visual trace, chain-of-though (CoT), latent planning 등 다양한 추론 강화 기법을 VLA에 접목한 최신 연구들을 살펴보고, 추론 능력이 복잡한 태스크에서 로봇 정책의 성능과 일반화에 어떤 영향을 미치는지 살펴보고자 한다.
참고자료
청취자 후기
안채원
이번 세미나는 Vision-Language-Action(VLA) 모델의 시각적 이해 및 추론 능력을 강화하는 최신 기법들에 대한 내용이었다.
기존 VLA 모델은 사전 학습된 VLM을 기반으로 시각, 언어 표현을 추출하고 action head를 통해 로봇 제어 명령을 예측하는 구조다. 단순히 현재 관측을 행동으로 매핑하는 수준을 넘어 시공간 인지와 시각적 계획, 추론 능력을 어떻게 강화할 것인가가 핵심 타겟이 된다는 점에서 세 가지 접근법이 소개되었다.
TraceVLA는 현재 시점 이미지만으로는 로봇이 시공간적 맥락을 포착하기 어렵다는 문제를 visual trace prompting으로 해결한다. CoTracker를 활용해 grid 중심점의 과거 경로를 추출하고, 위치 변화가 큰 active point들을 선별해 현재 이미지 위에 궤적을 그려 넣는 방식이다. 상황 변화 및 누적 오차를 방지하기 위해 주기적으로 새롭게 tracking point를 선별한다. 단순히 과거 history 이미지를 넣는 것보다 visual trace를 그려 넣는 방식이 훨씬 높은 성공률을 보였고, 조명이나 카메라 각도, 배경 변화에도 강건한 성능을 보였다.
CoT-VLA는 행동을 예측하기 전에 가까운 미래에 달성해야 할 sub-goal 이미지를 먼저 생성하는 imagine before acting 구조다. 현재 관측 기반으로 미래 목표를 수립한 뒤, 현재 관측과 미래 목표를 함께 입력해 행동을 예측한다. 이미지와 행동이 모두 있는 로봇 시연 데이터로는 action prediction을, 이미지만 있는 일반 비디오 데이터로는 sub-goal generation을 학습시켜 비싼 robot demonstration 의존성을 줄였다는 점이 차별화되는 부분이었다. Sub-goal 이미지는 패치 단위로 auto-regressive하게 생성하고, 이를 참고해서 행동 시퀀스는 bi-directional하게 생성한다. 다만 생성된 sub-goal 기반 추론 성능이 ground-truth sub-goal 기반 추론에 비해 크게 떨어져, sub-goal 생성 품질 자체가 병목이 될 수 있다는 tradeoff도 함께 보여줬다.
ThinkAct는 CoT-VLA의 느린 추론 속도와 Q&A 추론이 로봇 행동과 직접 연결되지 않는다는 한계를 visual latent planning으로 해결한다. VLM이 추론 임베딩과 경로 계획 임베딩을 함께 출력하고, 이를 action module에 입력해 행동 시퀀스를 생성하는 구조다. 학습은 GRPO 기반 강화학습으로 경로 계획을 평가하며, 생성된 경로가 실제 행동 시퀀스와 DTW distance 상 유사할수록 높은 보상을 부과한다. 또 Reasoning VLM은 매 N step마다, action model은 매 step마다 동작하도록 비대칭적으로 설계해 실제 로봇 제어에서의 latency를 고려한 점이 특징이다.
전반적으로 같은 목표를 두고도 접근 방식이 다양하다는 점이 흥미로웠고, 행동하기 전에 어떻게 생각하게 만들 것인가라는 관점에서 다양한 시도들이 이루어지고 있다는 점을 배울 수 있었다. 좋은 내용을 준비해서 발표해주신 허종국 선배님께 감사드리며 세미나 후기를 마친다.
김다빈
이번 세미나는 VLA 모델이 단순히 시각 정보와 언어 정보을 입력받아 행동을 출력하는 구조를 넘어, 실제 로봇 환경에서 더 잘 판단하고 계획하기 위해 어떤 방식으로 시각적 이해와 추론 능력을 강화할 수 있는지를 다룬 내용이었다. 가장 흥미로웠던 점은 각 방법론이 VLA의 한계를 해결하는 방식이 서로 다르다는 점이었다.
1) TraceVLA는 과거 프레임을 그대로 입력하는 대신, 움직임의 흐름을 현재 이미지 위에 Visual trace로 표현하여 로봇이 중요한 변화 정보를 더 쉽게 인식할 수 있도록 했다. 이를 통해 현재 관측만으로는 부족한 시공간적 맥락을 보완할 수 있다는 점이 인상적이었다.
2) CoT-VLA는 바로 행동을 생성하는 것이 아니라, 먼저 가까운 미래의 목표 이미지를 생성하고 이를 바탕으로 행동을 예측한다는 점에서 로봇의 행동 과정에 명시적인 중간 계획 단계를 부여한 접근으로 이해되었다.
3) ThinkAct는 sub-goal 이미지를 직접 생성하는 방식의 느린 추론 속도와, 단순 Q&A 형태의 추론이 실제 로봇 행동과 직접 연결되기 어렵다는 한계를 다룬 방법론이었다. 추론 결과가 단순한 설명으로 끝나는 것이 아니라 실제 행동 계획과 연결되도록 학습한다는 점이 흥미로웠다.
이번 세미나를 통해 VLA 연구에서 중요한 방향이 단순한 행동 예측 성능 향상만이 아니라, 로봇이 현재 상황을 어떻게 이해하고, 앞으로의 상태를 어떻게 계획하며, 그 계획을 실제 행동으로 어떻게 연결할 것인가에 있다는 점을 배울 수 있었다. 나 또한 VLM에 대한 연구를 진행하고 있는데, 강화학습과 VLM을 결합한 연구는 처음 접해 매우 새롭고 흥미롭게 세미나를 들을 수 있었다. 강화학습에 대한 배경지식이 많지 않아 모든 내용을 완벽히 이해하지는 못했지만, 그럼에도 VLA 연구의 큰 흐름과 핵심 아이디어를 흥미롭게 따라갈 수 있었다. 좋은 내용을 준비해주신 허종국 선배님께 감사드리며 세미나 후기를 마친다.
김수림
이번 세미나는 VLA의 기초 개념과 최신 방법론 3가지를 소개하였다. AI의 미래가 점점 실체를 갖추고 인간과 상호작용하는 Physical AI가 중요해지면서, 사전학습된 VLM을 통해 시각과 언어 표현을 이해하고 로봇의 행동을 예측하는 VLA 연구가 발전하고 있다. VLA 연구의 흐름은 크게 메모리를 통한 장기 태스크 수행, 추론 기반 행동 수행, 데이터 효율성을 위한 학습 기법으로 나뉘며, 본 세미나에서는 모델의 추론 능력을 강화해 로봇의 행동을 더 정확하게 예측하는 방법론들이 소개되었다.
TraceVLA는 기존 연구들의 과거 이미지에 대한 시공간 인지 능력 부족이라는 한계를 해결한 논문이다. 로봇의 관절이 과거에 어떻게 움직였는지 파악하는 것이 중요함에도 불구하고, 기존 연구들은 이를 충분히 고려하지 않았다. TraceVLA는 이미지 위에 로봇 움직임의 궤적을 표현하여 시각적 프롬프트로 제공한다. 과거 이미지를 모두 입력하면 토큰 수가 증가하고 현재 이미지와 중복될 수 있기 때문에, CoTracker를 통해 선별한 active point로 과거 이동 궤적을 이미지에 그려 모델에 입력한다. 이를 통해 직전 시간의 움직임을 시각적으로 참고할 수 있으며, 학습된 태스크뿐만 아니라 처음 보는 태스크에서도 뛰어난 일반화 성능을 보였다.
CoT-VLA는 현재 관측과 언어를 바로 행동으로 매핑하여 중간 추론 단계가 부족하다는 기존 연구들의 한계를 해결하였다. 행동을 수행하기 전 미래에 도달할 상태를 먼저 상상하여 sub-goal 이미지를 생성하고, 이를 바탕으로 행동을 예측하는 두 단계 방식을 취한다. 현재 관측으로 sub-goal을 예측하고, 현재 관측과 sub-goal을 함께 활용해 행동을 예측하기 때문에 액션 레이블이 없는 비디오도 학습에 활용할 수 있다는 장점이 있다.
ThinkAct는 명시적인 중간 추론 단계의 부재, sug-goal 생성의 비효율성, QA 기반 추론과 로봇 액션 간의 연결 어려움 등 기존 연구들의 한계를 지적하였다. 이를 해결하기 위해 바로 액션을 출력하는 대신, 중간 추론 결과로 추론 과정 임베딩과 경로 계획 임베딩을 먼저 생성한 뒤 액션 시퀀스를 출력한다. 이러한 방식 덕분에 모델은 무엇을 해야 하는지 먼저 생각한 후, sub-goal보다 더 컴팩트한 중간 표현을 통해 더 정확한 경로를 예측할 수 있었다.
MLLM을 활용하다 보니 로봇의 행동 예측에도 언어 모델의 추론 능력이 중요하고 성능에 영향을 미친다는 점이 흥미로웠다. 혼자 VLA를 공부할 때는 어렵게 느껴졌는데, 이해하기 쉽게 설명해 주셔서 앞으로 더 재밌게 관심 가지고 공부할 수 있을 것 같다. 좋은 세미나를 준비해 주신 허종국 연구원께 감사드리며 후기를 마친다.
정재우
"Advanced Vision-Language-Action Models (Part 1): Enhancing Visual Understanding and Reasoning" 세미나는 VLA 모델의 시각적 이해 및 추론 능력을 강화하는 세 가지 방법론 TraceVLA, CoT-VLA, ThinkAct 를 다룬 내용이었다.
VLA 모델의 기본 구조는 사전 학습된 VLM이 시각/언어 표현을 추출하고, action head를 통해 로봇 제어 명령을 예측하는 형태다. 핵심 문제는 단순히 현재 관측을 행동으로 매핑하는 것을 넘어서, 어떻게 하면 모델이 행동하기 전에 생각하게 만들 수 있는가이며, 세 방법론은 각기 다른 방식으로 이 문제에 접근한 것으로 보인다.
먼저 TraceVLA는 현재 관측만으로는 포착하기 어려운 시공간적 맥락을 visual trace prompting으로 보완한다. CoTracker를 이용해 K×K grid 중심점의 과거 궤적을 추출하고, 위치 변화가 큰 active point M개를 선별해 현재 이미지 위에 겹쳐 그려 넣는 방식이다. 과거 프레임을 그대로 입력하면 토큰 수 증가와 중복 정보 문제가 생기는데, 궤적만을 시각적으로 압축해 제공함으로써 이를 우회한다는 점에 감탄했다. 또한 Ablation 결과를 보면 단순히 history 이미지를 concatenate한 것보다 visual trace를 그려 넣은 방식이 일관되게 높은 성공률을 보였고, 이는 공간적으로 압축된 움직임 정보가 모델이 처리하기 더 용이한 형태임을 시사한다. 조명, 카메라 각도, 배경 변화에 대한 강건성도 함께 입증되었다는 점에서 실용적 가치도 높다고 생각한다.
다음으로 CoT-VLA는 imagine before acting 아이디어를 통해 행동 예측 전에 가까운 미래의 sub-goal 이미지를 먼저 생성하는 구조다. 학습 측면에서 기존 VLA 모델들과 차별화되는 부분이 있는데, 이미지와 행동 레이블이 모두 있는 로봇 시연 데이터로는 action prediction을, 행동 레이블이 없는 일반 비디오 데이터로는 sub-goal generation만을 학습시킴으로써 고비용의 robot demonstration 의존성을 줄인다. 더불어 Sub-goal 이미지는 패치 단위로 auto-regressive하게 생성되고, 이를 참고해 행동 시퀀스는 bi-directional attention으로 생성된다. 여기서 흥미로운 점은 ground-truth sub-goal을 사용했을 때와 생성된 sub-goal을 사용했을 때 성능 차이가 매우 크다는 것인데(Sub-task 1 기준 60% vs 20%), 이는 sub-goal 생성 품질에 따라 모델의 성능이 갈린다는 것이고, 조금 더 강건한 sub-goal 전략이 필요하다고 생각했다. 즉, visual reasoning의 잠재력은 충분하지만 그 잠재력을 실현하려면 생성 모델의 품질 보장이 필수 조건이라는 tradeoff가 존재하는 것 같다.
마지막으로 ThinkAct는 CoT-VLA의 두 가지 한계인, 느린 sub-goal 이미지 생성 속도와 Q&A 기반 추론이 실제 로봇 행동과 직접 연결되기 어렵다는 문제를 visual latent planning으로 해결한다. VLM이 자연어 추론 임베딩과 경로 계획 임베딩을 함께 출력하고, 이를 action module에 입력해 행동 시퀀스를 생성하는 구조다. 이미지를 생성하는 대신 latent space에서 경로를 표현하므로 추론 속도가 빠르고, 생성된 경로가 실제 행동 제어와 직접 연관된다는 점이 핵심으로 이해했다. 학습에는 GRPO 기반 강화학습이 사용되며, 생성된 경로 계획과 실제 시연 경로 사이의 distance를 보상 신호로 활용한다. 모델의 추론 과정 자체에는 별도의 보상을 주지 않아도 결과 기반 보상만으로 논리적 CoT가 자연스럽게 강화된다는 연구 결과도 함께 제시되어 이론적 근거를 뒷받침했다. 또한 Reasoning VLM은 매 N step마다, action model은 매 step마다 동작하도록 비대칭적으로 설계해 실제 로봇 제어 환경에서의 latency 문제를 실용적으로 해소한 점도 인상적이었다.
세 방법론을 비교해보면, TraceVLA는 입력 표현 수준에서의 개선, CoT-VLA는 명시적 중간 상태 생성을 통한 visual planning, ThinkAct는 latent space에서의 암묵적 계획 수립이라는 방향으로 각각 차별화된다. 특히 CoT-VLA에서 ThinkAct로의 흐름은 명시적 이미지 생성이라는 병목을 인지하고 이를 latent representation으로 대체하는 자연스러운 진화처럼 느껴졌다. 한편으로는 latent plan이 해석 가능성 면에서 sub-goal 이미지보다 불투명하다는 tradeoff도 존재하는데, ThinkAct에서 VLM 디코딩을 통해 추론 결과와 경로를 시각화하여 사후 분석에 활용한다는 점이 이를 일부 보완하는 것 같다.
이렇게 행동하기 전에 어떻게 생각하게 만들 것인가라는 공통 질문에 대해 이렇게 다양한 접근이 동시에 시도되고 있다는 점이 흥미로웠고, 강화학습과 VLM을 결합해 embodied reasoning을 강화하는 방향이 앞으로도 중요한 연구 축이 될 것 같다는 생각이 들었다. 최신 VLA 연구 동향과 좋은 내용을 발표해주신 허종국 선배님께 감사드리며 세미나 후기를 마친다.