Advanced Vision-Language-Action Models (Part 1): Enhancing Visual Understanding and Reasoning
- 2026년 5월 8일 오전 9:09
- 조회수: 60
INFORMATION
- 2026년 5월 8일
- 오전 9시 ~
온라인 비디오 시청 (YouTube)
발표자:
허종국
허종국
TOPIC
Advanced Vision-Language-Action Models (Part 1): Enhancing Visual Understanding and Reasoning
On-Line Video
OVERVIEW
요약: Vision-language-action (VLA) 모델은 거대 언어 모델 및 멀티 모달 모델의 발전에 힘입어 언어 지시를 이해하고 다양한 로봇 태스크를 수행하는 데 있어 눈부신 성과를 보이고 있다. 그러나 이미지와 자연어를 입력받아 행동을 직접 출력하는 기존 VLA 방식은 공간에 대한 이해, 복잡한 추론, 다단계 계획이 요구되는 상황에서 한계를 드러낸다. 이번 세미나에서는 이러한 한계를 극복하기 위해 visual trace, chain-of-though (CoT), latent planning 등 다양한 추론 강화 기법을 VLA에 접목한 최신 연구들을 살펴보고, 추론 능력이 복잡한 태스크에서 로봇 정책의 성능과 일반화에 어떤 영향을 미치는지 살펴보고자 한다.
참고자료
[1] Zheng, R., Liang, Y., Huang, S., Gao, J., Daumé III, H., Kolobov, A., ... & Yang, J. TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies. In The Thirteenth International Conference on Learning Representations.
[2] Zhao, Q., Lu, Y., Kim, M. J., Fu, Z., Zhang, Z., Wu, Y., ... & Xiang, D. (2025). Cot-vla: Visual chain-of-thought reasoning for vision-language-action models. In Proceedings of the Computer Vision and Pattern Recognition Conference (pp. 1702-1713).
[3] Huang, C. P., Wu, Y. H., Chen, M. H., Wang, Y. C. F., & Yang, F. E. ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning. In The Thirty-ninth Annual Conference on Neural Information Processing Systems.