고려대학교 DMQA 연구실

Advanced Vision-Language-Action Models (Part 1): Enhancing Visual Understanding and Reasoning

2026년 5월 8일 오전 9:09
조회수: 60

REFERENCES

[20260508 DMQA Open Seminar] VLA_part1_enhancing_visual_understanding_and_reasoning-clean.pdf

INFORMATION

2026년 5월 8일
오전 9시 ~
온라인 비디오 시청 (YouTube)

발표자:

허종국

TOPIC

Advanced Vision-Language-Action Models (Part 1): Enhancing Visual Understanding and Reasoning

On-Line Video

OVERVIEW

요약: Vision-language-action (VLA) 모델은 거대 언어 모델 및 멀티 모달 모델의 발전에 힘입어 언어 지시를 이해하고 다양한 로봇 태스크를 수행하는 데 있어 눈부신 성과를 보이고 있다. 그러나 이미지와 자연어를 입력받아 행동을 직접 출력하는 기존 VLA 방식은 공간에 대한 이해, 복잡한 추론, 다단계 계획이 요구되는 상황에서 한계를 드러낸다. 이번 세미나에서는 이러한 한계를 극복하기 위해 visual trace, chain-of-though (CoT), latent planning 등 다양한 추론 강화 기법을 VLA에 접목한 최신 연구들을 살펴보고, 추론 능력이 복잡한 태스크에서 로봇 정책의 성능과 일반화에 어떤 영향을 미치는지 살펴보고자 한다.

참고자료

[1] Zheng, R., Liang, Y., Huang, S., Gao, J., Daumé III, H., Kolobov, A., ... & Yang, J. TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies. In The Thirteenth International Conference on Learning Representations.

[2] Zhao, Q., Lu, Y., Kim, M. J., Fu, Z., Zhang, Z., Wu, Y., ... & Xiang, D. (2025). Cot-vla: Visual chain-of-thought reasoning for vision-language-action models. In Proceedings of the Computer Vision and Pattern Recognition Conference (pp. 1702-1713).

[3] Huang, C. P., Wu, Y. H., Chen, M. H., Wang, Y. C. F., & Yang, F. E. ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning. In The Thirty-ninth Annual Conference on Neural Information Processing Systems.