고려대학교 DMQA 연구실

From Referring to Reasoning: The Evolution of Video Object Segmentation

2026년 6월 12일 오전 10:12
조회수: 126

REFERENCES

[260612_DMQA_OpenSeminar]_Referring_to_Reasoning_VOS_안채원.pdf

INFORMATION

2026년 6월 12일
오전 12시 10분 ~
온라인 비디오 시청 (YouTube)

발표자:

안채원

TOPIC

From Referring to Reasoning: The Evolution of Video Object Segmentation

On-Line Video

OVERVIEW

요약:

Video Object Segmentation(VOS)은 비디오 내 특정 객체를 프레임 단위로 분할하고 추적하는 기술로, 자율주행, 로봇, 영상 편집 등 다양한 분야에서 활용되고 있다. 최근 대규모 비디오 데이터와 멀티모달 모델의 발전에 따라, 단순히 객체를 추적하는 것을 넘어 언어 질의를 기반으로 객체를 이해하고 분할하는 연구가 활발히 진행되고 있다.

본 세미나에서는 자연어로 명시적으로 지시된 객체를 분할하는 Referring Video Object Segmentation(RVOS)와, 공간적·시간적 관계 및 사건에 대한 이해를 바탕으로 추론이 필요한 객체를 분할하는 Reasoning Video Object Segmentation(ReasonVOS)의 개념 및 발전 과정을 소개한다. 특히 기존 RVOS가 복잡한 추론이 필요한 질의를 처리하는 데 한계를 보임에 따라 ReasonVOS가 등장하게 된 배경을 살펴보고, 최근 비디오 객체 분할 연구가 단순 참조(referring)에서 추론(reasoning) 중심으로 발전하는 흐름과 주요 방법론을 소개한다.

참고자료

[1] Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., & Zagoruyko, S. (2020). End-to-end object detection with transformers. Proceedings of the European Conference on Computer Vision, 213–229.

[2] Wu, J., Jiang, Y., Sun, P., Yuan, Z., & Luo, P. (2022). Language as queries for referring video object segmentation. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 4480–4490.

[3] Cheng, H. K., Tai, Y. W., & Tang, C. K. (2022). XMem: Long-term video object segmentation with an atkinson-shiffrin memory model. Proceedings of the European Conference on Computer Vision, 640–658.

[4] Kirillov, A., Mintun, E., Ravi, N., Mao, H., Rolland, C., Gustafson, L., Xiao, T., Whitehead, S., Berg, A. C., Lo, W. Y., Dollár, P., & Girshick, R. (2023). Segment anything. Proceedings of the IEEE/CVF International Conference on Computer Vision, 4015–4026.

[5] Lai, X., Tian, Z., Chen, Y., Li, Y., Yuan, Y., Liu, S., & Jia, J. (2024). LISA: Reasoning segmentation via large language model. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 9579–9589.

[6] Ravi, N., Gabeur, V., Hu, Y. T., Hu, R., Ryali, C., Ma, T., Khedr, H., Rädle, R., Rolland, C., Gustafson, L., Mintun, E., Pan, J., Alwala, K. V., Carion, N., Wu, C. Y., Girshick, R., Dollár, P., & Feichtenhofer, C. (2024). SAM 2: Segment anything in images and videos. arXiv preprint arXiv:2408.00714.

[7] Yan, C., Wang, H., Yan, S., Jiang, X., Hu, Y., Kang, G., Xie, W., & Gavves, E. (2024). VISA: Reasoning video object segmentation via large language models. Proceedings of the European Conference on Computer Vision.

[8] Gong, S., Zhuge, Y., Zhang, L., Yang, Z., Zhang, P., & Lu, H. (2025). The devil is in temporal token: High quality video reasoning segmentation. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.

[9] Kao, S., Tai, Y., & Tang, C. (2026). CoT-RVS: Zero-shot chain-of-thought reasoning segmentation for videos. International Conference on Learning Representations.

[10] Jin, W., Lee, J., Shin, H., Jang, S., Heo, J., & Kim, S. (2026). AgentRVOS: Reasoning over object tracks for zero-shot referring video object segmentation. arXiv preprint arXiv:2603.23489.

청취자 후기

김혜준

이번 세미나는 Video Object Segmentation(VOS)의 기본 개념에서 출발해, 자연어 기반 객체 분할과 추론 기반 Video Object Segmentation으로 이어지는 연구 흐름을 소개하는 내용이었다. 세미나를 통해 VOS가 단순히 첫 프레임의 mask annotation을 따라 객체를 추적하는 방식에서 벗어나, 자연어로 원하는 객체를 지정하고 더 나아가 모호한 표현까지 해석하는 방향으로 확장되고 있다는 점을 이해할 수 있었다.

세미나에서 다룬 주요 흐름은 다음과 같이 정리할 수 있을 것 같다.

먼저 VOS는 video 내에서 특정 객체를 프레임 단위로 분할하고 추적하는 기술이다. 기존의 semi-supervised VOS는 첫 frame의 mask와 같은 visual annotation을 필요로 했지만, 이러한 annotation을 자연어로 대체하려는 시도에서 Language-guided VOS가 등장했다. 이 과정에서 명확한 text query를 기반으로 객체를 찾는 Referring VOS와, 암시적이고 모호한 query를 이해해야 하는 Reasoning VOS로 연구가 확장되었다는 점이 흥미로웠다.

Referformer는 Referring VOS를 설명하는 대표적인 방법론으로, language를 query로 활용한다는 아이디어가 핵심이었다. 기존 bottom-up 방식은 언어와 시각 정보를 feature 수준에서 결합하기 때문에 어떤 객체를 찾아야 하는지에 대한 명확한 개념이 부족했고, top-down 방식은 segmentation과 grounding이 분리되어 있어 계산 비용이 크다는 한계가 있었다. Referformer는 DETR의 object query 구조를 활용해 언어 정보를 객체 탐색 과정에 직접 반영함으로써, 모델이 처음부터 자연어가 지칭하는 객체에 집중할 수 있도록 만든다는 점에서 의미가 있었다.

이후 VISA는 Reasoning VOS task를 제안하며, 단순한 vision-language alignment만으로는 해결하기 어려운 문제를 MLLM의 reasoning 능력으로 풀고자 했다. Text-guided Frame Sampler를 통해 중요한 keyframe을 선택하고, MLLM이 추론한 객체 정보를 token에 압축한 뒤 SAM과 XMem을 활용해 mask decoding과 tracking을 수행하는 구조였다. 다만 하나의 token만으로 전체 video의 시공간 정보를 충분히 표현하기 어렵고, keyframe selection과 segmentation/propagation이 서로 분리되어 있다는 한계도 함께 확인할 수 있었다.

마지막으로 VRS-HQ는 VISA의 한계를 보완하기 위해 token뿐만 아니라 temporal 정보를 담는 token을 함께 사용했다. 각 frame의 spatial 정보와 전체 video의 temporal context를 동시에 고려하고, Temporal Dynamic Aggregation과 Token-driven Keyframe Selection을 통해 더 적절한 keyframe을 선택하는 방식이 인상적이었다. 특히 SAM2를 활용해 segmentation과 propagation을 보다 통합적으로 처리하려는 흐름은 Reasoning VOS가 단순히 “어떤 객체를 분할할 것인가”를 넘어, “왜 그 객체가 대상인가”를 이해하는 방향으로 발전하고 있음을 보여주었다.

이번 세미나는 VOS의 기본 개념부터 Referring VOS, Reasoning VOS, 그리고 최신 high-quality video reasoning segmentation 연구까지 자연스럽게 연결해 주어 분야의 전체적인 흐름을 이해하는 데 많은 도움이 되었다. 특히 각 방법론이 어떤 문제 의식에서 등장했고, 이전 연구의 한계를 어떻게 보완하려 했는지를 중심으로 설명해 주어 단순한 논문 소개보다 훨씬 이해하기 쉬웠다. 좋은 세미나를 준비하느라 고생한 안채원 연구원에게 감사하다는 말과 함께 본 세미나 후기를 마친다.