- 2026년 6월 12일 오전 10:12
- 조회수: 126
INFORMATION
- 2026년 6월 12일
- 오전 12시 10분 ~
온라인 비디오 시청 (YouTube)
안채원
TOPIC
On-Line Video
OVERVIEW
[1] Carion, N., Massa, F., Syn
[2] Wu, J., Jiang, Y., Sun, P., Yuan, Z., & Luo, P. (2022). Language as queries fo
[3] Cheng, H. K., Tai, Y. W., & Tang, C. K. (2022). XMem: Long-term video
[4] Kirillov, A., Mintun, E.,
[5] Lai, X., Tian, Z., Chen, Y
[6] Ravi, N., Gabeur, V., Hu,
[7] Yan, C., Wang, H., Yan, S., Jiang,
[8] Gong, S., Zhuge, Y., Zhang
[9] Kao, S., Tai, Y., & Tang, C. (2026). CoT-RVS: Zero-shot cha
[10] Jin, W., Lee, J., Shin, H., Jang, S., H
청취자 후기
김혜준
이번 세미나는 Video Object Segmentation(VOS)의 기본 개념에서 출발해, 자연어 기반 객체 분할과 추론 기반 Video Object Segmentation으로 이어지는 연구 흐름을 소개하는 내용이었다. 세미나를 통해 VOS가 단순히 첫 프레임의 mask annotation을 따라 객체를 추적하는 방식에서 벗어나, 자연어로 원하는 객체를 지정하고 더 나아가 모호한 표현까지 해석하는 방향으로 확장되고 있다는 점을 이해할 수 있었다.
세미나에서 다룬 주요 흐름은 다음과 같이 정리할 수 있을 것 같다.
먼저 VOS는 video 내에서 특정 객체를 프레임 단위로 분할하고 추적하는 기술이다. 기존의 semi-supervised VOS는 첫 frame의 mask와 같은 visual annotation을 필요로 했지만, 이러한 annotation을 자연어로 대체하려는 시도에서 Language-guided VOS가 등장했다. 이 과정에서 명확한 text query를 기반으로 객체를 찾는 Referring VOS와, 암시적이고 모호한 query를 이해해야 하는 Reasoning VOS로 연구가 확장되었다는 점이 흥미로웠다.
Referformer는 Referring VOS를 설명하는 대표적인 방법론으로, language를 query로 활용한다는 아이디어가 핵심이었다. 기존 bottom-up 방식은 언어와 시각 정보를 feature 수준에서 결합하기 때문에 어떤 객체를 찾아야 하는지에 대한 명확한 개념이 부족했고, top-down 방식은 segmentation과 grounding이 분리되어 있어 계산 비용이 크다는 한계가 있었다. Referformer는 DETR의 object query 구조를 활용해 언어 정보를 객체 탐색 과정에 직접 반영함으로써, 모델이 처음부터 자연어가 지칭하는 객체에 집중할 수 있도록 만든다는 점에서 의미가 있었다.
이후 VISA는 Reasoning VOS task를 제안하며, 단순한 vision-language alignment만으로는 해결하기 어려운 문제를 MLLM의 reasoning 능력으로 풀고자 했다. Text-guided Frame Sampler를 통해 중요한 keyframe을 선택하고, MLLM이 추론한 객체 정보를
마지막으로 VRS-HQ는 VISA의 한계를 보완하기 위해
이번 세미나는 VOS의 기본 개념부터 Referring VOS, Reasoning VOS, 그리고 최신 high-quality video reasoning segmentation 연구까지 자연스럽게 연결해 주어 분야의 전체적인 흐름을 이해하는 데 많은 도움이 되었다. 특히 각 방법론이 어떤 문제 의식에서 등장했고, 이전 연구의 한계를 어떻게 보완하려 했는지를 중심으로 설명해 주어 단순한 논문 소개보다 훨씬 이해하기 쉬웠다. 좋은 세미나를 준비하느라 고생한 안채원 연구원에게 감사하다는 말과 함께 본 세미나 후기를 마친다.