- 2026년 4월 30일 오후 8:48
- 조회수: 100
INFORMATION
- 2026년 5월 1일
- 오전 9시 ~
온라인 비디오 시청 (YouTube)
김현이
TOPIC
On-Line Video
OVERVIEW
요약:
Image segmentation은 이미지 속 객체의 위치와 형태를 정확하게 구분하는 중요한 문제로, 그동안 다양한 vision 기반 모델들이 활용되어 왔다. 하지만 기존 모델들은 특정 태스크에 맞춘 학습이 필요하거나, 입력 방식이 제한적이라는 한계를 가진다. 이를 해결하기 위해 다양한 입력에 유연하게 대응할 수 있는 범용 segmentation 모델인 SAM(Segment Anything Model)이 제안되었으며, 이후 비디오까지 확장된 SAM2가 등장하였다. 최근에는 이러한 흐름을 넘어, 텍스트 기반의 개념 이해까지 포함하여 보다 일반화된 segmentation을 수행할 수 있는 SAM3가 제안되었다. 본 세미나에서는 SAM1과 SAM2의 기본 개념을 간단히 살펴본 뒤, SAM3의 핵심 아이디어와 구조를 중심으로 설명하고, 나아가 SAM3를 기반으로 한 agent 구조까지 어떻게 확장될 수 있는지 소개한다.
참고자료
[1] Kirillov, A., Mintun, E., Ravi, N., Mao, H., Rolland, C., Gustafson, L., ... & Girshick, R. (2023). Segment anything. In Proceedings of the IEEE/CVF international conference on computer vision (pp. 4015-4026).
[2] Ravi, N., Gabeur, V., Hu, Y.-T., Hu, R., Ryali, C., Ma, T., … & Feichtenhofer, C. (2025). SAM 2: Segment Anything in images and videos. In *Proceedings of the International Conference on Learning Representations (ICLR)*.
[4] Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., & Zagoruyko, S. (2020, August). End-to-end object detection with transformers. In European conference on computer vision (pp. 213-229). Cham: Springer International Publishing.
[5] Bolya, D., Huang, P.-Y., Sun, P., Cho, J. H., Madotto, A., Wei, C., … & Feichtenhofer, C. (2026). Perception encoder: The best visual embeddings are not at the output of the network. In *Advances in Neural Information Processing Systems (NeurIPS)*.
청취자 후기
박성수
이번 세미나는 이미지와 비디오 segmentation의 패러다임을 바꾼 SAM 시리즈 중 하나인 SAM 3를 주제로 진행되었다. SAM 1이 제로샷 프롬프트의 가능성을 증명하고 SAM 2가 비디오 도메인의 시간적 일관성으로 확장했다면, 이번 세미나에서 다룬 SAM 3는 '개념'이라는 고차원적인 언어적 이해를 시각 정보와 어떻게 결합했는지를 보여주었다.
SAM 3의 특징은 아래와 같이 정리할 수 있을 것 같다.
기존 모델들이 어디에 객체가 있는지 식별하는 데 집중을 했지만 SAM 3는 텍스트 기반의 의미 정보와 결합하여 모델이 무엇을 segmentation하고 있는지와 그 객체가 맥락 속에서 어떤 의미를 갖는지 파악하는 능력을 보여주었다.
Perception encoder를 통해 좋은 시각적 임베딩을 만들고, DETR 계열의 transformer 구조를 통해 객체 탐지와 segmentation을 연결한다. 특히 네트워크 최종 출력층의 추상화된 정보에만 의존하지 않고, 중간층의 풍부한 시각적 특징을 활용한 점이 인상적이었다. 이것은 텍스트 기반의 고차원 개념과 픽셀 단위의 정교한 마스크 추출을 동시에 달성하기 위한 좋은 방법이라는 생각이 들었다.
추가적으로 시각적인 이해를 통해서 의사결정을 내리는 에이전트 구조로의 확장할 수 있는 가능성을 보여주었다. 개인적으로 이것은 시각 지능이 실제 환경에서 능동적으로 상호작용할 수 있는 범용적인 AI로 가는 중요한 지능이라고 생각한다.
SAM 시리즈의 흐름과 최신 SAM 3의 에이전트 확장성까지 하나의 흐름으로 정리해 준 덕분에 비전 분야의 흐름을 파악할 수 있었다. 특히 논문들의 핵심 아이디어들을 시각적으로 설명해 줘서 이해하기 편했다. 좋은 세미나를 준비하느라 고생한 김현이 연구원에게 뜨거운 박수를 보내며 본 세미나 후기를 마친다.
김수림
본 세미나는 텍스트와 이미지를 기반으로 segmentation할 수 있는 파운데이션 모델인 SAM 3를 소개했다.
SAM 1은 사용자가 직접 포인트나 박스를 입력하는 promptable segmentation을 가능하게 했고 SAM 2는 이를 비디오 도메인으로 확장해 시간적 일관성을 확보했다. SAM 3는 여기서 출발해 "위치 정보가 아닌 개념만으로 객체를 찾을 수 없을까?"라는 질문에 답한다.
SAM 3는 시각적 특징을 추출하는 Perception Encoder를 먼저 학습시킨 뒤, 텍스트와 실제 객체를 매칭하는 미세조정 과정을 거쳤다. 추론 과정에서는 DETR 기반의 내부 디텍터를 활용하는데, 기존처럼 모든 위치를 순차적으로 탐색하는 방식이 아니라 이미지 전체를 한 번에 보고 객체를 탐지한다. 또한 개념 기반으로 객체의 존재 여부를 먼저 확인한 뒤 위치를 특정하는 순서로 처리해 효율성을 높였다.
다만 SAM 3는 아직 명사구 수준의 텍스트에만 의존하기 때문에 추상적이거나 복잡한 표현이 입력되면 탐지 성능이 떨어지는 한계가 있다. 이를 보완하기 위해 제안된 SAM 3 Agent는 MLLM을 결합한 구조로, LLM이 먼저 입력 텍스트를 추론해 명확한 개념으로 변환하면 SAM 3가 해당 객체를 탐지하는 방식이다. 텍스트 기반 비전 모델에 LLM을 결합하는 흐름은 이제 자연스러운 수순이 된 것 같고 현실 세계에서의 적용 가능성도 한층 넓어질 것으로 보인다.
차분한 목소리로 끝까지 설명해 줘서 듣는 동안 편안하게 시청할 수 있었다. SAM 1부터 SAM 3까지 흐름을 이해하기 쉽게 정리해 준 김현이 연구원에게 고맙다는 말을 전하며 세미나 후기를 마친다.