- 2026년 4월 30일 오후 8:48
- 조회수: 559
INFORMATION
- 2026년 5월 1일
- 오전 9시 ~
온라인 비디오 시청 (YouTube)
김현이
TOPIC
On-Line Video
OVERVIEW
요약:
Image segmentation은 이미지 속 객체의 위치와 형태를 정확하게 구분하는 중요한 문제로, 그동안 다양한 vision 기반 모델들이 활용되어 왔다. 하지만 기존 모델들은 특정 태스크에 맞춘 학습이 필요하거나, 입력 방식이 제한적이라는 한계를 가진다. 이를 해결하기 위해 다양한 입력에 유연하게 대응할 수 있는 범용 segmentation 모델인 SAM(Segment Anything Model)이 제안되었으며, 이후 비디오까지 확장된 SAM2가 등장하였다. 최근에는 이러한 흐름을 넘어, 텍스트 기반의 개념 이해까지 포함하여 보다 일반화된 segmentation을 수행할 수 있는 SAM3가 제안되었다. 본 세미나에서는 SAM1과 SAM2의 기본 개념을 간단히 살펴본 뒤, SAM3의 핵심 아이디어와 구조를 중심으로 설명하고, 나아가 SAM3를 기반으로 한 agent 구조까지 어떻게 확장될 수 있는지 소개한다.
참고자료
[1] Kirillov, A., Mintun, E., Ravi, N., Mao, H., Rolland, C., Gustafson, L., ... & Girshick, R. (2023). Segment anything. In Proceedings of the IEEE/CVF international conference on computer vision (pp. 4015-4026).
[2] Ravi, N., Gabeur, V., Hu, Y.-T., Hu, R., Ryali, C., Ma, T., … & Feichtenhofer, C. (2025). SAM 2: Segment Anything in images and videos. In *Proceedings of the International Conference on Learning Representations (ICLR)*.
[4] Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., & Zagoruyko, S. (2020, August). End-to-end object detection with transformers. In European conference on computer vision (pp. 213-229). Cham: Springer International Publishing.
[5] Bolya, D., Huang, P.-Y., Sun, P., Cho, J. H., Madotto, A., Wei, C., … & Feichtenhofer, C. (2026). Perception encoder: The best visual embeddings are not at the output of the network. In *Advances in Neural Information Processing Systems (NeurIPS)*.
청취자 후기
박성수
이번 세미나는 이미지와 비디오 segmentation의 패러다임을 바꾼 SAM 시리즈 중 하나인 SAM 3를 주제로 진행되었다. SAM 1이 제로샷 프롬프트의 가능성을 증명하고 SAM 2가 비디오 도메인의 시간적 일관성으로 확장했다면, 이번 세미나에서 다룬 SAM 3는 '개념'이라는 고차원적인 언어적 이해를 시각 정보와 어떻게 결합했는지를 보여주었다.
SAM 3의 특징은 아래와 같이 정리할 수 있을 것 같다.
기존 모델들이 어디에 객체가 있는지 식별하는 데 집중을 했지만 SAM 3는 텍스트 기반의 의미 정보와 결합하여 모델이 무엇을 segmentation하고 있는지와 그 객체가 맥락 속에서 어떤 의미를 갖는지 파악하는 능력을 보여주었다.
Perception encoder를 통해 좋은 시각적 임베딩을 만들고, DETR 계열의 transformer 구조를 통해 객체 탐지와 segmentation을 연결한다. 특히 네트워크 최종 출력층의 추상화된 정보에만 의존하지 않고, 중간층의 풍부한 시각적 특징을 활용한 점이 인상적이었다. 이것은 텍스트 기반의 고차원 개념과 픽셀 단위의 정교한 마스크 추출을 동시에 달성하기 위한 좋은 방법이라는 생각이 들었다.
추가적으로 시각적인 이해를 통해서 의사결정을 내리는 에이전트 구조로의 확장할 수 있는 가능성을 보여주었다. 개인적으로 이것은 시각 지능이 실제 환경에서 능동적으로 상호작용할 수 있는 범용적인 AI로 가는 중요한 지능이라고 생각한다.
SAM 시리즈의 흐름과 최신 SAM 3의 에이전트 확장성까지 하나의 흐름으로 정리해 준 덕분에 비전 분야의 흐름을 파악할 수 있었다. 특히 논문들의 핵심 아이디어들을 시각적으로 설명해 줘서 이해하기 편했다. 좋은 세미나를 준비하느라 고생한 김현이 연구원에게 뜨거운 박수를 보내며 본 세미나 후기를 마친다.
김수림
본 세미나는 텍스트와 이미지를 기반으로 segmentation할 수 있는 파운데이션 모델인 SAM 3를 소개했다.
SAM 1은 사용자가 직접 포인트나 박스를 입력하는 promptable segmentation을 가능하게 했고 SAM 2는 이를 비디오 도메인으로 확장해 시간적 일관성을 확보했다. SAM 3는 여기서 출발해 "위치 정보가 아닌 개념만으로 객체를 찾을 수 없을까?"라는 질문에 답한다.
SAM 3는 시각적 특징을 추출하는 Perception Encoder를 먼저 학습시킨 뒤, 텍스트와 실제 객체를 매칭하는 미세조정 과정을 거쳤다. 추론 과정에서는 DETR 기반의 내부 디텍터를 활용하는데, 기존처럼 모든 위치를 순차적으로 탐색하는 방식이 아니라 이미지 전체를 한 번에 보고 객체를 탐지한다. 또한 개념 기반으로 객체의 존재 여부를 먼저 확인한 뒤 위치를 특정하는 순서로 처리해 효율성을 높였다.
다만 SAM 3는 아직 명사구 수준의 텍스트에만 의존하기 때문에 추상적이거나 복잡한 표현이 입력되면 탐지 성능이 떨어지는 한계가 있다. 이를 보완하기 위해 제안된 SAM 3 Agent는 MLLM을 결합한 구조로, LLM이 먼저 입력 텍스트를 추론해 명확한 개념으로 변환하면 SAM 3가 해당 객체를 탐지하는 방식이다. 텍스트 기반 비전 모델에 LLM을 결합하는 흐름은 이제 자연스러운 수순이 된 것 같고 현실 세계에서의 적용 가능성도 한층 넓어질 것으로 보인다.
차분한 목소리로 끝까지 설명해 줘서 듣는 동안 편안하게 시청할 수 있었다. SAM 1부터 SAM 3까지 흐름을 이해하기 쉽게 정리해 준 김현이 연구원에게 고맙다는 말을 전하며 세미나 후기를 마친다.
송하영
이번 세미나는 김현이 연구원께서 SAM3라는 거대 모델을 주제로 진행하였다.
SAM의 발전 흐름에 대해 다뤘으며, SAM1에서는 segmentation 자체의 성능을 향상시키고자 하는 시도가 이루어졌다. 이때 foundation model의 특성상 대량의 데이터가 필요하며, 실제로 약 11억 개의 mask 데이터를 활용하였다. 또한 사람과 모델이 협업하는 데이터 엔진을 제안하였으며, 이를 통해 foundation model을 구축하였다. 그 결과 다양한 이미지에 대해 segmentation을 수행할 수 있을 뿐만 아니라, promptable segmentation이 가능하도록 모델이 설계되었다. 구조적으로는 Image Encoder와 Prompt Encoder를 통해 이미지와 prompt를 결합하고, 사용자가 특정 위치를 클릭했을 때 해당 영역을 segmentation할 수 있도록 구성되어 있다.
SAM2는 이러한 구조를 확장하여 video에서도 prompt된 객체를 tracking하면서 segmentation을 수행할 수 있도록 발전하였다. 기존 SAM1 구조에 Memory Bank와 Memory Attention을 도입하고, FIFO 구조를 통해 이전 프레임의 정보를 유지함으로써 video에서도 segmentation이 가능하도록 모델링되었다.
SAM3의 등장 배경은 사용자의 prompt, 특히 위치 기반 입력에 대한 한계에서 출발한다. 따라서 최소한의 concept 정보만으로도 segmentation을 수행할 수 있을지에 대한 문제에서 시작되었다. 실제로 SAM3는 간단한 텍스트 또는 이미지 기반 개념 입력만으로도 전체 이미지 내에서 해당 개념에 해당하는 모든 객체를 탐색할 수 있으며, 이를 promptable concept segmentation (PCS)이라고 한다. 해당 PCS가 SAM3의 핵심이라고 이해하였다. PCS 방식에서는 입력된 개념과 유사한 대상을 먼저 찾는 과정을 수행한다. 이 과정에서 DETR 구조를 활용하여 이미지 전체에서 해당 개념과 일치하는 객체를 탐색한다. 추가적으로 presence head를 통해 이미지 전체를 기반으로 해당 개념이 존재하는지를 먼저 판단하고, 이후 DETR를 통해 해당 개념이 위치한 영역을 추정한다. 이후에는 SAM2와 유사하게 Memory Bank를 활용하여 위치 정보를 지속적으로 유지한다. 또한 Perception Encoder는 이미지와 텍스트라는 서로 다른 도메인을 이해하고 연결하기 위해 설계된 모듈이다. 특히 SAM3에서는 텍스트 기반 입력과 video(이미지의 연속) 간의 도메인 차이를 고려해야 하기 때문에, 이러한 모듈이 필요하다.
이러한 구조를 통해 SAM3는 다양한 video 환경에서도 단순한 개념 입력만으로 segmentation이 가능하다는 장점을 가지며, 여러 task로의 확장 가능성도 높다고 볼 수 있다. 실제로 본인의 프로젝트에서도 SAM3를 적극적으로 활용중이며, 다양한 부분에서 활용 가능성이 크다고 느꼈다. 실질적으로 활용도가 높은 SAM3에 대해 김현이 연구원께서 쉽게 설명해주셔서 이해하기 수월했으며, 처음 접하는 사람도 쉽게 이해할 수 있도록 설명하기 위해서는 몇배로 깊이 알아야 설명 또한 쉽게 할텐데 그간의 노력이 느껴지는 세미나였다. 이러한 좋은 세미나를 소개해주신 김현이 연구원께 깊은 감사의 인사를 전하며 세미나 후기를 마친다
이정민
이번 세미나는 이번 ICLR에 발표된 SAM3에 대해 소개해주었다. 기존 SAM, SAM2는 사실 위치를 지정해줘야 한다는 점에서 큰 한계점을 가지고 있었는데, 이를 극복하고자 나온 것이 SAM3이다. Detector를 통해 위치를 지정해줄 필요 없이 개념 기반으로 객체 위치를 탐색하며, tracker를 통해 시간 축에서 객체를 지속적으로 추적할 수 있도록 한다. 사전 학습 방식에서는 역시나 DiNo와 같이 데이터 품질이 중요하게 작용하는 것 같다. 특히 요즘 많이 떠오르는 MLLM과 결합하여 다양한 방식으로 활용 가능하다는 점도 큰 강점으로 보인다.
비디오 데이터를 활용한 multi-task learning 연구를 하고 있었는데, segmentation을 앞단에 적용하는 과정에서 어려움을 겪었던 경험이 있었어서 이번 세미나를 자세히 보게 되었다. SAM부터 SAM3까지 흐름이 잘 이어져서 이해하는데 큰 도움이 되었고 현이가 첫 세미나인데도 차분하게 잘 설명해준 것 같다. 좋은 세미나를 만드느라 고생한 현이에게 고맙다는 말을 전하며 본 세미나 후기를 마친다.
허종국
금일 세미나는 segment anything (SAM) 의 v1부터 v3까지에 대해 간략하게 살펴보았다.
SAM-v1은 포인터, 박스 등의 프롬프트를 입력받아 단일 이미지에서 원하는 객체를 instance/semantic segmentation 할 수 있는 모델이다. SAM-v1은 파운데이션 모델로써, 학습하기 위해서는 대량의 이미지-segmentation mask 쌍이 필요한데, 이러한 비용을 줄이기 위해 사람과 모델이 협력하는 data engine 방식을 활용하였다. 결과론적으로 전체 데이터셋 중 99%는 segmentation mask를 자동 생성하였으며, 1%정도만 사람이 직접 검수하였다고 한다.
SAM-v2는 단일 이미지를 넘어 비디오 단위에서 일관된 객체 탐지를 수행하기 위해 memory bank 및 memory attention을 적용한 모델이다. Memory bank는 최근 프레임에서 객체의 의미 및 공간 정보를 담고 있는 역할이며, memory attention은 현재 입력 프레임과 이전 프레임의 정보를 비교하면서 동일한 객체를 찾는 역할을 수행하고자 하였다. Memory attention은 크게 2가지로 구성 되어있는데, self-attention은 현재 프레임 내의 픽셀 간의 관계를 포착하는 역할이고, cross attention은 현재 픽셀과 memory bank 내의 정보와 비교하는 역할이다.
SAM-v3는 텍트느아 이미지 예시 기반 개념(concept)을 입력하여 해당 개념에 해당하는 "모든" 객체를 탐지할 수 있는 모델이다. 이때, concept에 해당하는 객체를 탐지하기 위해서 "detector"라는 모델이 추가적으로 도입된다. DETR 기반의 detector는 입력된 컨셉과 유사한 객체를 탐지한 후, memory bank에 특징을 저장한다. 이후, tracker가 SAM-v2에서 나온 memory attention을 통해 탐지된 객체의 mask를 시간축에 따라 추적한다. 이때, concept과 image 간의 특징 유사도를 높이기 위해, perception encoder를 대조학습하는 단계가 추가된다.
SAM의 발전 과정에 따른 핵심 요소의 차이를 간결하게 설명해준 세미나였다. 특히, SAM-v1과 v3에 대해 데이터셋 구축 파이프라인을 어떻게 구축했는지에 대해 단계별로 자세히 설명되어 있는데, 파운데이션 모델을 학습하기 위한 대량의 데이터셋 구축이 어려울 때쯤 가이드라인으로 참고하기 매우 좋은 것 같다. 실제 인간 annotator 의 레이블링 및 검증만으로는 이러한 모델을 구축할 수 없다. 다른 파운데이션 모델을 활용해 데이터를 레이블링하고 검수하는 과정이 요즘 학습의 트렌드인 것 같다. 좋은 세미나를 만들어준 김현이 연구원에게 감사의 말을 전한다.
장성호
금일 세미나는 Meta에서 제안한 segmentation foundation model 계열인 SAM1, SAM2 그리고 최신 SAM3에 대해 다루었다.
SAM1은 대규모 데이터셋(SA-1B)을 기반으로 학습된 promptable segmentation 모델로, point/box/mask와 같은 입력을 활용해 다양한 이미지에서 객체를 segmentation할 수 있는 foundation model이라는 점이 인상적이었다. 특히 사람과 모델이 협업하는 data engine 구조로 1,100만 장이 넘는 이미지를 구축했다는 점이 흥미로웠다.
SAM2에서는 기존 이미지 segmentation을 비디오 영역까지 확장하여, 이전 프레임 정보를 memory bank에 저장하고 memory attention을 통해 객체를 지속적으로 추적하는 구조를 소개하였다. 단순 segmentation이 아니라 시간 정보까지 고려하는 tracking이 추가되었다는 점이 추가되었다.
SAM3는 기존 SAM1·SAM2가 위치 기반 prompt에 의존한다는 한계를 해결하기 위해 등장한 모델로, 텍스트나 exemplar image 기반 개념(concept)만으로 객체를 탐색하고 segmentation할 수 있다는 점이 가장 인상 깊었다. 개념으로 해당 장면에서 객체를 이해하고 찾는 다는 점이 흥미롭게 느껴졌다.
이번 세미나를 통해 최신 segmentation foundation model의 흐름을 이해할 수 있었으며 어렵고 많은 내용을 예시와 함께 잘 정리해준 현이에게 감사의 말을 남기며 세미나 청취 후기를 마친다.
강동훈
이번 세미나는 김현이 연구원께서 SAM3: Segment Anything with Concepts를 주제로 진행해주었다.
기존 SAM 시리즈의 흐름을 따라가며 SAM3가 왜 등장했는지 이해할 수 있었다. SAM1은 point, box, mask와 같은 위치 기반 prompt를 통해 사용자가 지정한 객체를 segmentation할 수 있도록 하였고, SAM2는 이를 video domain으로 확장하여 이전 frame의 정보를 Memory Bank와 Memory Attention을 통해 활용함으로써 시간적으로 일관된 object tracking과 segmentation을 가능하게 하였다. 하지만 SAM1과 SAM2는 결국 사용자가 “어디를 볼지”를 어느 정도 알려주어야 한다는 한계를 가지고 있었다.
SAM3는 이러한 한계에서 출발하여, 위치 정보가 아닌 개념만으로 객체를 찾고 segmentation할 수 있는 Promptable Concept Segmentation을 제안한다는 점이 인상적이었다. 단순히 클릭한 위치의 객체를 자르는 것이 아니라, 모델이 입력된 개념을 이해하고 장면 속에서 해당 객체들을 찾아낸다는 점에서 기존 SAM 계열 모델보다 한 단계 더 확장된 문제를 다룬다고 느꼈다.
구조적으로는 Detector와 Tracker의 역할이 잘 구분되어 있었다. Detector는 text encoder와 image encoder를 통해 주어진 개념과 시각 정보를 연결하고, DETR 기반 구조를 활용하여 이미지 전체에서 해당 개념에 맞는 객체 위치를 탐색한다. 이후 Tracker는 SAM2와 유사하게 Memory Bank를 활용하여 video frame 간 객체 정보를 유지하고 추적한다. 이를 통해 SAM3는 concept 기반 object localization, segmentation, tracking을 하나의 흐름으로 연결할 수 있었다.
또한 SAM3의 학습 과정과 data engine 부분도 흥미로웠다. 대규모 이미지-텍스트 데이터를 활용하여 Perception Encoder를 학습하고, 이후 concept-based localization과 segmentation, refinement, video tracking으로 이어지는 단계적 학습 구조가 잘 정리되어 있었다. 특히 다양한 명사구 개념과 mask 데이터를 구축하기 위해 AI verifier와 인간 검증을 함께 활용하는 방식은 foundation model에서 데이터 품질이 얼마나 중요한지를 알 수 있었다.
이번 세미나를 통해 SAM1에서 SAM2, 그리고 SAM3로 이어지는 발전 흐름을 자연스럽게 이해할 수 있었다. 특히 기존의 위치 기반 segmentation에서 개념 기반 segmentation으로 확장되는 과정이 직관적으로 설명되어 있어 비전 모델이 단순한 픽셀 단위 예측을 넘어 언어적 의미와 결합하는 방향으로 발전하고 있음을 느낄 수 있었다. 어려운 내용을 차분하고 이해하기 쉽게 설명해주신 김현이 연구원께 감사드리며, 좋은 세미나를 준비하느라 고생 많으셨다는 말을 전하고 싶다.