- 2025년 3월 28일 오전 9:10
- 조회수: 225
INFORMATION
- 2025년 3월 28일
- 오전 9시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
청취자 후기

이번 세미나는 Segment Anything (SAM)의 경량화 모델에 대해 소개하였다. SAM은 Segmentation 계 Foundation 모델로 우수한 Zero-shot 능력을 갖지만, 모델이 매우 커서 온디바이스 등 일반적인 환경에서는 적용하기 어렵다. 이에 본 세미나는 이러한 현실에 쉽게 적용할 수 있는 SAM 경량화 모델 3개를 소개한다.
1) FastSAM: YOLOv8 기반 CNN Backbone에 SAM을 학습한 SA-1B의 2% 데이터로 학습한 것이 전부이다. SAM을 활용한 지식 증류 기법도 없으며, YOLOv8의 적절한 구조 및 SA-1B 데이터의 힘이라고 볼 수 있을 것 같다.
2) MobileSAM: 지식 증류를 활용한다. 이때, Encoder 및 Decoder를 모두 학습 시 비용이 크고 불안정하기 때문에, Encoder에서 나온 Feature만 비교하여 Encoder를 업데이트하는 Decoupled Distillation 기법으로 안정성을 높였다.
3) EfficientSAM: SAMI Pretraining이라는 전략을 도입했다. 이는 SAM을 지식 증류하는 프레임워크이다. 특이한 점은 단순하게 작은 크기의 Student 모델만 활용하는 것이 아닌, 마치 MAE처럼 Masking 된 결과를 복원한 것에 대해서 기존 Teacher 모델의 Output과 비교한다. 세미나에서는 이러한 방식이 추상적인 특징을 더 잘 학습할 수 있다고 말한다.
본 세미나를 통해 SAM 경량화 연구들을 살펴볼 수 있었다. 이제는 모든 모델들이 거대 모델 규모로 나오기에, 이러한 경량화 연구는 필수적이다. 개인적으로는 EfficientSAM처럼 지식 증류하는 방식이 새롭게 다가왔다. 단순하게 Encoder-Decoder 구조가 아닌, 자기지도학습 전략을 저렇게 활용할 수 있다는 점이 새로웠다. 유익한 세미나를 준비해준 이혜승 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.

다양한 segmentation task를 별도 추가 학습 없이 사용할 수 있는 Segment Anytihing (SAM)은 6억개 이상의 파라미터를 갖는 vision transformer 구조이다. 파러미터가 많다 보니 추론 시간이 오래 걸린다는 한계점이 있어 실시간 적용은 어렵다. 이를 해결하기 위한 세가지 경랑화 SAM 연구를 소개해주었다.
FastSAM은 실시간 객체 탐지로 유명한 YOLO v8의 인코더 구조를 활용해 SAM에 비해 성능이 조금 떨어지지만 50배 빠른 속도로 실시간 segmentation이 가능하다. MobileSAM은 SAM을 teacher로 갖는 teacher-student 구조로 encoder에 대해서 distillation을 수행하고 decoder는 상황에 따라 finetuning을 할 수 있도록 구성하여 FastSAM보다도 5배 빠르면서 좋은 성능을 보인다. EfficientSAM은 masking된 입력을 복원한 후, SAM(teacher)의 feature와 비교하는 방식으로 student를 사전학습하고, 이후 downstream task에 finetuning하여 MobileSAM과 유사한 성능이 1.5배 추론 속도를 보인다.
SAM의 경우 다양한 분야에서 사용되고 있는 만큼 잘 알아두면 좋을 것이라고 생각 했었는데 잘 이해할 수 있었고 새삼 효율화를 위한 distillation 연구가 많아지고 있음을 느낄 수 있었다. 좋은 구성으로 세미나 준비해준 혜승이에게 고맙다는 말 전한다.

이번 세미나는 Segment Anything(SAM)의 경량화 방법론에 대한 소개가 이뤄졌다. SAM은 뛰어난 segmentation 성능을 보이지만, 막대한 계산 비용과 큰 모델 사이즈로 인해 저사양 하드웨어에 적용하기 어려운 한계가 존재한다. 특히, SAM 내부 image encoder의 파라미터 수가 6억 개 이상에 달하는 점이 주요 원인으로 지적된다. 이러한 문제를 해결하고자 경량화를 시도한 세 가지 논문이 이번 세미나에서 소개되었다.
1. FastSAM
- SAM의 image encoder를 객체 탐지에 뛰어난 YOLOv8의 백본(CSPNet)로 대체
- 전체 SA-1B 데이터 셋의 2%만을 사용하여 미세 조정
- 결과적으로, 추론 속도 빨라지고 파라미터 수 감소, 성능 비슷
2. MobileSAM
- 지식 증류 사용 (teacher: ViT-based(Large), student: ViT-based(small))
- Decoupled Distillation 사용: teacher와 student 모델에서 도출된 embedding feature에 대한 MSE loss를 통해 지식 전이
- mask decoder는 선택적으로 미세 조정 가능
- 추론 속도 빨라지고, FastSAM보다 성능 개선
3. EfficientSAM
- SAMI 사전학습 사용하여 기존 SAM의 image encoder보다 가벼운 encoder를 학습
- SAMI 사전학습: masking된 입력을 복원하는 task 수행 (mae 방식의 자기지도 학습 적용)
- 이후, SAM의 mask decoder와 결합하여 segmentation 작업을 수행하는 미세조정 진행
이번 세미나에서 SAM 방법론부터 이를 경량화하기 위한 다양한 방법론에 대해 이해할 수 있었다. 좋은 세미나를 준비해준 이혜승 연구원에게 고맙다는 말을 전하며, 이상으로 세미나 후기를 마친다.