고려대학교 DMQA 연구실

Lightweight Segment Anything: FastSAM, MobileSAM, EfficientSAM

2025년 3월 28일 오전 9:10
조회수: 1445

REFERENCES

[250328]Open_DMQA_Seminar_Lightweight-Segment-Anything.pdf

INFORMATION

2025년 3월 28일
오전 9시 ~
온라인 비디오 시청 (YouTube)

발표자:

이혜승

TOPIC

Lightweight Segment Anything: FastSAM, MobileSAM, EfficientSAM

On-Line Video

OVERVIEW

요약:

Segment Anything(SAM)은 범용 객체 분할을 목표로 하는 대표적인 vision foundation model로, 다양한 이미지에 대해 뛰어난 분할 성능을 보여주며 주목받고 있다. 그러나 높은 연산량과 모델 크기로 인해 실시간 응용이나 디바이스 환경에서는 적용에 어려움이 존재하며, 이에 따라 SAM을 보다 효율적으로 활용하기 위한 경량화 연구가 활발히 진행되고 있다. 이번 세미나에서는 SAM 경량화의 필요성을 중심으로, FastSAM, MobileSAM, EfficientSAM을 소개하고, 주요 접근 방식인 백본 교체(CNN 기반), Knowledge Distillation 기법들을 소개하고자 한다. 참고자료: [1] Kirillov, A., Mintun, E., Ravi, N., Mao, H., Rolland, C., Gustafson, L., ... & Girshick, R. (2023). Segment Anything. Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2023, pp. 4015–4026 [2] Xiong, Y., Varadarajan, B., Wu, L., Xiang, X., Xiao, F., Zhu, C., ... & Chandra, V. (2024). EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024, pp. 16111–16121 [3] Zhao, X., Ding, W., An, Y., Du, Y., Yu, T., Li, M., ... & Wang, J. (2023). Fast Segment Anything. arXiv preprint arXiv:2306.12156 [4] Zhang, C., Han, D., Qiao, Y., Kim, J. U., Bae, S.-H., Lee, S., & Hong, C. S. (2023). Faster Segment Anything: Towards Lightweight SAM for Mobile Applications. arXiv preprint arXiv:2306.14289 [5] He, K., Chen, X., Xie, S., Li, Y., Dollár, P., & Girshick, R. (2022). Masked Autoencoders Are Scalable Vision Learners. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022, pp. 16000–16009

청취자 후기

김성수

이번 세미나는 Segment Anything (SAM)의 경량화 모델에 대해 소개하였다. SAM은 Segmentation 계 Foundation 모델로 우수한 Zero-shot 능력을 갖지만, 모델이 매우 커서 온디바이스 등 일반적인 환경에서는 적용하기 어렵다. 이에 본 세미나는 이러한 현실에 쉽게 적용할 수 있는 SAM 경량화 모델 3개를 소개한다.

1) FastSAM: YOLOv8 기반 CNN Backbone에 SAM을 학습한 SA-1B의 2% 데이터로 학습한 것이 전부이다. SAM을 활용한 지식 증류 기법도 없으며, YOLOv8의 적절한 구조 및 SA-1B 데이터의 힘이라고 볼 수 있을 것 같다.
2) MobileSAM: 지식 증류를 활용한다. 이때, Encoder 및 Decoder를 모두 학습 시 비용이 크고 불안정하기 때문에, Encoder에서 나온 Feature만 비교하여 Encoder를 업데이트하는 Decoupled Distillation 기법으로 안정성을 높였다.
3) EfficientSAM: SAMI Pretraining이라는 전략을 도입했다. 이는 SAM을 지식 증류하는 프레임워크이다. 특이한 점은 단순하게 작은 크기의 Student 모델만 활용하는 것이 아닌, 마치 MAE처럼 Masking 된 결과를 복원한 것에 대해서 기존 Teacher 모델의 Output과 비교한다. 세미나에서는 이러한 방식이 추상적인 특징을 더 잘 학습할 수 있다고 말한다.

본 세미나를 통해 SAM 경량화 연구들을 살펴볼 수 있었다. 이제는 모든 모델들이 거대 모델 규모로 나오기에, 이러한 경량화 연구는 필수적이다. 개인적으로는 EfficientSAM처럼 지식 증류하는 방식이 새롭게 다가왔다. 단순하게 Encoder-Decoder 구조가 아닌, 자기지도학습 전략을 저렇게 활용할 수 있다는 점이 새로웠다. 유익한 세미나를 준비해준 이혜승 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.

안시후

다양한 segmentation task를 별도 추가 학습 없이 사용할 수 있는 Segment Anytihing (SAM)은 6억개 이상의 파라미터를 갖는 vision transformer 구조이다. 파러미터가 많다 보니 추론 시간이 오래 걸린다는 한계점이 있어 실시간 적용은 어렵다. 이를 해결하기 위한 세가지 경랑화 SAM 연구를 소개해주었다.

FastSAM은 실시간 객체 탐지로 유명한 YOLO v8의 인코더 구조를 활용해 SAM에 비해 성능이 조금 떨어지지만 50배 빠른 속도로 실시간 segmentation이 가능하다. MobileSAM은 SAM을 teacher로 갖는 teacher-student 구조로 encoder에 대해서 distillation을 수행하고 decoder는 상황에 따라 finetuning을 할 수 있도록 구성하여 FastSAM보다도 5배 빠르면서 좋은 성능을 보인다. EfficientSAM은 masking된 입력을 복원한 후, SAM(teacher)의 feature와 비교하는 방식으로 student를 사전학습하고, 이후 downstream task에 finetuning하여 MobileSAM과 유사한 성능이 1.5배 추론 속도를 보인다.

SAM의 경우 다양한 분야에서 사용되고 있는 만큼 잘 알아두면 좋을 것이라고 생각 했었는데 잘 이해할 수 있었고 새삼 효율화를 위한 distillation 연구가 많아지고 있음을 느낄 수 있었다. 좋은 구성으로 세미나 준비해준 혜승이에게 고맙다는 말 전한다.

김정인

이번 세미나는 Segment Anything(SAM)의 경량화 방법론에 대한 소개가 이뤄졌다. SAM은 뛰어난 segmentation 성능을 보이지만, 막대한 계산 비용과 큰 모델 사이즈로 인해 저사양 하드웨어에 적용하기 어려운 한계가 존재한다. 특히, SAM 내부 image encoder의 파라미터 수가 6억 개 이상에 달하는 점이 주요 원인으로 지적된다. 이러한 문제를 해결하고자 경량화를 시도한 세 가지 논문이 이번 세미나에서 소개되었다.

1. FastSAM
- SAM의 image encoder를 객체 탐지에 뛰어난 YOLOv8의 백본(CSPNet)로 대체
- 전체 SA-1B 데이터 셋의 2%만을 사용하여 미세 조정
- 결과적으로, 추론 속도 빨라지고 파라미터 수 감소, 성능 비슷

2. MobileSAM
- 지식 증류 사용 (teacher: ViT-based(Large), student: ViT-based(small))
- Decoupled Distillation 사용: teacher와 student 모델에서 도출된 embedding feature에 대한 MSE loss를 통해 지식 전이
- mask decoder는 선택적으로 미세 조정 가능
- 추론 속도 빨라지고, FastSAM보다 성능 개선

3. EfficientSAM
- SAMI 사전학습 사용하여 기존 SAM의 image encoder보다 가벼운 encoder를 학습
- SAMI 사전학습: masking된 입력을 복원하는 task 수행 (mae 방식의 자기지도 학습 적용)
- 이후, SAM의 mask decoder와 결합하여 segmentation 작업을 수행하는 미세조정 진행

이번 세미나에서 SAM 방법론부터 이를 경량화하기 위한 다양한 방법론에 대해 이해할 수 있었다. 좋은 세미나를 준비해준 이혜승 연구원에게 고맙다는 말을 전하며, 이상으로 세미나 후기를 마친다.

안채원

이번 세미나는 SAM(Segment Anything Model)의 경량화 기법들에 대한 내용이었다.
SAM의 이미지 인코더가 약 632M 파라미터로 구성되어 있어, 경량화의 핵심 타겟이 된다는 점이 흥미로웠다. 이를 해결하는 두 가지 접근법이 특히 인상 깊었다.
FastSAM은 ViT 기반의 무거운 이미지 인코더를 CNN 백본(YOLOv8-seg 구조)으로 대체해서 파라미터 수를 68M으로 줄이면서도 추론 속도를 50배 이상 향상시킨 게 정말 놀라웠다. SA-1B 데이터셋의 단 2%만으로 사전 학습을 진행했다는 것도 인상적이었고, All-instance segmentation 후 Prompt-guided selection으로 최종 마스크를 결정하는 2-stage 구조도 굉장히 실용적인 설계라고 느꼈다.
MobileSAM은 Knowledge Distillation 방식으로 접근했는데, Fully-coupled distillation과 Semi-coupled distillation의 비교가 특히 인상적이었다. Fully-coupled 방식은 student의 인코더와 디코더를 동시에 학습시키는 방식인데, 두 모듈이 서로 의존적이라 학습이 수렴하기까지 시간이 오래 걸린다는 단점이 있었다. 이를 개선한 Semi-coupled 방식은 teacher의 mask decoder를 student에 그대로 복사해서 디코더를 고정(frozen)시키고, 인코더 distillation만 집중적으로 수행하는 방식이다. 디코더가 흔들리지 않으니 학습 안정성이 올라간다는 장점이 있지만, decoder 출력이 prompt에 따라 달라지기 때문에 학습 과정에서 출력 불안정성이 존재한다는 tradeoff도 있었다. 결국 MobileSAM은 이 두 방식의 단점을 보완한 Decoupled Distillation을 채택해서, image encoder distillation과 mask decoder finetuning을 두 개의 독립적인 서브태스크로 분리하고, encoder 간 image embedding을 MSE loss로 정렬하는 방식으로 효율적인 경량화를 달성했다. FastSAM 대비 7배 작고 5배 빠르면서도 성능은 훨씬 뛰어나다는 결과가 인상적이었다.
전반적으로 같은 목표(image encoder 경량화)를 두고도 CNN 대체, Knowledge Distillation, MAE 기반 사전학습 등 접근 방식이 다양하다는 점이 흥미로웠고, 실제 연구에서 모델 설계 선택이 성능과 효율성에 미치는 영향을 구체적으로 배울 수 있었다. 좋은 내용을 준비해서 발표해주신 이혜승 선배님께 감사드리며 세미나 후기를 마친다.