- 2025년 1월 9일 오전 10:54
- 조회수: 227
INFORMATION
- 2025년 1월 3일
- 오전 12시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
청취자 후기

언어 모델이나 이미지 생성 뿐만 아니라, 이미지 세그멘테이션 분야에서도 거대 모델을 활용한 일반화 혹은 특성화 연구가 활발히 이루어지고 있는 것 같다. 언어 쪽에서는 GPT, 이미지 생성 및 편집에서는 Stable Diffusion이라면, Segmentation 쪽에서는 Meta AI에서 발표한 SAM이 그 주축인 것 같다(이러한 모델들을 Foundtation Model이라고 통칭한다고 하더라..) 이전 용원이형이 SAM에 대해 설명했다면 금일 세미나는 성수가 SAM을 어떻게 특정 도메인에 활용할까에 대한 세미나를 소개해주었다. 근데 이러한 도메인들이 보통 필요한 분야가 Medical 혹은 군사(Camoflauge)쪽이라 그런지 금일 세미나에서 다뤄진 논문들의 도메인은 여기에 초점이 맞춰져 있다.
약 4개의 논문에 대해 FIne-tuning 방법론들에 대해 소개하며 그에 대한 고찰을 정의해보자면 다음과 같다.
1. 효율적인 Fine-tuning을 위해서는 LoRA 어댑터를 활용해 학습 파라미터 개수를 줄일 수 있으나, 이에 따른 성능의 Trade-off가 존재한다.
2. Fine-tuning을 할 때, LoRA의 Rank 사이즈는 완전 선형적으로 비례하지는 않고 약 4정도가 적당하다.
3. 인코더는 LoRA 방식으로 학습할 때 도메인에 맞는 feature 추출 능력이 향상될 수 있으나, 디코더는 LoRA 방식으로 학습하기에 부적절하다.
4. 프롬프트의 정교성에 성능 편차가 심한 SAM 의 본질은 변하지 않는다.
최근 트렌드에 맞춘 좋은 세미나인 것 같다. 준비하느라 고생한 성수에게 감사의 말을 전한다.

본 세미나는 이미지 세그멘테이션 분야에서 마치 LLM과 같은 성능을 가진 SAM을 어떻게 효율적 및 효과적으로 활용할 수 있을까에 대해서 진행되었다. LLM이 특수 도메인에서는 약한 것처럼 SAM 도 같은 한계점을 가지고 있다. 마찬가지로 추가적인 튜닝을 위해서는 큰 컴퓨팅 자원과 시간이 필요하다.
이를 효율적으로 다루기 위해, 보통은 transformer layer 사이에 adapter를 추가하고, 이 adapter만 튜닝함으로써, SAM의 지식은 보존하면서 의료 등의 분야에서 좋은 성능을 보였다. 해당 연구들이 지속됨에 따라, 이 adapter도 LoRA를 활용하는 방향으로 발전했다. 마지막 논문은 특히 3D의 성질을 가지는 의료 데이터를 잘 다루기 위해, depth attention을 적용하였으며, 앞선 연구와는 다르게 mask decoder에도 adapter를 적용하여 image와 prompt의 결합을 강화하여 좋은 성능을 도출했다.
SAM을 최근에 많이 활용한다는 것은 알고 있었는데, 본 세미나를 통해 발전의 흐름에 대해 잘 이해할 수 있었다. LLM의 등장으로 끝날 것 같았던 NLP 분야도 RAG등을 활용하여 계속 발전하는 만큼, SAM도 어떻게 활용하는지에 따라 다양한 연구가 지속될 것 같다. 좋은 세미나를 준비하느라 고생한 성수에게 고맙다는 말을 전하며, 본 세미나 후기를 마친다.