- 2026년 6월 4일 오후 5:07
- 조회수: 175
INFORMATION
- 2026년 6월 5일
- 오전 12시 ~
온라인 비디오 시청 (YouTube)
김다빈
TOPIC
On-Line Video
OVERVIEW
청취자 후기
이정민
이번 세미나는 federated learning(FL)에 vision-language models(VLMs) 기반의 prompt tuning을 적용한 연구들에 대해 소개해주었다. 데이터 프라이버시가 중요해지면서, FL 연구가 활발히 진행되고 있는 것으로 알고 있는데, FL 분야에도 역시 VLMs이 활발하게 적용되고 있다는 것을 본 세미나를 통해 알 수 있었다.
PromptFL은 이러한 연구 갈래 중 첫 연구로, 텍스트 프롬프트 파라미터만 튜닝함으로써, VLM 을 전체 튜닝하는 것에 비해 효율성 측면에서 큰 장점을 가져왔고, 뿐만 아니라 우수한 성능도 달성했다. FedOTP는 프롬프트를 global prompt와 local prompt로 분리하고 unbalanced OT를 적용하였다. 이 부분에서는 Visual patch 중 클래스와 관련된 patch만 선택적으로 매칭하도록 한 것이 주요한 특징인 것으로 이해하였다. FedMGP는 기존 연구들이 텍스트 프롬프트 튜닝에만 국한되었던 것을 개선하여, 비주얼 프롬프트 역시 튜닝하도록 하였다. 이 때, 각 프롬프트가 서로 유사하지 않도록 하여, 더 넓은 표현을 학습할 수 있도록 하는 diversity loss를 도입하였으며, dynamic aggregation으로 유사한 프롬프트들을 같이 집계하는 방식으로 업데이트를 진행하였다. 추가적인 분석 실험들을 상당히 다양하게 리포트 하였는데, 기존 연구들에서도 텍스트 프롬프트 튜닝을 중점적으로 활용했던 것과 같이, FedMGP에서도 텍스트 프롬프트 튜닝이 비주얼 프롬프트 튜닝보다 훨씬 중요함을 알 수 있었다. 그 외에도 프롬프트 길이, 그룹 수, top-s 등 다양한 실험들을 보여주었다.
기존 FL의 한계와 VLM이 어떻게 도입되기 시작하였고 어떻게 발전되어 왔는지를 잘 설명해주어 이해하기 용이했던 세미나였다. 개인적으로, 논문에서 각자의 방법론을 잘 어필할 수 있는 실험 구성이 중요하다고 생각하는데, 다빈이가 다양한 실험들을 잘 설명해준 것 같다. 다빈이가 이러한 FL+VLM 연구 중 특히 open-set recognition task에 대해 연구를 수행하고 있는데, 그 동안 기존 연구들의 장점들을 잘 참고해서 연구하고 있었다라는 것을 알 수 있었고, 좋은 결과로 마무리 했으면 좋겠다. 끝으로, 좋은 세미나를 준비하느라 고생한 다빈이에게 고맙다는 말을 전하며, 본 세미나 후기를 마친다.