고려대학교 DMQA 연구실

Vision Language Models-based Prompt Tuning for Federated Learning

2026년 6월 4일 오후 5:07
조회수: 175

REFERENCES

[260605 DMQA Open Seminar] Vision Language Models based Prompt Tuning for Federated Learning.pdf

INFORMATION

2026년 6월 5일
오전 12시 ~
온라인 비디오 시청 (YouTube)

발표자:

김다빈

TOPIC

Vision Language Models-based Prompt Tuning for Federated Learning

On-Line Video

OVERVIEW

요약:

연합학습(Federated Learning)은 데이터 프라이버시를 보호하면서 분산된 클라이언트들이 협력하여 모델을 학습하는 패러다임이다. 최근 CLIP과 같은 대규모 사전학습 Vision-Language Model(VLM)이 등장하면서, 전체 파라미터를 학습하는 대신 소수의 프롬프트만을 공유하는 프롬프트 튜닝 방식이 연합학습의 통신 효율과 개인화 문제를 동시에 해결하는 유력한 접근으로 주목받고 있다. 본 세미나에서는 VLM 기반 연합학습에서 프롬프트 튜닝 방법론이 어떻게 발전해 왔는지를 살펴본다.

참고자료

[1] Guo, T., Guo, S., Wang, J., Tang, X., & Xu, W. (2023). PromptFL: Let federated participants cooperatively learn prompts instead of models – federated learning in age of foundation model. IEEE Transactions on Mobile Computing.

[2] Li, H., Diao, E., He, C., Li, Z., Zhao, L., Song, W., Zhu, J., Zhang, S., & Daumé III, H. (2024). Global and local prompts cooperation via optimal transport for federated learning. In CVPR.

[3] Bo, W., Sun, Y., Wang, Y., Zhang, X., & Li, Z. (2025). FedMGP: Personalized federated learning with multi-group text-visual prompts. In NeurIPS.

청취자 후기

이정민

이번 세미나는 federated learning(FL)에 vision-language models(VLMs) 기반의 prompt tuning을 적용한 연구들에 대해 소개해주었다. 데이터 프라이버시가 중요해지면서, FL 연구가 활발히 진행되고 있는 것으로 알고 있는데, FL 분야에도 역시 VLMs이 활발하게 적용되고 있다는 것을 본 세미나를 통해 알 수 있었다.
PromptFL은 이러한 연구 갈래 중 첫 연구로, 텍스트 프롬프트 파라미터만 튜닝함으로써, VLM 을 전체 튜닝하는 것에 비해 효율성 측면에서 큰 장점을 가져왔고, 뿐만 아니라 우수한 성능도 달성했다. FedOTP는 프롬프트를 global prompt와 local prompt로 분리하고 unbalanced OT를 적용하였다. 이 부분에서는 Visual patch 중 클래스와 관련된 patch만 선택적으로 매칭하도록 한 것이 주요한 특징인 것으로 이해하였다. FedMGP는 기존 연구들이 텍스트 프롬프트 튜닝에만 국한되었던 것을 개선하여, 비주얼 프롬프트 역시 튜닝하도록 하였다. 이 때, 각 프롬프트가 서로 유사하지 않도록 하여, 더 넓은 표현을 학습할 수 있도록 하는 diversity loss를 도입하였으며, dynamic aggregation으로 유사한 프롬프트들을 같이 집계하는 방식으로 업데이트를 진행하였다. 추가적인 분석 실험들을 상당히 다양하게 리포트 하였는데, 기존 연구들에서도 텍스트 프롬프트 튜닝을 중점적으로 활용했던 것과 같이, FedMGP에서도 텍스트 프롬프트 튜닝이 비주얼 프롬프트 튜닝보다 훨씬 중요함을 알 수 있었다. 그 외에도 프롬프트 길이, 그룹 수, top-s 등 다양한 실험들을 보여주었다.
기존 FL의 한계와 VLM이 어떻게 도입되기 시작하였고 어떻게 발전되어 왔는지를 잘 설명해주어 이해하기 용이했던 세미나였다. 개인적으로, 논문에서 각자의 방법론을 잘 어필할 수 있는 실험 구성이 중요하다고 생각하는데, 다빈이가 다양한 실험들을 잘 설명해준 것 같다. 다빈이가 이러한 FL+VLM 연구 중 특히 open-set recognition task에 대해 연구를 수행하고 있는데, 그 동안 기존 연구들의 장점들을 잘 참고해서 연구하고 있었다라는 것을 알 수 있었고, 좋은 결과로 마무리 했으면 좋겠다. 끝으로, 좋은 세미나를 준비하느라 고생한 다빈이에게 고맙다는 말을 전하며, 본 세미나 후기를 마친다.