DINOv2, DINOv3 : Self-supervised Vision Foundation Model
- 2025년 10월 31일 오후 10:26
- 조회수: 60
REFERENCES
INFORMATION
- 2025년 10월 31일
- 오후 12시 ~
온라인 비디오 시청 (YouTube)
발표자:
이혜승
이혜승
TOPIC
DINOv2, DINOv3 : Self-supervised Vision Foundation Model
On-Line Video
OVERVIEW
요약:
DINO 시리즈 foundation model은 self-supervised learning에 기반한 대표적인 vision transformer 계열 모델로, 레이블 없이도 강력한 visual representation 학습 능력을 보여주며 다양한 비전 과제에서 활용되고 있다.
이번 세미나에서는 최신 논문인 DINOv3를 중심으로, 그 학습 전략과 구조적 개선점, 그리고 기존 DINOv2 대비 성능 향상 요인을 살펴보고자 한다. 또한, DINOv3의 주요 아이디어가 vision foundation model의 효율적 학습에 어떻게 기여하는지도 함께 소개하고자 한다.
참고자료:
[1] Caron, M., Touvron, H., Misra, I., Jégou, H., Mairal, J., Bojanowski, P., & Joulin, A. (2021). Emerging Properties in Self-Supervised Vision Transformers. Proceedings of ICCV 2021.
[2] Oquab, M., Darcet, T., Moutakanni, T., Vo, H., Szafraniec, M., Khalidov, V., … & Bojanowski, P. (2023). DINOv2: Learning Robust Visual Features without Supervision. arXiv preprint arXiv:2304.07193.
[3] Siméoni, O., Vo, H. V., Seitzer, M., Baldassarre, F., Oquab, M., … & Bojanowski, P. (2025). DINOv3. arXiv preprint arXiv:2508.10104.