고려대학교 DMQA 연구실

DINOv2, DINOv3 : Self-supervised Vision Foundation Model

2025년 10월 31일 오후 10:26
조회수: 1039

REFERENCES

[20251031 DMQA Open Seminar] DINOv3.pdf

INFORMATION

2025년 10월 31일
오후 12시 ~
온라인 비디오 시청 (YouTube)

발표자:

이혜승

TOPIC

DINOv2, DINOv3 : Self-supervised Vision Foundation Model

On-Line Video

OVERVIEW

** p17, p31 - teacher network에서 s.g. (수정된 pdf 참고 부탁드립니다)

요약: DINO 시리즈 foundation model은 self-supervised learning에 기반한 대표적인 vision transformer 계열 모델로, 레이블 없이도 강력한 visual representation 학습 능력을 보여주며 다양한 비전 과제에서 활용되고 있다. 이번 세미나에서는 최신 논문인 DINOv3를 중심으로, 그 학습 전략과 구조적 개선점, 그리고 기존 DINOv2 대비 성능 향상 요인을 살펴보고자 한다. 또한, DINOv3의 주요 아이디어가 vision foundation model의 효율적 학습에 어떻게 기여하는지도 함께 소개하고자 한다. 참고자료: [1] Caron, M., Touvron, H., Misra, I., Jégou, H., Mairal, J., Bojanowski, P., & Joulin, A. (2021). Emerging Properties in Self-Supervised Vision Transformers. Proceedings of ICCV 2021. [2] Oquab, M., Darcet, T., Moutakanni, T., Vo, H., Szafraniec, M., Khalidov, V., … & Bojanowski, P. (2023). DINOv2: Learning Robust Visual Features without Supervision. arXiv preprint arXiv:2304.07193. [3] Siméoni, O., Vo, H. V., Seitzer, M., Baldassarre, F., Oquab, M., … & Bojanowski, P. (2025). DINOv3. arXiv preprint arXiv:2508.10104.

청취자 후기

허종국

금일 세미나는 Meta에서 2020년 저술한 DINO 논문의 후속작인 DINO-v2, DINO-v3에 대한 세미나이다. 원본 DINO의 핵심 요소 중 하나인 Global Patch와 Local Patch를 활용한 학습 프레임워크가 간결하게 설명되었으나, DINO의 추가적인 요소에 대한 구체적인 설명 (i.e., multi-crop, centering, sharpening) 등이 부재하여 약간 아쉬웠다. DINO에 대한 구체적인 알고리즘을 보고 싶은 청자들은 원본 DINO 논문을 참고하면 좋을 것 같고, 해당 논문이 동저자가 이전에 저술한 SwAV와도 연관성이 깊기 때문에, 해당 논문을 먼저 보거나 우리 연구실에서 이전에 clustering-based SSL로 세미나를 진행한 김현지 연구원의 세미나(https://dmqa.korea.ac.kr/activity/seminar/386)를 참조하면 좋을 듯 싶다.

나머지 v2, v3에 대한 설명은 간단 명료하게 잘 설명된 듯 하다. v2의 경우는 Data Curation, 기존 DINO loss, 그리고 IBOT loss가 핵심 요소라고 할 수 있다. Data Curation의 경우 데이터 정제를 위한 Retrieval 과정을 거쳐 LVD-12M Dataset을 구축한다고 설명하였으나, 데이터의 Quality에 따라 알고리즘의 성능이 좌우되는 만큼, 해당 Curation의 과정을 보다 약간 더 상세하게 설명하는 것이 추후 Foundation Model 개발을 위한 연구에 도움이 되지 않았을까 생각한다. IBOT Loss의 경우 Masked Feature와 Knowledge-Distillation을 활용하여 Local Patch에 대한 Feature Extraction을 강화하는 역할 인 것 같다.

v3의 경우 학습이 진행됨에 따라 Local Feature가 무너지고 Global Feature가 강화되는 현상을 방지하기 위해 학습 초기의 모델을 Teacher Model로 고정하여 해당 Model의 Gram Matrix를 모사하도록 학습이 진행된다. Gram Matrix의 경우, 2010년대 중반에 나왔던 Style Transfer 분야에서 종종 나왔던 개념인데, 유래에서 알 수 있듯이 이미지의 Texture 등 Local한 요소를 추출하는데 쓰인다. Local Feature를 추출하는데 왜 하필 Gram Matrix가 쓰이는지 궁금한 사람들은 VGG를 활용한 Style Transfer 연구를 참고하면 좋을 듯 싶다.

간결하면서도 질 좋은 세미나를 만들어준 이혜승 연구원에게 감사의 말을 전한다.

이정민

이번 세미나는 computer vision 에서 많이 사용되는 Dino의 v2, v3에 대해 소개해주었다. v2의 핵심 요소는 data curation, Dino loss, IBOT loss이다. 학습 측면에서 봤을 때는 knowledge distillation, 그리고 masking을 통해 더 강력한 representation learning을 수행한다는 점(IBOT loss)이 가장 중요한 부분이라고 할 수 있다.
v3는 v2에서 모델을 크게, 데이터셋을 더 많이 사용해도 dense feature가 망가진다는 점을 개선하기 위해 개발되었다. 가장 큰 핵심은 학습 초기의 모델을 teacher model로 사용하며 gram matrix를 활용하는 gram loss를 통해 학습이 이루어진다는 점이다. v3는 여러 정량적 실험 뿐만 아니라 정성적인 결과로도 깨끗하고 일관된 dense feature map이 생성된다는 것을 다양하게 보여주었다.
Dino v2 및 v3에 대해 핵심 요소들을 위주로 잘 설명해주어 이해하기가 편했던 세미나였고, 개인적으로 논문에서 어떤 실험들로 방법론을 어필할 수 있는지도 상당히 중요하다고 생각하는데, 실험적인 부분들도 잘 정리해준 것 같다. 좋은 세미나를 준비하느라 고생한 혜승이에게 고맙다는 말을 전하며 본 세미나 후기를 마친다.