- 2025년 10월 31일 오후 10:26
- 조회수: 2315
REFERENCES
INFORMATION
- 2025년 10월 31일
- 오후 12시 ~
온라인 비디오 시청 (YouTube)
이혜승
TOPIC
On-Line Video
OVERVIEW
청취자 후기
허종국
금일 세미나는 Meta에서 2020년 저술한 DINO 논문의 후속작인 DINO-v2, DINO-v3에 대한 세미나이다. 원본 DINO의 핵심 요소 중 하나인 Global Patch와 Local Patch를 활용한 학습 프레임워크가 간결하게 설명되었으나, DINO의 추가적인 요소에 대한 구체적인 설명 (i.e., multi-crop, centering, sharpening) 등이 부재하여 약간 아쉬웠다. DINO에 대한 구체적인 알고리즘을 보고 싶은 청자들은 원본 DINO 논문을 참고하면 좋을 것 같고, 해당 논문이 동저자가 이전에 저술한 SwAV와도 연관성이 깊기 때문에, 해당 논문을 먼저 보거나 우리 연구실에서 이전에 clustering-based SSL로 세미나를 진행한 김현지 연구원의 세미나(https://dmqa.korea.ac.kr/activity/seminar/386)를 참조하면 좋을 듯 싶다.
나머지 v2, v3에 대한 설명은 간단 명료하게 잘 설명된 듯 하다. v2의 경우는 Data Curation, 기존 DINO loss, 그리고 IBOT loss가 핵심 요소라고 할 수 있다. Data Curation의 경우 데이터 정제를 위한 Retrieval 과정을 거쳐 LVD-12M Dataset을 구축한다고 설명하였으나, 데이터의 Quality에 따라 알고리즘의 성능이 좌우되는 만큼, 해당 Curation의 과정을 보다 약간 더 상세하게 설명하는 것이 추후 Foundation Model 개발을 위한 연구에 도움이 되지 않았을까 생각한다. IBOT Loss의 경우 Masked Feature와 Knowledge-Distillation을 활용하여 Local Patch에 대한 Feature Extraction을 강화하는 역할 인 것 같다.
v3의 경우 학습이 진행됨에 따라 Local Feature가 무너지고 Global Feature가 강화되는 현상을 방지하기 위해 학습 초기의 모델을 Teacher Model로 고정하여 해당 Model의 Gram Matrix를 모사하도록 학습이 진행된다. Gram Matrix의 경우, 2010년대 중반에 나왔던 Style Transfer 분야에서 종종 나왔던 개념인데, 유래에서 알 수 있듯이 이미지의 Texture 등 Local한 요소를 추출하는데 쓰인다. Local Feature를 추출하는데 왜 하필 Gram Matrix가 쓰이는지 궁금한 사람들은 VGG를 활용한 Style Transfer 연구를 참고하면 좋을 듯 싶다.
간결하면서도 질 좋은 세미나를 만들어준 이혜승 연구원에게 감사의 말을 전한다.
이정민
이번 세미나는 computer vision 에서 많이 사용되는 Dino의 v2, v3에 대해 소개해주었다. v2의 핵심 요소는 data curation, Dino loss, IBOT loss이다. 학습 측면에서 봤을 때는 knowledge distillation, 그리고 masking을 통해 더 강력한 representation learning을 수행한다는 점(IBOT loss)이 가장 중요한 부분이라고 할 수 있다.
v3는 v2에서 모델을 크게, 데이터셋을 더 많이 사용해도 dense feature가 망가진다는 점을 개선하기 위해 개발되었다. 가장 큰 핵심은 학습 초기의 모델을 teacher model로 사용하며 gram matrix를 활용하는 gram loss를 통해 학습이 이루어진다는 점이다. v3는 여러 정량적 실험 뿐만 아니라 정성적인 결과로도 깨끗하고 일관된 dense feature map이 생성된다는 것을 다양하게 보여주었다.
Dino v2 및 v3에 대해 핵심 요소들을 위주로 잘 설명해주어 이해하기가 편했던 세미나였고, 개인적으로 논문에서 어떤 실험들로 방법론을 어필할 수 있는지도 상당히 중요하다고 생각하는데, 실험적인 부분들도 잘 정리해준 것 같다. 좋은 세미나를 준비하느라 고생한 혜승이에게 고맙다는 말을 전하며 본 세미나 후기를 마친다.
송하영
이번 세미나는 Meta에서 발표한 Vision Foundation Model인 DINO에 대해 다룬 세미나였다.
해당 모델은 방대한 unlabeled data를 활용한 Self-Supervised Learning(SSL) 기반 학습을 통해 다양한 vision task에서 소량의 fine-tuning만으로도 우수한 성능을 보인다는 특징이 있다.
DINO-v2는 크게 두 가지 손실 함수로 구성되어 있는데, 첫 번째는 DINO Loss, 두 번째는 iBOT Loss이다.
DINO Loss는 Global crop과 Local crop을 ViT의 입력으로 사용하여 Teacher ViT와 Student ViT의 DINO head 출력 확률 분포가 유사해지도록 학습하는 지식 증류 방식을 사용한다. 이를 통해 모델이 이미지의 다양한 시각적 요소를 효과적으로 학습할 수 있도록 설계되었다.
한편 iBOT Loss는 보다 세밀한 로컬 정보를 학습하기 위해 설계된 방식으로, 이 역시 Teacher–Student 구조를 기반으로 한다. Student 모델의 입력에서 일부 patch를 마스킹한 뒤, Teacher 모델이 본 완전한 표현과 유사하도록 복원하도록 학습함으로써 patch 단위의 세밀한 특징 표현을 학습할 수 있도록 한다.
이후 DINO-v3에서는 v2에서 모델과 데이터 규모를 더욱 확장하여 학습했을 때 오히려 dense feature의 품질이 저하되는 문제를 주요 이슈로 제기하였다. 이를 해결하기 위해 Gram Anchoring이라는 방법이 도입되었는데, 이는 학습 초기 단계에서 Teacher 모델을 일정 기간 고정한 상태로 Student 모델이 이를 따라가도록 유도하는 방식이다. 이러한 전략을 통해 DINO-v3에서는 정량적 평가뿐 아니라 정성적 결과에서도 유사한 물체나 질감 단위의 특징을 더욱 잘 구분하는 표현 학습 능력을 보였다.
이번 세미나를 통해 그동안 이해하기 어려웠던 DINO 모델의 구조와 학습 방식을 보다 명확하게 이해할 수 있었다. 또한 설명이 직관적으로 이루어져 내용을 따라가기 수월했다. 특히 DINO를 활용한 다양한 downstream task 적용 연구가 존재할 것이라는 생각이 들었으며, 이러한 연구들을 추가로 탐색하여 향후 나의 연구에도 활용할 수 있을 것이라는 계기를 얻을 수 있었다.
유익한 세미나를 준비해주신 이혜승 연구원님께 감사의 말씀을 전하며 본 세미나 후기를 마친다.
김다빈
이번 세미나는 Meta에서 제안한 Vision Foundation Model인 DINO 시리즈 중 DINOv2와 DINOv3의 핵심 아이디어와 발전 과정을 중심으로 소개한 세미나였다. DINO 계열 모델은 대규모 unlabeled 이미지 데이터를 활용한 self-supervised learning을 통해 다양한 vision downstream task에서 활용 가능한 강력한 feature representation을 학습하는 모델이라는 점에서 큰 의미가 있다.
세미나에서는 먼저 DINOv2의 핵심 요소로 데이터 품질을 높이기 위한 Data Curation, 이미지 전체 수준의 표현을 학습하는 DINO loss, 그리고 patch 단위의 로컬 정보를 학습하기 위한 iBOT loss가 소개되었다. 이러한 구조를 통해 모델이 이미지의 전역적인 이미지 정보와 국소적인 이미지 정보를 동시에 학습할 수 있다는 점이 인상적이었다.
이어 소개된 DINOv3에서는 모델과 데이터 규모를 확장할 경우 dense feature 품질이 저하되는 문제를 해결하기 위한 접근이 제안되었다. 이를 위해 학습 초기의 모델을 teacher로 활용하고 Gram matrix 기반의 Gram Anchoring 기법을 적용하여, 학습 과정에서 local feature가 붕괴되는 현상을 방지하고 보다 안정적인 representation을 학습하도록 한다는 점이 핵심 아이디어였다.
전체적으로 이번 세미나는 DINO 계열 모델의 발전 흐름과 핵심 아이디어를 이해하는 데 도움이 되었으며, 특히 self-supervised learning 기반 vision foundation model이 어떻게 확장되고 개선되는지를 살펴볼 수 있는 좋은 기회였다. 또한 향후 대규모 데이터 기반 representation learning 연구에서 데이터 품질 관리나 feature 안정성 유지와 같은 요소가 얼마나 중요한지 다시 한 번 생각해 볼 수 있었다. 세미나를 준비해 준 이혜승 연구원에게 감사의 말을 전하며 후기를 마친다.