- 2025년 10월 31일 오후 10:26
- 조회수: 552
REFERENCES
INFORMATION
- 2025년 10월 31일
- 오후 12시 ~
온라인 비디오 시청 (YouTube)
이혜승
TOPIC
On-Line Video
OVERVIEW
청취자 후기
허종국
금일 세미나는 Meta에서 2020년 저술한 DINO 논문의 후속작인 DINO-v2, DINO-v3에 대한 세미나이다. 원본 DINO의 핵심 요소 중 하나인 Global Patch와 Local Patch를 활용한 학습 프레임워크가 간결하게 설명되었으나, DINO의 추가적인 요소에 대한 구체적인 설명 (i.e., multi-crop, centering, sharpening) 등이 부재하여 약간 아쉬웠다. DINO에 대한 구체적인 알고리즘을 보고 싶은 청자들은 원본 DINO 논문을 참고하면 좋을 것 같고, 해당 논문이 동저자가 이전에 저술한 SwAV와도 연관성이 깊기 때문에, 해당 논문을 먼저 보거나 우리 연구실에서 이전에 clustering-based SSL로 세미나를 진행한 김현지 연구원의 세미나(https://dmqa.korea.ac.kr/activity/seminar/386)를 참조하면 좋을 듯 싶다.
나머지 v2, v3에 대한 설명은 간단 명료하게 잘 설명된 듯 하다. v2의 경우는 Data Curation, 기존 DINO loss, 그리고 IBOT loss가 핵심 요소라고 할 수 있다. Data Curation의 경우 데이터 정제를 위한 Retrieval 과정을 거쳐 LVD-12M Dataset을 구축한다고 설명하였으나, 데이터의 Quality에 따라 알고리즘의 성능이 좌우되는 만큼, 해당 Curation의 과정을 보다 약간 더 상세하게 설명하는 것이 추후 Foundation Model 개발을 위한 연구에 도움이 되지 않았을까 생각한다. IBOT Loss의 경우 Masked Feature와 Knowledge-Distillation을 활용하여 Local Patch에 대한 Feature Extraction을 강화하는 역할 인 것 같다.
v3의 경우 학습이 진행됨에 따라 Local Feature가 무너지고 Global Feature가 강화되는 현상을 방지하기 위해 학습 초기의 모델을 Teacher Model로 고정하여 해당 Model의 Gram Matrix를 모사하도록 학습이 진행된다. Gram Matrix의 경우, 2010년대 중반에 나왔던 Style Transfer 분야에서 종종 나왔던 개념인데, 유래에서 알 수 있듯이 이미지의 Texture 등 Local한 요소를 추출하는데 쓰인다. Local Feature를 추출하는데 왜 하필 Gram Matrix가 쓰이는지 궁금한 사람들은 VGG를 활용한 Style Transfer 연구를 참고하면 좋을 듯 싶다.
간결하면서도 질 좋은 세미나를 만들어준 이혜승 연구원에게 감사의 말을 전한다.
이정민
이번 세미나는 computer vision 에서 많이 사용되는 Dino의 v2, v3에 대해 소개해주었다. v2의 핵심 요소는 data curation, Dino loss, IBOT loss이다. 학습 측면에서 봤을 때는 knowledge distillation, 그리고 masking을 통해 더 강력한 representation learning을 수행한다는 점(IBOT loss)이 가장 중요한 부분이라고 할 수 있다.
v3는 v2에서 모델을 크게, 데이터셋을 더 많이 사용해도 dense feature가 망가진다는 점을 개선하기 위해 개발되었다. 가장 큰 핵심은 학습 초기의 모델을 teacher model로 사용하며 gram matrix를 활용하는 gram loss를 통해 학습이 이루어진다는 점이다. v3는 여러 정량적 실험 뿐만 아니라 정성적인 결과로도 깨끗하고 일관된 dense feature map이 생성된다는 것을 다양하게 보여주었다.
Dino v2 및 v3에 대해 핵심 요소들을 위주로 잘 설명해주어 이해하기가 편했던 세미나였고, 개인적으로 논문에서 어떤 실험들로 방법론을 어필할 수 있는지도 상당히 중요하다고 생각하는데, 실험적인 부분들도 잘 정리해준 것 같다. 좋은 세미나를 준비하느라 고생한 혜승이에게 고맙다는 말을 전하며 본 세미나 후기를 마친다.