고려대학교 DMQA 연구실

The Inherent Ability to Find Semantic Correspondences in Diffusion Models

2024년 8월 2일 오후 2:57
조회수: 33476

REFERENCES

[240802] The Inherent Ability to Find Semantic Correspondences in Diffusion Models.pdf

INFORMATION

2024년 8월 2일
오후 12시 ~
온라인 비디오 시청 (YouTube)

발표자:

박태남

TOPIC

The Inherent Ability to Find Semantic Correspondences in Diffusion Models

On-Line Video

OVERVIEW

요약:

Diffusion Models은 고품질 이미지를 생성하고 편집할 수 있음이 입증되었으며, 이는 이 모델들이 의미 있는 내부 표현을 포함할 수 있음을 시사한다. 이러한 Diffusion Models의 내부 표현을 활용해 다양한 tasks을 해결하는 연구들도 활발히 진행되고 있다. 특히, 간단한 후처리만으로도 의미론적 대응(Semantic Correspondence)을 해결할 수 있는 연구들이 다수 제안되었다. 여기서 의미론적 대응은 여러 이미지에서 동일한 의미를 가지는 위치를 찾는 것을 의미한다. 본 세미나에서는 사전 학습된 Diffusion Models의 의미론적 지식을 활용하여 의미론적 대응을 찾는 다양한 연구들을 소개하고자 한다.

참고자료:

[1] Hedlin, E., Sharma, G., Mahajan, S., Isack, H., Kar, A., Tagliasacchi, A., & Yi, K. M. (2024). Unsupervised semantic correspondence using stable diffusion. Advances in Neural Information Processing Systems, 36.

[2] Tang, L., Jia, M., Wang, Q., Phoo, C. P., & Hariharan, B. (2023). Emergent correspondence from image diffusion. Advances in Neural Information Processing Systems, 36, 1363-1389.

[3] Luo, G., Dunlap, L., Park, D. H., Holynski, A., & Darrell, T. (2024). Diffusion hyperfeatures: Searching through time and space for semantic correspondence. Advances in Neural Information Processing Systems, 36.

청취자 후기

이정민

이번 세미나는 디퓨전 모델을 사용하여 이미지 간 correspondence를 잘 추정하는 방법들에 대해 소개해주었다.
사전 학습된 디퓨전 모델은 이미지 editing에서도 좋은 성능을 보여준다. 이는 correspondence를 잘 추정하기 때문이라고도 볼 수 있다. 두 번째로 소개된 논문에서는 denoising network에서 특정 블록의 feature map을 추출하는 Diffusion Features(DIFT)라는 기법을 사용한다. 이미지의 각 포인트의 feature vector을 얻기 위해 interpolation을 수행한 뒤, 코사인 유사도를 통해 correspondence를 계산한다. 해당 논문에서는 ablation study로 DIFT를 하는 layer마다의 성능을 보여주는데, 그 결과를 봤을 때, 하나의 layer만 사용하지 말고 몇 개의 layer들을 적절하게 사용하면 더 좋지 않을까 하는 의문이 들었었다. 역시나, 뒤이어 소개해 준 논문에서는 해당 방식을 사용했다. 전체 T 타임 중 특정 S 시점들에서 모든 layer의 feature map을 aggregation 하는 과정이 포함된다. 이 때, S 시점들을 샘플링 하는 것은 단순 랜덤인가 하는 의문이 들기도 하였다. (이 부분도 성능에 영향을 어느 정도 끼치지 않을까..?) 실험 결과를 보았을 때, 한 시점에서만 모든 layer를 다 concat할 때는 오히려 성능이 저하되는 점이 눈에 제일 먼저 들어왔던 것 같다.
연구실 세미나들을 보면서 디퓨전 세미나를 여러 번 청취하였지만, 이미지 editing에서 당연할 수도 있는 correspondence 라는 개념을 이번에 처음 알게 되었다. 방법론들이 모두 직관적이기도 해서 이해하기 보다 용이했다. 좋은 세미나를 준비하느라 고생한 태남이에게 고맙다는 말을 전하며, 본 세미나 후기를 마친다.

김성수

이번 세미나는 Diffusion Model을 Image Matching에 접목한 연구들에 대해 진행되었다. Image Matching은 각 이미지 내 일치하는 부분을 식별하는 Task이다. 예전에 하이닉스 프로젝트 할 때 잠깐 찾아보았던 분야라, 어렵지 않게 청취했다. Diffusion이랑 Image Matching은 어떤 관련이 있을까? 개인적으로 Motivation 들이 정말 흥미로웠다. Diffusion 모델은 이미지를 수정 및 생성하는 모델인 만큼 의미론적 이해가 뛰어나 이에 적용하기 용이하다는 것이다.

방법론1) Stable Diffusion을 통해 Source 이미지에 대한 Attention Map을 산출한 후, 이를 추출할 수 있는 Prompt Embedding을 찾는다. 이후, Target 이미지에 해당 Prompt Embedding을 함께 넣어주어 Correspondence를 찾는다.
방법론2) Feature Map간 유사성을 활용한다. 두 이미지를 Diffusion Model에 넣은 후, 동일한 위치의 Feature Map의 유사성을 비교하여 Correspondence를 구한다.
방법론3) 하나의 Layer가 아닌, 모든 Layer를 활용한다. 어찌보면 당연한 것이, 모든 Layer를 고려하면 저수준~고수준 Feature를 모두 고려할 수 있어 용이할 것으로 생각된다. 이때, 이는 위 방법론들처럼 바로 Matching을 하는 것보다, 이들을 Aggregation한 Feature를 활용하여 Keypoint 데이터에 대해 추가적인 학습을 수행한다.

이번 세미나를 통해 Diffusion Model과 Image Matching에 대한 연결고리를 살펴볼 수 있었다. 생각지도 못한 Motivation이지만, 의외로 고개가 끄덕여졌다. 개인적으로는 Segmentation 대형 모델인 SAM도 이렇게 연결 지을 수 있을지 궁금해졌다. 직관적이고 유익한 세미나를 준비해준 박태남 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.

배진수

Diffusion models for finding visual correspondence에 관한 세미나를 청취하였다. 이미지 생성 및 편집 성능이 매우 우수한 diffusion model은 생성해내야 할 이미지 객체의 의미론적 내용을 이미 잘 이해하고 있거나, 두 범주 간의 이미지 대응에 대해 암묵적으로 잘 추론하고 있을 것이라는 연구 가설을 바탕으로, 해당 모델을 어떻게 활용하면 visual correspondence task를 수행할 수 있을지 이해할 수 있었다. 개인적으로는 text-to-image diffusion model 활용 방안이 가장 이해하기 쉬운 부분이었다. 실험 결과에서는 종종 지도학습 계열의 기존 visual correspondence 모델만큼의 좋은 성능을 보이곤 했어서, 다시 한번 diffusion model의 놀라운 성능을 확인해볼 수 있었다. 추후에는 기존 모델과 diffusion model을 함께 활용해보려는 연구도 나올 수 있지 않을까 싶다.

Seminar