- 2024년 12월 27일 오전 11:42
- 조회수: 2340
INFORMATION
- 2024년 12월 27일
- 오전 12시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
요약
이미지 생성 분야에서 뛰어난 성능을 보이는 디퓨젼 모델은 사용자 입력 프롬프트를 받아 이미지를 생성한다. 그러나 생성된 이미지가 사용자 프롬프트를 완벽하게 반영하는 것은 어려운 과제이며, 프롬프트에 맞지 않는 이미지가 생성되기도 한다. 특정 객체가 생성되지 않는 Missing Object, 잘못된 객체와 속성이 매칭되는 Attribute Binding이 이러한 문제에 해당된다. 본 세미나는 디퓨젼 모델이 사용자 프롬프트를 효과적으로 반영해 이미지를 생성하도록 하는 방법론에 대해 소개한다.
[참고문헌]
[1] Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.
[2] Rassin, Royi, et al. "Linguistic binding in diffusion models: Enhancing attribute correspondence through attention map alignment." Advances in Neural Information Processing Systems 36 (2024).
[3] Agarwal, Aishwarya, et al. "A-star: Test-time attention segregation and retention for text-to-image synthesis." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.
청취자 후기

이번 세미나에서는 디퓨전 기반 생성 모델에서 prompt에 대한 이해력을 향상하는 방법에 대해 진행되었다. 생성 모델이 만든 이미지들을 보면, 객체가 없거나 잘못 생성되는 경우가 있다. 본 세미나는 이러한 케이스를 극복하고자 한다.
1) A-STAR: 이는 객체가 생기지 않는 문제를 극복하고자 한다. 대표적으로 Cross Attention Map 상에서 서로 다른 객체 토큰이 다른 곳에 영향을 주도록 유도하는 Loss를 활용한다. 하지만, 이럴 경우 자기 토큰이 정확하게 위치해야 할 지 모를 수 있기에, 자기 자신 위치를 유지하는 Loss를 함께 추가하였다.
2) SynGEN: 이는 객체가 잘못 생성되는 경우를 극복하고자 한다. 이는 이미지 자체보다, 프롬프트 언어에 집중하여 해당 프롬프트의 언어적 구성을 먼저 분석한다. 이후, 비슷한 단어 그룹은 같은 곳에 영향을 주도록, 다른 단어 그룹은 다른 부분에 영향을 주도록 유도한다.
개인적으로는 이번 세미나는 꽤나 재미있게 청취하였다. 현재 SAM에서 prompt를 어떻게 잘 줄 수 있을까에 대한 연구를 하고 있는데, 진우는 text prompt에 대한 연구를 하는 반면, 나는 visual prompt에 대한 연구를 하고 있다는 차이점이 있다. 특히, Cross Attention Map에 모든 방법론들이 집중한다는 사실이 재미있었다. 실제로 SAM 기반 연구들도 히트맵에서 힌트를 얻기 위해 CLIP-surgery나 CAM과 같은 기법을 많이 도입했는데, Cross Attention도 하나의 방법이 될 수 있을 것 같다는 생각이 들었다. 유익한 세미나를 준비해준 진우에게 고맙다는 말을 전하며 세미나 후기를 마친다.