- 2024년 5월 3일 오후 1:47
- 조회수: 27685
INFORMATION
- 2024년 5월 3일
- 오전 12시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
요약 :
이미지 분야에서 우수한 성능을 보이는 디퓨젼 모델은 사용자가 원하는 이미지를 생성하기 위해 텍스트 프롬프트를 입력할 수 있다.
그러나 생성된 이미지가 프롬프트를 완벽하게 반영하는 것은 매우 어려운 과제이며, 이로 인해 특정 객체가 생성되지 않거나 객체에 잘못된 속성이 부여되는 문제가 발생한다.
본 세미나는 디퓨젼 모델이 프롬프트를 정확하게 반영할 수 있는 방법론에 대해 소개한다.
참고자료:
[1] Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022
[2] Feng, Weixi, et al. "Training-free structured diffusion guidance for compositional text-to-image synthesis." arXiv preprint arXiv:2212.05032 (2022).
[3] Chefer, Hila, et al. "Attend-and-excite: Attention-based semantic guidance for text-to-image diffusion models." ACM Transactions on Graphics (TOG) 42.4 (2023): 1-10
청취자 후기

이번 세미나는 Diffusion 기반 Text-to-Image Generation 모델에서 Prompt Understanding을 개선하는 방법에 대해 진행되었다. Diffusion 모델이 발전하면서 Text-to-Image Generation도 큰 개선을 이루었다. 하지만, Attribute Binding, Missing Object 등 Text를 잘 이해하지 못하여 이미지를 잘 생성하지 못하는 문제가 존재한다. 본 세미나에서는 이러한 문제점을 개선할 수 있는 두 가지 연구를 소개한다.
1) Structure Diffusion: 문장을 단어 단위로 분해한 후, 단어 간의 관계를 파악하는 방식으로 Prompt에 대한 이해를 개선하였다. 이는 문장을 Parsing 후, 단어보다 높은 수준의 명사구는 별도로 임베딩하여 객체와 속성 간 특징을 잘 반영한다.
2) Attend-and-Excite: 생성되지 않는 객체를 우선적으로 식별 후, 가우시안 필터를 통해 인접 패치까지 적절한 영향력을 끼친다. 생성되지 않는 객체 식별은 Max Attention Score를 활용한다. 다만, 가우시안 필터가 어떻게 인접한 패치에 영향을 끼치는 것과 관련성은 아직까지 잘 와닿지 않았다.
이번 세미나를 통해 Text-to-Image Diffusion 모델들의 또 다른 문제 상황에 대해 알아볼 수 있었다. 특히, 오늘 소개한 연구들은 추가적인 학습 없이 Text에 대한 이해도를 높일 수 있다는 점이 흥미로웠다. 아직까지 Attend-and-Excite는 명확히 와닿지는 않았는데, 추후 논문을 보며 다시 공부해보고 싶다. 유익한 세미나를 준비해준 이진우 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.

이번 세미나에서는 디퓨전 모델을 활용한 텍스트-투-이미지 생성에 관한 연구들이 소개되었다. 이 디퓨전 모델은 사용자가 입력한 프롬프트를 정확히 반영하지 못하는 두 가지 문제, 1. 잘못된 속성 부여(attribute binding), 2. 누락된 객체(missing objects)를 개선하는 연구에 초점을 맞췄다.
첫 번째 연구인 'Structure Diffusion'은 객체에 잘못된 속성이 부여되는 문제를 해결하기 위해 제안되었다. 이 연구는 프롬프트에 대한 이해도가 낮아 객체와 속성이 잘못 매칭되는 문제를 지적하고, consistency tree를 활용하여 cross attention에서 사용되는 value 값을 새롭게 재구성함으로써 객체와 특성의 관계를 보다 정확히 반영하고자 하였다. 실험을 통해 객체에 올바른 속성이 부여되었음을 입증하였다.
두 번째 연구인 'Attend-and-Excite'는 프롬프트 내 단어들의 영향력이 작아 생성되어야 할 객체들이 누락되는 문제를 해결하기 위해 제안되었다. 이 연구는 실제로 cross attention map을 통해 생성되지 않는 객체가 영향력이 작음을 보여주었으며, 영향력이 낮은 명사에 대한 loss 값을 활용하여 디퓨전 모델로부터 나온 잠재 변수를 새롭게 업데이트하였다. 이 때, 특정 패치에 제한될 수 있기 때문에 가우시안 필터를 활용하였다. 이를 통해, 프롬프트 내 영향력이 작은 명사도 충분히 반영하여 missing object 문제를 개선한 것을 실험을 통해 보여주었다.
디퓨전 모델의 한계점과 이를 개선한 연구를 지속적으로 세미나를 통해 확인함으로써 최신 트렌드를 파악할 수 있어 매우 유익했다. 유익한 세미나를 준비해 준 진우에게 감사의 마음을 전하며 이상으로 세미나 후기를 마친다.

Diffusion 모델이 Text prompt를 입력 받아 이미지를 생성할 때, Text prompt 내용을 올바르게 반영하지 못한 이미지를 생성할 때가 있다. 예를 들어, 빨간색 차를 생성해달라고 했음에도 파란색 차가 생성되거나, 빨간색 차와 남성을 생성해달라고 했음에도 오직 빨간색 차만 생성되는 경우이다. 본 세미나는 이러한 문제점을 해결하기 위해 Text prompt의 임베딩에 언어의 구조성을 반영해 재가공한 값을 Attention 과정 속 Value 값으로 치환하는 방법을 소개하고 있으며, Text와 Image 사이의 Cross attention map의 최댓값을 키우는 방향으로 업데이트하고 가우시안 필터를 통해 인접 패치들까지 영향력이 확대되게끔 하는 방식을 설명하고 있다. 개인적으로 사용하는 전략들이 되게 직관적이고 좋은 결과를 내주고 있는 것으로 느껴지는데 발표자가 핵심 위주로 잘 설명해준 덕분인 것 같다.
좋은 세미나를 준비하느라 고생한 진우에게 감사의 말씀을 전하며 세미나 후기를 마치도록 한다.