- 2023년 8월 25일 오전 9:40
- 조회수: 17491
REFERENCES
INFORMATION
- 2023년 8월 25일
- 오전 12시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
현재 이미지 생성 AI 모델들 중 가장 각광받는 것은 단연 Diffusion Model이다. 무작위로 생성 대상을 결정하던 Diffusion Model이 발전을 거쳐 입력 텍스트에 맞게 이미지를 생성할 수 있게 되면서, 자연스레 입력 텍스트에 따라 원본 이미지의 대상 혹은 스타일을 편집하는 기술에 대한 연구가 진행되었다. 본 세미나에서는 이러한 Diffusion Model 기반 편집 기법의 개괄적인 내용과 최신 방법론에 대해 소개한다.
[1] Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models." Advances in Neural Information Processing Systems 33 (2020): 6840-6851
[2] Song, Jiaming, Chenlin Meng, and Stefano Ermon. "Denoising diffusion implicit models." arXiv preprint arXiv:2010.02502 (2020).
[3] Ho, Jonathan, and Tim Salimans. "Classifier-free diffusion guidance." arXiv preprint arXiv:2207.12598 (2022)
[4] Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022
[5] Hertz, Amir, et al. "Prompt-to-prompt image editing with cross attention control." arXiv preprint arXiv:2208.01626 (2022).
[6] Tumanyan, Narek, et al. "Plug-and-play diffusion features for text-driven image-to-image translation." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.
[7] 김준호 - NAVER AI LAB. “생성모델부터 Diffusion까지 3회 I 모두의연구소 모두팝.” YouTube, YouTube, 3 Jan. 2023, www.youtube.com/watch?v=Z8WWriIh1PU&t=3370s.
청취자 후기

이번 세미나는 Image Editing with Diffusion Model을 주제로 진행되었다. 이미지 생성 모델은 사용자의 prompt에 의해 이미지를 생성하는 모델이다. 생성 모델을 기반으로 하여 이미지를 편집하는 editing 기술들에 대한 연구들이 진행되었다. 본 세미나는 이러한 editing에 대한 연구들을 소개한다.
첫 번째 소개된 논문은 Prompt-to-prompt로 attention map을 사용하여 cross attention을 기반으로 기존 prompt와 새로운(=타겟) prompt를 바탕으로 수정된 이미지를 생성해낸다. 원본 이미지의 형태를 유지하면서 원하는 타겟 prompt와 같이 수정이 가능한 기술이다. 원본 이미지 형태를 유지한다는 장점이 있지만, 이미지 내에서 객체의 위치를 이동 시킬 수 없다는 단점을 갖는다.
두 번째 소개된 논문은 Plug-and-play로 첫 번째 논문과 동일하게 새로운(=타겟) prompt를 바탕으로 수정된 이미지를 생성해내지만, 입력으로 기존에 생성된 이미지와 새로운(=타겟) prompt을 입력으로 사용하기 대문에 DDIM Inversion 블락이 추가된다.
본 세미나에서는 이미지 생성 분야에서 원본 이미지는 유지하면서 이미지를 수정하는 방법들이 소개되었는데, 이미지 생성 분야가 정말 빠르게 발전되고 있다는 것을 느낄 수 있었다. 그리고 시각화를 통해 prompt의 각 단어들에 대해 모델이 attention을 잘하는 것이 흥미로웠다. 해당 세미나를 통해 이미지 생성 분야를 전부 이해할 수는 없지만 관련 세미나 빈도수가 늘어남에 따라 이해도가 높아지고 있어서 유익했다. 유익한 내용의 세미나를 해준 이진우 연구원에게 수고했다는 얘기를 전하며 세미나 후기를 마친다.

이번 세미나는 디퓨전 기반의 Image Editing에 대해 진행되었다. Image Editing은 흔히 말하는 사진 편집처럼, 주어진 이미지의 형태를 최대한 유지하면서 작은 부분만 편집하는 것을 의미한다. Diffusion 모델의 특성상 많이 무거워 Image Editing 모델 학습하는 것이 가능할까 싶었지만, 최근 LDM이 나오면서 우리 연구실 컴퓨터로도 Diffusion 연구를 할 수 있게 되었다. Diffusion에서는 Image Editing을 위해 원본 이미지 또는 원본 프롬프트와 타겟 프롬프트를 입력으로 받는다. 이후 별도의 학습없이 Image Editing을 수행한다. 본 세미나에서는 2가지 방법론을 소개한다.
1) P2P: 원본 이미지의 Attention Map을 타겟 이미지에 주입하는 것이 특징이다. 이러한 Attention Map은 원본 이미지와 타겟 프롬프트 간 Query-Key 관계를 의미하며, 이러한 관계성을 타겟 LDM에 주입한다. 하지만 무조건적으로 주입하는 것이 아닌, 기존 원본 이미지의 형태를 유지해야 하는 부분에는 주입하지만, Editing해야하는 부분은 주입하지 않는 특징을 보인다. 이는 개별적인 단어를 바꾸거나, 새로운 어구가 추가되거나, 이미지의 강도를 조절하는 Task에서 활용 가능하며, 각 Task별로 학습하는 방식이 조금씩 상이하다.
2) Plug-and-Play: P2P는 입력으로 프롬프트들을 받는 반면, Plug-and-Play는 입력으로 원본 이미지와 타겟 프롬프트를 받는다. Attention Map을 주입하는 P2P와 다르게, 이들은 Spatial Feature와 Self-Attention을 타겟 LDM의 Decoder에 주입한다는 특징을 갖는다. 어느정도 주입해야 하는가에 대해서는 세미나에 상세하게 기술되어 있다.
본 세미나를 통해 Image Editing이라는 분야를 처음 접할 수 있었다. 오히려 학습을 하지 않고 Editing이 가능하다는 것에 놀랐고, 생각보다 정교한 이미지가 나와서 한 번 더 놀랐다. 개인적으로 P2P는 단어를 바꾸는 등 특정 정해진 프롬프트에만 효과를 가져 제한적일 것 같고, Plug-and-Play가 오히려 우리 실생활에서는 더 General한 모델이라는 생각이 들었다. 또한 이들의 공통적인 특징인 타겟 모델에 Feature를 주입하는 것이 어떻게 보면 흔히 Semi/Self에서 적용되는 EMA느낌과 비슷하다는 생각이 들면서, 여러모로 연구 아이디어는 돌고 도는 것이라는 생각을 한 번 더 하게 되었다. 유익한 세미나를 준비해준 이진우 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.

이번 세미나는 Image Editing with Diffusion Model이라는 주제로 진행되었다. 최근 진행되었던 세미나 및 연구 미팅을 통해서 Diffusion Model에 대해 접할 수 있었고 더 나아가 이미지 수정이라는 분야에 대해 배울 수 있어서 흥미로웠다. 본 세미나에서 크게 2가지의 방법론을 소개하였는데 2가지 방법론 모두 Fine-tuning과 학습할 필요가 없는 Editing 기법 이라는 것이 매우 인상 깊었다. 우선 첫번째인 Prompt-to-Prompt를 소개하였는데 해당 방법론은 이미지를 생성하는 과정 중에 Attention Map 정보를 주입하여 원본의 이미지의 형태는 유지하면서 특정 부분을 수정하는 방법론이다. 그리고 보다 세부적으로 Attention Map을 수정하는 방식이 Prompt의 변화에 따라 3가지를 구별되며 각각에 대해 자세히 설명하였다.
- Word Swap : Editing 하는 과정에서 바뀐 단어만 변경하고 기존의 전체적인 틀은 유지하기 위해서 노이즈를 제거하는 과정은 기존의 Prompt를 사용하고(Attention Map) 특정 시점 이후에 새로운 Prompt를 사용하여 노이즈를 제거하는 방식
- Adding a new phrase : 기존의 Prompt에 새로운 문장이 추가되는 경우이며, 기존의 Prompt와 새로운 Prompt이 겹치는 부분을 찾아주는 함수인 Alignment 함수를 사용한다. 추가된 문장 부분에서는 새로운 Prompt의 Attention Map을 사용하고 겹치는 부분에서는 기존의 Prompt의 Attention Map을 사용
- Attention Re-weighting : Prompt에서 특정 단어의 영향력을 조절하는 것이다. 조절을 하고자 하는 Attentin Map에 가중치를 곱해줌으로서 수정된 이미지를 생성
이러한 Prompt-to-Prompt는 Attention Map을 사용하는데 당연하게도 Attention Map은 저화질이기 때문에 정교한 수정이나 객체의 이동이 어렵다고 한다. 두번째로 Plug-and-Play 방법론을 소개하였는데 원본 이미지를 복원해낼 때 Residual Block 내의 spatial feature와 Self Attention을 사용해서 원본 이미지의 형태는 유지하면서 바꾸고자 하는 부분을 변화하게 된다. 이때 각 정보를 어느 Layer에서 주입 하는지 논문에서 실험적으로 증명하고 있는데 해당 Idea를 한번 실험 해보는 것에 그치지 않고 다양하게 변경하며 실험하여 가장 최적의 값을 찾아내는 것이 중요하다는 것을 새삼 느낄 수 있었다. 소개한 방법론에서 각각의 과정이 정확히 어떻게 돌아가는지는 더 공부를 해야겠지만 어떤 방식으로 이미지를 수정하고 또 어떠한 아이디어를 활용하였는지 알 수 있어서 재밌는 세미나였다. 유익한 세미나를 준비해준 이진우 연구원에게 고맙다는 말을 전하며 이상으로 세미나 후기를 마친다.

Conditional diffusion 모델 등장 이후로, 텍스트와 같은 condition(prompt)을 입력 받아 사용자 의도를 반영한 고퀄리티 이미지 생성이 가능해지게 되었다. 더 발전된 기술로 Image Editing 기법이 존재하는데, 해당 기법은 생성된 이미지의 형태를 최대한 유지하면서 사용자의 의도를 반영해 이미지 일부를 편집하는 기술을 의미한다. 단순히 새로운 이미지를 생성하는 것이 아니라, 원본 이미지의 구조를 최대한 보존하면서 이미지 일부 영역을 의도에 맞게 생성하는 것이 목표이다. 본 세미나를 통해 Diffusion 모델 기반 대표 이미지 편집 기법인 Prompt-prompt와 Plug-and-play를 자세히 알아갈 수 있었다. 해당 기법들은 Latent diffusion model 내부의 작동 원리를 조금씩 조작해가면서 이미지가 어떻게 생성되어지는가 관찰하면서 발전한 연구들로 이해하였다. 모델 파라미터가 freeze된 상태로, 이미지 생성 시 사용되는 cross attention map, Residual block spatial feature, self attention feature들을 조작하며 이미지 편집을 수행하고 있는데, 미세 조정 학습 혹은 재학습 없이도 이미지 편집이 가능한 것은 매우 흥미로운 사실 중 하나였다. 지도학습에서도 이렇게 모델 내부의 특정 파라미터 혹은 특징들을 변경해가면서 성능 향상이나 원하는 특성을 모델에 심어보는게 가능할 것 같기도 하다. 관련 주제로 진우가 열심히 연구하고 있는 것으로 알고 있는데, 본 세미나 준비를 통해 많은 것을 얻어 갔기를 바라며, 세미나 후기를 마치도록 한다.

Diffusion으로 생성된 Image에 변형을 주는 Image Editting에 대해 알아보았다. 실제로 Image Diffusion 분야에서 어쩌면 가장 필요한 어플리케이션이 아닐까 생각이 든다. 특정 프롬프트로 이미지를 생성한 사용자가 이미지의 일부만 수정하고 싶어도, 기존의 방법론들의 경우 랜덤성의 존재 혹은 기존 프롬프트와 독립적으로 생성되다보니 너무 다른 이미지가 나오는 상황이 비일비재했다. 가령 금일 세미나의 예시처럼 객체만 바꾸고 싶다거나 색만 바꾸고 싶을 뿐인데, 완전히 다른 이미지가 생성된다는 것이다. Image Editting은 단순히 고품질의 이미지를 생성하는 것을 넘어서 그것을 고칠 수 있는 하나의 툴을 제공한다고 볼 수 있다. Prompt-to-Prompt와 Plug-and-Play에 대해 소개를 해주었는데, 두 방법론은 Image Editting 입장에서는 같은 결이지만 문제 상황이 다른 점을 매우 잘 짚어주었다. Prompt-to-Prompt는 사용자가 원본 프롬프트를 알고 있는 상황에서 사용할 수 있다. 하지만 실제 세상에서는 프롬프트 없이 내가 웹에서 크롤링한 이미지를 편집하고 싶을 수 있다. 이러한 상황을 고려해볼 때 Plug-and-Play가 좀 더 challenging한 상황을 가정하고 연구했다고 판단이 든다. 하지만 motivation이나 실험 설계적으로 봤을 때, 개인적으로 Prompt-to-Prompt가 좀 더 탄탄하다고 생각한다. 세미나 20p에서 random seed와 attention map가 이미지 변형의 핵심이라는 것을 너무나 직관적인 예시로 잘 설명해주었고, 대표적인 Image Editting의 갈래로 word-swap, new phrase, attention-reweighting에서 어떻게 attention map을 변형하는가에 대한 방법론은 매우 논리적이고 직관적이다. 단점이라면 세 가지 케이스외에 다른 케이스들도 현실에서는 존재한다는 것과 케이스 별로 attention map을 변형시키는 방법이 달라 범용적이지 못한다는 것이다. Plug-and-Play이는 원본 프롬프트를 가정하지 않기 때문에 좀 더 범용적이지만, Feature and Attention Injection이 어느 레이어부터 작동 되야하는지에 대해 너무 실험으로만 보인게 아닌가 싶다. 레이어4~8까지 주입해야한다는 결과는 너무 특정한 예시만 가지고 판단한 것은 아닌지, 그리고 LDM말고 다른 backbone을 썼을 때는 해당 결과가 consistent하지 않지 않을까라고 생각한다. 세미나 똑부러지게 만든다고 고생한 진우에게 감사의 말을 전한다.