- 2024년 2월 16일 오전 1:30
- 조회수: 30086
INFORMATION
- 2024년 2월 16일
- 오전 9시 ~
- 고려대학교 신공학관 218호
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
[1] Nichol, A. Q., Dhariwal, P., Ramesh, A., Shyam, P., Mishkin, P., Mcgrew, B., ... & Chen, M. (2022, June). GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models. In International Conference on Machine Learning (pp. 16784-16804). PMLR.
[2] Saharia, C., Chan, W., Saxena, S., Li, L., Whang, J., Denton, E. L., ... & Norouzi, M. (2022). Photorealistic text-to-image diffusion models with deep language understanding. Advances in Neural Information Processing Systems, 35, 36479-36494.
[3] Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 10684-10695).
[4] Zhang, L., Rao, A., & Agrawala, M. (2023). Adding conditional control to text-to-image diffusion models. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 3836-3847).
[5] Huang, L., Chen, D., Liu, Y., Shen, Y., Zhao, D., & Zhou, J. (2023). Composer: Creative and controllable image synthesis with composable conditions. arXiv preprint arXiv:2302.09778.
[6] Zhao, S., Chen, D., Chen, Y. C., Bao, J., Hao, S., Yuan, L., & Wong, K. Y. K. (2023). Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models. arXiv preprint arXiv:2305.16322.
청취자 후기

원하는 이미지를 생성하기 위해서는 어떠한 이미지를 원하고 있는지 모델에게 구체적으로 알려주어야 한다. 즉, prompt engineering을 잘 해야 목표하는 이미지를 얻을 수 있는데, text prompt에 크게 의존하고 있는 기존 Diffusion 모델들의 경우 엔지니어링 과정에서 사람들이 많은 노력을 기울여야 한다는 단점이 존재해왔다. 이번 세미나에서는 텍스트 뿐 아니라 depth map, sketch, segmentation map 등등 다양한 입력 prompt 조건에 대해서도 유연하게 이미지 생성 과정을 제어할 수 있는 ControlNet, Composer, Uni-ControlNet을 다루었다. 이미지 분류 연구 쪽에서 vgg, resnet, alexnet와 같은 여러 가지 백본들이 개발되던 시기가 있었는데, 오늘 세미나를 쭉 들어보니 디퓨전 모델 연구 쪽에서도 모델 구조 ? backbone ? flow.. 쪽으로 활발하게 연구하고 있는 시기를 겪고 있는 것을 알 수 있었다. 좋은 세미나를 준비하느라 고생한 지현이에게 감사의 말씀을 전하며 세미나 후기를 마치도록 한다.

금일 세미나는 텍스트 이외에도 다양한 컨디션들을 부여하여 이미지를 생성하는 Controllable Diffusion Model을 주제로 진행되었다. 일반적으로 텍스트 프롬프트를 통해 디퓨젼 모델이 원하는 이미지를 생성하도록 guide 해주지만, 해당 방법론들은 텍스트이외 canny edge, sketch map, depth map등의 다양한 컨디션으로 디퓨젼 모델을 guide 한다. 이는 텍스트 프롬프트만으로는 사용자가 원하는 바를 명확하게 인지하기 어려우니 다양한 컨디션을 사용하여 모델이 사용자가 원하는 것을 잘 파악할 수 있다는 것이 장점이다.
[1] ControlNet: 기존 디퓨젼 모델이 학습한 것을 유지하기 위해 frozen시켜놓고, 대신 각 컨디션을 디퓨젼 모델에 주입할 수 있는 adapter들을 학습한다. 이때 기존 디퓨젼 모델이 학습한 내용을 유지하면서 컨디션 adapter를 학습하기 위해 Zero Convolution이라는 방법을 활용하였다.
[2] Composer: 이미지는 여러 요소로 이루어져 있다는 아이디어에서 출발한다. 이미지를 분해하였다가 각 요소들을 다시 합성하는 디퓨젼 모델이다. Composer는 이미지로부터 semantic, depth map, sketch map, 등 총 8개의 다양한 컨디션들을 추출한다. 이때 컨디션들을 3개의 Global 컨디션과 5개의 Local컨디션으로 나누는데, Global 컨디션은 이미지 전체에 대한 정보를 가지는 조건들을 의미하고 Local 컨디션은 이미지내 특정 영역이나 구성 요소를 표현하는 조건들이다. 분해한 컨디션들을 디퓨젼 모델에 입력하여 최종적인 이미지를 생성하는 것으로 이해하였다.
[3] Uni-ControNet: 기존 ControlNet은 각 컨디션마다 별도의 Adapter를 학습하는 단점이 있는데 이를 보완하기 위해 등장한 방법이 Uni-ControNet이다. 컨디션을 Global과 Local 컨디션으로 정의하고 Local Condition들은 concat하여 이를 하나의 입력으로 만들었다. Global 컨디션은 clip image encoder로 embedding을 구한뒤 이를 텍스트 프롬프트와 concat하였다. Concat하는 방식을 통해 기존 ControlNet 대비 학습하는 adapter 수를 줄였다고 이해하였다. 신기한 점은 모델을 학습할 때는 여러 Local 컨디션들을 concat하여 학습하였는데, Local 컨디션을 하나 혹은 두개만 입력하더라도 훌륭한 이미지가 생성되었다는 것이다.
텍스트 프롬프트만으로는 사용자가 생성하고자 하는 것을 완벽하게 이해하지 못하기 때문에 이러한 Controllable Diffusion Model들이 연구되고 있다는 것을 알 수 있었다. 이는 사람도 마찬가지라고 생각한다. 말로만 설명하면 이해하기 어렵기 때문에 부가적인 설명을 위해 예시 그림이 주어지는 것처럼 말이다. 유익한 세미나를 준비해준 지현이에게 고맙다는 말을 전하며 세미나 후기를 마친다.

이번 세미나는 Controllable Diffusion Model에 대해 진행되었다. Controllable Diffusion Model은 Conditional Diffusion Model의 일종으로 주어진 이미지를 “사용자 입맛”에 맞게 변경하고자 하는 목적을 가지며, 이를 Diffusion으로 구현하고자 한다. 본 세미나에서는 관련 방법론 3가지를 소개한다.
1) ControlNet: Adapter를 활용하여 “사용자의 입맛”을 학습하는 것을 제안한 방법론이다. Adapter는 새로운 지식을 추가할 수 있는 도구정도로 이해할 수 있으며, 이때 새로운 지식은 “사용자의 입맛”일 것이다. 이를 통해 기존에 학습된 가중치는 유지하면서 새로운 조건에 대해 모델을 조정한다. 이때, Zero Convolution을 활용한다는 특징을 갖는다. 이는 노이즈로 가중치를 초기화한 것 보다 학습이 천천히 이루어져 특징이 왜곡되는 것을 방지할 수 있는 효과를 갖는다.
2) Composer: 결국 핵심은 Global 및 Local Condition을 활용한다는 것이다. 이미지를 입력 받고, 특정 개수의 조건들로 이미지를 분할 후, 이들을 함께 학습한다. 이미지를 Depth Map 등 상세한 요소들로 분리하는 것부터 큰 Cost가 들 것으로 예상되며, 상세한 정보를 원할수록 이러한 Cost는 기하급수적으로 커질 것이다. 또한 전체 모델을 학습할 것이기에, Cost 측면에서 단점이 눈에 띄는 방법론이다.
3) Uni-ControlNet: Adapter를 활용하면서, Local 및 Global Condition을 모두 활용한다. 이는 위 2가지 방법론의 장점을 모두 결합했다. Global 정보는 따로 분리하는 대신, CLIP Encoder를 활용하며, Local Adapter는 여러 Condition을 Channel-wise Concat 하는 전략을 활용한다. 이후 각 Adapter는 개별적으로 미세조정된다. 아마 Adapter만 미세조정하기에, Composer보다는 Cost가 조금 덜 하지 않을까 싶다.
이번 세미나를 통해 Diffusion 모델의 새로운 방향성을 확인할 수 있었다. 2023년에 나온 최신 방법론들이라 요즘 트랜드를 알 수 있었고, 꽤나 직관적으로 설명해주어 쉽게 이해할 수 있었다. 장표나 설명만 보더라도 논문을 이해하기 위해 얼마나 노력했는지 알 수 있었던 세미나였다. 유익한 세미나를 준비해준 윤지현 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.

조건을 입력하여 이미지를 생성하는 task에서 stable diffusion이 비약적인 성능 발전을 이루어냈지만, 그 조건은 대부분 텍스트의 형태이다. 텍스트로 받은 입력은 그 설명이 부족하거나 사용자가 머릿속에 그리고 있는 모습을 그대로 표현할 수 없는 경우가 발생하므로 다양한 조건을 고려하는 것이 controllable diffusion model의 목적이다. 이 과정에서 여러 가지 옵션을 가진 모델을 생성할 것인지, 아니면 완성된 모델에 조건을 추가할 것인지로 구분할 수 있다.
먼저 완성된 모델에 조건을 추가하는 방법으로 ControlNet과 Uni-ControlNet을 소개하였다. 이미 성능이 좋은 stable diffusion 모델을 최대한 활용하여 추가적인 input에 따라 모델을 build하는 방법이다. 외부 네트워크를 만들어 학습을 가능케하고, weight는 사전 학습된 것을 보존한다. 이 때 핵심은 zero convolution을 사용한 controlNet을 추가하는 것이다. 실사용이라는 측면에서 생각해보면 이미지 생성을 위해 뭔가 다른 조건을 만들어야 하는 것이 오히려 더 귀찮을 수 있지 않을까? 텍스트를 잘 보완해서 쓰는 것이 사용편의는 훨씬 높지 않을까란 생각이 들었다. 이런 관점에서는 세미나에서 보여준 prompt없이 다른 조건을 받는 경우가 오히려 더 유의미하거나 효과적일 수 있을 거란 생각을 하였다.
Composer는 새로운 모델을 생성하는 방법인데, 이미지를 다양한 representation으로 분해하였다가 이 집합을 다시 condition으로 하여 재구성한다는 점이 새로웠다. 8개의 representation으로 어떤 방식으로 분해 하였는지가 궁금하였는데 이 부분은 자세히 찾아보아야겠다. 이 과정에서 이미지 전체 및 구성 요소에 대한 조건과 결합 전략을 설정하는 과정이 포함된다. 결과적으로 condition에 맞게 compositional한 이미지를 높은 퀄리티로 생성할 수 있으나, 새롭게 생성해야 하는 만큼 비용도 매우 크게 발생한다.
잘 모르는 사람을 위해 최대한 쉽게 설명해주었으나, 이 모델들을 다 이해하기 위해 꽤나 많은 노력이 필요했을 것 같다. 어렵게 이해한 내용을 쉽게 잘 전달해준 윤지현 연구원께 고맙다는 말을 전하며 세미나 후기를 마친다.