- 2023년 6월 16일 오후 5:34
- 조회수: 20175
REFERENCES
INFORMATION
- 2023년 6월 16일
- 오전 12시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
청취자 후기

오늘은 종현이가 Diffusion의 가장 Basic한 모델인 DDPM부터, 허구헌날 Medium이나 매체에서 알람이 떠서 그만 보고 싶을 정도로 유명한 Stable-Diffusion까지 총 3개의 논문에 대해 설명하며 세미나를 뒤집어 놓았다. 논문이나 연구 분야에 대한 편식이 나름 심한 편이라 강화학습이나 자가지도학습말고는 무미건조한 반응으로 보는데, 요새 Diffusion이 하도 인기가 급상승하기도 하고 종현이가 세미나한다길래 가슴이 웅장해지는 느낌으로 시청했다.
금일 소개한 논문은 1. Unconditional Diffusion 모델이면서 가장 대표적인 Diffusion 모델인 DDPM, 2. GAN으로 따지자면 Conditional GAN처럼 이미지를 생성함에 있어 Condition을 걸어주기 위해 제안된 CFG, 3. Diffusion 모델의 학습 속도를 개선(정확히는 Perceptual Compression Phase 시간 단축)을 위해 AutoEncoder와 Latent Representation을 접목한 LDM으로 총 3개이다.
종현이가 참으로 기깔나게 잘 설명하였지만, 나의 이해력의 한계로 인해 CFG에서 Score Function이 뜬금 없이 왜 나왔는지, Classifier Guidance를 어떻게 잘 요리조리 볶아야 연금술 마냥 32page의 오른쪽 수식이 나오는지 완벽하게 이해하지는 못하였다. 세미나만 보고 완벽하게 이해하길 바라는건 너무 욕심이고, 이번 계기를 통해서 DDPM부터 차근히 읽어봐야겠다는 동기를 얻게 되었다.
금일 세미나에서 가장 확실히 이해가 잘되고 무릎을 탁 쳤던 부분은 DDPM의 Forward Process에서 일일이 T번 수행할 필요 없이 한번에 X_T를 구할 수 있는걸 보여준 15p이었다. 또한 다음장에서 친절한 금자씨마냥 해당 과정을 예제 코드로 올려준 것 또한 감동이었다.
금일 세미나를 만드느라 고생한 종현이에게 감사의 말을 전한다.

이번 세미나는 Conditional Diffusion Model에 대해 진행되었다. 초기의 생성 모델은 Unconditional Model로 의도와는 다른 이미지들을 생성했지만, 최근에는 Condition을 줄 수 있는 방법론들이 등장하며 인간이 의도한 이미지를 생성할 수 있게 되었다. 본 세미나에서는 이처럼 생성모델인 Diffusion에 Condition을 줄 수 있는 방법론 2가지를 소개한다.
먼저 Classifier Free Guidance(CFG)는 기존 Classifier Guidance의 한계를 지적하며 시작한다. Classifier Guidance는 각 Class로 구분하는 사전학습 모델의 Gradient를 함께 활용하여 Condition을 부여하는데, 이때 사전학습 모델을 추가적으로 필요하다는 한계를 갖는다. CFG는 기존 Classifier Guidance 수식을 다르게 전개함으로써, 이러한 사전학습 모델이 불필요하다고 증명한다. 이후, 각 Loss를 Conditional Score와 Unconditional Score로 나눔으로써 Condition에 대한 사전학습 모델 없이 Conditional Generation이 가능하다고 제안한다.
두 번째로 LDM은 Autoencoder를 함께 활용한 Conditional Diffusion 모형이다. 일반적인 Diffusion은 Perceptual Compression에서 많은 시간이 소요되는데, 해당 부분을 Autoencoder로 대체함으로써 시간을 절감했다는 특징을 갖는다. 이때, Autoencoder의 Encoder로 입력 이미지를 Encoding하고 CLIP의 Text Encoder로 Text Condition을 한 후, Diffusion Process에서 각 Feature들을 Cross Attention함으로써 Conditional Diffusion을 완성할 수 있었다.
본 세미나를 통해 Conditional Diffusion에 대해 접할 수 있었다. Diffusion 자체에 대해서도 아직 완벽하게 이해되지 않았었는데 초반 Diffusion에 대한 설명 장표들은 Diffusion을 더 깊게 이해하는데 도움이 되었다. 아직까지 CFG에 대해서는 완벽하게 이해하지는 못했다. 기존 식을 어떤 식으로 다르게 전개했는지에 대해서는 논문을 다시 찾아봐야 할 것 같다. 추가적으로, 본 세미나를 청취하며 이전에 공부했던 Conditional Generation 중 하나인 Super Resolution을 리마인드 할 수 있었으며, 이전에 공부했던 것과 다른 관점에서 해당 연구를 떠올릴 수 있었다. 유익한 세미나를 준비해준 이종현 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.

이번 세미나는 Conditional Diffusion Model이라는 주제로 진행되었다. 최근 워낙 이슈가 되는 분야이기도 하고 AI를 전혀 공부하지 않은 일반인에게도 가장 가까이 와닿는 주제인 만큼 경청하지 않을 수가 없었다. Diffusion에 대한 정의를 시작으로 DDPM을 설명하였는데 올해 초 조한샘 연구원의 세미나에서 공부했던 내용이고, 특히 Forward/Reverse Process를 굉장히 깔끔하게 잘 설명해줘서 쉽게 이해하면서 들을 수 있었다. 하지만 이러한 DDPM은 Condition을 필요로 하지 않기에 이미지 생성에 조건이 들어가기 위하여 Classifier Guidance(CG)라는 개념을 설명하였다. CG는 Noise를 추가하고 제거하는 과정, 즉 노이즈를 예측하는 네트워크를 구성하는 것이 DDPM의 핵심인데 이때 이미지 분류기의 Gradient 값을 추가하면 원하는 값으로 조정할 수 있다고 한다. 가우시안 노이즈에서 특정 이미지로 점차 생성해 나갈때 원하는 스케치를 추가해주면 해당 분포로 복구가 될 것이기 때문에 직관적으로 이해할 수 있었다. 하지만 CG는 추가적인 Classifier가 필요하고, 수식에 따라 노이즈가 있는 상태에서의 데이터가 필요하기 때문에 Classifier Free Guidance(CFG)가 나오게 되었다고 한다. CFG는 수식 전개에 따른 결과로 조건을 추가한 Score와 조건이 추가되지 않은 Score를 감마를 활용하여 잘 합쳐주게 되면 보다 좋은 품질의 이미지를 생성할 수 있다고 한다. 여기서 감마 값이 비중을 조절하는 하이퍼파라미터인데 일반적인 하이퍼파라미터는 0~1 사이의 값을 가지며 비중을 조절하는 반면에 1보다 큰 값이 들어가게 되어 부호를 바꿔버리는게 인상깊었다. 마지막으로 Latent Diffusion Models(LDM)를 소개하였다. 이 모델 중 하나가 Stable Diffusion이라고 하며, Diffusion 모델의 앞뒤에 오토인코더 구조를 추가하여 이미지 자체를 생성 모델이 학습하는 것이 아니라 Latent representation을 학습하게 만들어 보다 효율적이고 Condition 정보를 다양하게 입력하여 학습할 수 있다고 한다. 모델의 구조는 앞선 방법론보다 복잡하였지만 이해하는데 무리 없었다. 짧은 시간인데도 불구하고 생성모델, 특히 Condition이 주어졌을 때 어떻게 적용되는지에 대하여 개략적인 이해를 할 수 있어서 굉장히 유익하였다. 이처럼 유익한 세미나를 준비한 이종현 연구원에게 고맙다는 말을 전하며 이상으로 세미나 후기를 마친다.

이번 세미나는 Conditional Diffusion Models에 대하여 진행을 하였다. Text를 입력하면 Image로 바꿔주는 Diffusion model이 어떻게 발전이 되어 왔는지 차근차근 설명해주었다. 우선 Diffusion 즉 확산이라는 것이 Deep learning에서는 무엇으로 정의가 되는 것인지 정확한 정의가 궁금하였는데 이를 굉장히 간결하고 깔끔하게 설명을 해준다. Diffusion은 화학에서는 액체나 기체에 다른 물질이 섞이고 그것이 조금씩 번져가다가 마지막엔 일률적인 농도로 바뀌는 것을 뜻한다. 이를 Deep learning에 적용하고 변형시킨 핵심 Idea는 점진적으로 물질이 퍼져 나가는 과정을 학습 시킨다면 반대 과정도 수행 할 수 있지 않을까? 라는 것이다. 이를 이미지 분야 영역에 적용하면 물이 이미지이고 물에 섞이는 페인트는 가우시안 노이즈가 됩니다. Diffusion의 기본 모델 DDPM에서 이미지에 노이즈가 추가되는 과정(물에 페이트가 섞이는 과정)을 Forward process, 반대 과정을 Reverse process라고 한다. 이번 세미나는 Conditional Diffusion Model에 대한 진행으로 여기서 DDPM의 한계를 짚어준다. 바로 DDPM은 Condition을 필요로 하지 않기 때문에 Class label을 잘 반영하지 못한다는 한계점이 있다. 이를 극복하기 위해서 Classifier Free Guidance(CFG)가 제안되었다. Classifier Guidance(CG)는 이미지 분류기의 Gradient 값을 추가하면 원하는 값으로 Conditional Sampling이 가능하다는 것을 말한다. 하지만 추가적인 분류 모델이 필요하다는 한계점이 존재한다. 또한, pretrained model을 사용할 수 없다는 한계점도 존재한다. 이러한 한계점을 극복하기 위해서 Classifier Guidance의 식을 다르게 전개하여 제안한 모델이 Classifier Free Guidance(CFG)이다. 이를 통해서 추가적인 Classifier 없이 condition이 반영되는 것을 조절할 수 있다. 마지막으로 Latent Diffusion Models(LDM)를 소개한다. Diffusion 모델의 앞단에는 Encoder를 뒷단에는 Decoder를 가지고 있는 Autoencoder 구조를 추가하여 연산을 latent 단위에서 진행한다는 특징을 가진 모델이다.
이로 인해서 보다 빠른 생성을 할 수 있으며, Text conditional generation 뿐만 아니라 다른 conditional generation도 할 수 있는 모델이다. 이전에 조한샘 연구원의 세미나를 통해서 Diffusion 모델에 condition을 줄 수 있다는 내용까지 학습을 하였으나 이에 더하여 이종현 연구원이 더욱 최근의 모델인 LDM 모델을 이해하기 쉽도록 설명해주어서 Diffusion 모델에 한걸음 더 깊게 다가갈 수 있었다. 최근에 생성모델의 인기는 높아지고 있고 이러한 시기에 Diffusion 모델의 동향에 대하여 유익한 세미나를 준비한 이종현 연구원에게 고맙다는 말을 전하며 이상으로 세미나 후기를 마친다.

Conditional Diffusion Models을 주제로 한 세미나를 청취하였다. 세미나 청취 이전에는 디퓨전 모델이 고품질의 다양한 이미지 생성에 효과적이라고만 알고 있었다. 그러나 종현이 덕분에 Diffusion 모델이 어떻게 학습되며 원하는 이미지를 어떻게 생성하는지에 대해 구체적으로 이해할 수 있었다. 기존에 단순히 알고 있던 Forward & Backward Process를 명확하게 이해할 수 있게 되어 좋았고, Diffusion Model의 손실함수를 계산하는 데 필요한 정답값과 모델의 예측값이 무엇인지 명확히 알게 되어, 가장 큰 도움이 되었다. 개인적으로 beta_t가 항상 뭐하는 것인지 궁금했는데, 궁금점을 명확하게 해소해준 것에 대해서도 고마움을 전한다.
또한, 디퓨전 모델로 특별히 생성하려는 이미지가 있다면, 해당 이미지에 대응되는 클래스와 클래스 분류 모델을 가져야 하는데, 이를 Classifier Guidance라고 한다. 이때, 별도의 분류 모델이 없더라도 Class guidance를 수행할 수 있는 방법도 소개되었는데, 이 방법은 오늘날 Diffusion에서 Text prompt로 원하는 이미지의 condition을 주는 데 가장 많이 사용하는 Classifier Free Guidance이다. 원하는 이미지를 어떻게 만들어가는지 구체적으로 소개되어 있으니, 여러 연구원들이 살펴보면 좋을 것 같다.
마지막으로, Diffusion 모델의 학습 Cost를 경량화하는데 가장 직관적인 방법으로 높은 효율성을 취하고 있는 LDM 소개로 세미나가 마무리되었다. 데이터를 한 번 요약된 Representation vector로 Diffusion 모델을 학습하는 것인데, 말은 쉽지만 구체적인 작동 과정들이 있으니 살펴보기를 바란다.
좋은 세미나를 준비하느라 고생한 종현이에게 감사의 말씀을 전하며, 세미나 후기를 마치도록 한다.