- 2023년 2월 10일 오전 9:01
- 조회수: 12657
INFORMATION
- 2023년 2월 10일
- 오후 1시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
청취자 후기

이번 세미나는 Diffusion 모델에서 학습 속도를 개선하는 방법에 대해 진행되었다. Diffusion의 경우 다양하고, 고퀄리티 이미지를 잘 생성해내는 반면, 생성속도가 느리다는 한계가 있다. 따라서 본 세미나에서는 이러한 Diffusion의 단점을 Sampling 속도를 개선함으로써 극복한 연구들에 대해 다룬다. 첫번째로 소개한 방법론은 DDIM이다. 이는 기존 Diffusion모델이 갖는 Markovian성질을 노이즈 이미지를 조건부확률에 추가하여 Non-Markovian으로 정의함으로써 해결하였다. 두번째 방법론은 DDGAN이다. 이는 Diffusion의 Forward, Reverse Process에 GAN의 생성 및 식별과정을 추가하여 생성된 이미지의 퀄리티를 높였다. 이는 Step수를 크게 가져가기 위해 전이확률의 정규분포 가정을 깨기 위해서 활용되었다. 이때, GAN의 Generator으로 Stochastic하게 예측한 값을 활용하여 이를 구현하였다는 의의를 갖는다. 세번째 방법론은 Knowledge Distillation을 기반으로 한 연구를 소개한다. 무거운 Teacher모델을 활용하여 가벼운 Student 모델을 만드는 것이 핵심인 Knowledge Distillation을 통해 Teacher 모델의 여러 Step 예측 결과로 Student 모델은 하나의 Step처럼 학습함으로써 Step수를 간소화할 수 있었다. 네번째 연구는 Knowledge Distillation과 Classifier-free guidance를 활용한 연구를 소개한다. Classifier-free guidance의 경우 Conditional 모델과 Unconditional 모델을 활용하여 Classifier 없이 Guidance를 가능하게 한다. 이 경우, 두 모델을 활용하기에 Forwarding과정이 두 번 필요하다는 단점을 가지나, 이를 Progressive Distillation으로 극복하였다.
본 세미나를 통해 Diffusion에 대해 처음 접할 수 있었다. 생성모델 쪽에서는 GAN보다 Diffusion이 많이 언급되는 만큼 Diffusion은 최근에 매우 핫한 분야라고 할 수 있다. 그러나, 인기있는 만큼 꽤나 어려운 분야라고 생각들었다. 특히, 두번째 연구의 DDGAN에서 GAN을 추가함으로써 정규분포 가정이 왜 깨진건지, 그리고 네번째 연구의 Conditional 모델과 Unconditional 모델을 활용하여 Classifier를 어떻게 대체했는지 등에 대해서는 아직도 이해가 안되는 부분이 있다. 이러한 부분은 추후 기회가 된다면 다시 공부해보고 싶다. 개인적으로는 Knowledge Distillation으로 Step을 간소화한 부분이 가장 와닿았다. 모델의 파라미터 수 경량화 입장에서만 Knowledge Distillation을 바라보았었는데, 이처럼 학습 Process 간소화에 적용한 것은 Knowledge Distillation의 다양한 활용가능성을 다른 시각에서 알 수 있었다. 유익한 세미나를 준비해주신 조한샘 연구원님께 감사드리며 이상으로 세미나 후기를 마친다.

해당 세미나는 Diffusion 모델들의 가장 큰 단점인 느린 샘플링 속도에 관한 연구를 소개한다. Diffusion 모델은 높은 Fidelity 와 Diversity 의 샘플을 생성할 수 있는 반면, 본질적으로 Markov Chain 으로 정의되기 때문에 정의된 timestep 만큼 denoising 을 진행해야만 원하는 prior 에서 샘플링을 할 수 있다. 예시로 Diffusion 모델들의 모태가 되는 DDPM 의 경우, 5만개의 32 x 32 이미지를 Nvidia 2080 Ti 에서 생성하는데 있어 20시간이 걸리는 반면, GAN 기반 모델들은 5만개의 이미지를 생성하는데 1분이 걸리지 않는다. 이에 본 세미나는 Diffusion 모델들의 샘플링 속도를 향상시키기 위한 연구들을 소개한다.
첫번째로 소개된 연구는 DDIM 이며, DDIM 은 기존 DDPM의 formulation 에 x0 를 conditioning 함으로써 Markovian 성질을 깨는 연구이다. Forward process 를 Non-Markovian 으로 정의하면 Reverse process 또한 Non-Markovian 이 되기 때문에, 샘플링 스텝을 사용자가 지정하여 더욱 빠른 샘플링을 진행 할 수 있다는 연구이다.
두번째로 소개된 연구는 DDGAN 이다. 해당 연구는 학습을 진행하는데 있어 기존 DDPM 의 가우시안 정의가 empirically 옳지 않다는 지적에서 출발하며, DDIM 에서 사용하는 condition 에 stochasticity 를 GAN 의 생성자를 통해 주는 방법론이다.
세번째로 소개된 연구는 Progressive Distillation/Guided Distillation 이다. 이는 모델의 경량화를 위한 Knowledge Distillation 에 기반하는 연구이며, pretrained 된 선생모델이 샘플링을 하는데 있어 2스텝에 걸쳐 수행하는 작업을 학생모델이 1스텝에 수행하도록 학습이 되는 방법론이다. 허나 Progressive Distillation 에서 소개되는 방법론은 샘플링을 할 때 사용자가 원하는 condition (text prompt, image class) 을 줄 수 없다는 단점이 있다. 이는 저자들의 후속연구인 Guided Distillation 에서 해결이 되며, 기존 Progressive Distillation 에 먼저 두개의 Classifier-Free Guided 모델을 하나로 합치는 단계가 추가 된 방법론이다.
Diffusion 모델에서 샘플링 속도의 향상은 다양한 방법론들로 빠르게 연구가 진행이 되고있는 분야이다. 본 세미나에서 소개 된것 처럼 Score SDE 가 등장하며 Diffusion 모델을 Continuous Time 에서의 확률미분방정식 (SDE, Stochastic Differential Equation) 으로 정의 할 수 있다는게 밝혀졌다. 이에 SDE 를 푸는 Solver (샘플링을 수행하는 알고리즘) 들 또한 샘플링을 수행하는데 있어 사용 될 수 있다는 것이 증명되며, 더욱 빠른 샘플링과 높은 퀄리티의 샘플링이 가능하다는 것 또한 밝혀졌다.
이에 반해 Progressive Distillation/Guided Distillation 은 샘플링을 Solver 로 접근하지 않고, 모델의 경량화에 초점을 둔다. 요즘 가장 큰 이슈몰이를 하고 있는 대형 Diffusion 모델들 중 Imagen 은 Classifier-Free Guidance 의 중요성을 논문에서 재차 강조한다. 하지만 Classifier-Free Guidance 의 최대 단점은 사실상 두개의 모델 (Conditional, Unconditional) 에서 샘플링을 하며 Classifier Guidance 의 효과를 모방하기 때문에, 아무리 좋은 solver 들이 사용된다 해도 하나의 모델의 속도보다 떨어질 수 밖에 없다. Guided Distillation 은 Classifier-Free Guidance 모델을 하나의 경량화된 학생 모델로 전이하기 때문에 Classifier-Free Guidance 의 장점과 이전보다 빠른 속도로 샘플링을 하는 방법론을 제시한다.
생성모델, 특히 Diffusion 기반 모델들에 대한 연구는 따라잡을 수 없을 정도로 빠르게, 그리고 산발적으로 진행되고 있다. 이에 따라가기 쉬운 흐름으로 세미나를 준비해주신 조한샘 연구원님께 감사드리며 세미나 후기를 마친다.

이번 세미나에서는 생성 모델이 만들어낸 결과물의 품질은 유지하면서도 샘플링 속도를 개선한 denoising diffusion 계열의 모델들을 다루었습니다. denoising diffusion 모델들은 생성 이미지의 품질이 우수하고 다양한 이미지를 생성한다는 장점이 있지만 0시점에서 t시점까지 순차적으로 노이즈를 제거하는 방식으로 이미지를 생성하기 때문에 일괄로 생성하는 GAN 계열의 모델에 비해 속도가 매우 느린 단점도 있습니다.
이러한 단점을 보완하기 위해 처음 소개된 아이디어는 노이즈를 제거하는 단계를 2개 이상으로 올리는 방식입니다. 이를 위해 DDIM모델에서는 markov chain 기반의 forward, reverse process를 non-markov chain 방식으로 정의하고 loss function 정의함으로써 단계 수를 종전의 DDPM 대비 1/10 수준으로 줄이는 데 성공합니다. 단계를 더 줄이기 위한 추가 아이디어로 DDGAN에서는 reverse process를 gaussian에서 GAN을 사용하는 방식으로 개선함으로써 DDPM 대비 1/400 수준까지 줄이게 됩니다.
지금까지는 종전 모델의 수학적 가정을 개선하는 수리적 접근이었다면 이후 소개되는 모델은 distillation을 사용하였습니다. 잘 학습된 teacher 모델을 통해 단계가 절반 수준인 student 모델을 학습하는 방식이며 이를 반복함으로써 원하는 단계까지 줄이는 데 성공하였습니다.
마지막 소개된 모델은 여기에 classifier-free guidance를 활용하였습니다. 생성되는 이미지의 다양성과 생성 이미지의 품질의 trade-off를 조절하는 역할을 담당하며 이미지의 다양성을 다소 손해보더라도 품질을 높이는 방향으로 학습하도록 유도하여 student 모델의 학습을 돕는 것으로 이해했습니다.
GAN 이후 생성 모델에 대해 잘 알지 못하였는데 생성 모델의 품질을 크게 향상시킨 DDPM 모델을 알 수 있었고 이후 샘플링 속도의 단점을 개선하기 위한 많은 시도들이 최근까지도 지속됨을 알 수 있어서 매우 흥미롭게 내용을 들었습니다. 준비하시느라 수고 많으셨습니다.

이번 세미나는 "Improving Sampling Speed of Diffusion Models"를 주제로 진행되었다. Generative Learning에서는 'High-quality sampling', 'Mode coverage / Diversity', 'Fast Sampling' 세 가지 딜레마가 존재한다. 본 세미나에서는 모델이 좋은 퀄리티의 이미지를 생성하고 다양한 이미지를 생성하는 데는 좋은 성능을 보이지만 이미지를 빠르게 생성하는 측면에서는 단점을 보이는 Denoising Diffusion Models에 관한 내용이 주를 이루고 있다.
먼저 Denoising Diffusion Models에서 근본이 되는 DDPM에 관한 설명을 시작으로 총 4가지 논문에 관해 소개되고 있다. DDPM은 forward와 reverse process 모두 여러 시점의 확률 변수가 존재한다고 할지라도 이전 시점의 변수에만 영향을 받는 Markov chain으로 정의되어 있고 reverse process는 Gaussian으로 정의되어 있다. 따라서, DDPM의 경우 reverse process에서 모든 timestep을 거치기 때문에 sampling speed가 느리다는 단점이 존재한다. sampling 속도를 향상하기 위해 DDIM에서는 기존 Markov chain으로 정의되었던 reverse & forward process를 Non-Markov chain으로 정의하면서 한계를 개선한 논문이다. DDGAN에서는 Non-Markov chain으로 reverse process와 forward process를 정의하기 위해 Generator를 사용한다. 그뿐만 아니라, Generator를 통해 랜덤성을 부여함으로써 Gaussian이라는 가정을 깨고 Step을 커지게 해 sampling 속도를 향상하였다. 그리고 세 번째 논문(Progressive Distillation for Fast Sampling of Diffusion Models)에서는 distillation을 사용하여 teacher 모델이 특정 timestep까지 예측한 값을 student 모델이 예측하게 함으로써 sampling 속도를 향상하였는데 경량화를 위해 주로 사용하였던 distillation 기법을 해당 논문에서는 sampling speed를 향상하기 위해 사용하였다는 점이 흥미로웠다. 마지막 논문은 이해가 안 되는 부분이 많은데, 핵심적인 부분은 GAN에서 사용되는 truncation trick의 역할을 하는 classifier guidance에서 classifier를 사용하지 않는 classifier-free guidance와 pregressive distillation을 진행하여 sampling 속도를 개선했다는 점인 것 같다.
항상 한샘이가 옆에서 이미지를 활용해 뚝딱뚝딱하는 모습을 볼 때마다 Diffusion은 뭘까 궁금했는데 본 세미나를 통해서 한샘이가 연구하고 있는 분야에 관해서 어느 정도 파악할 수 있었던 것 같다. 유익한 세미나를 준비해준 조한샘 연구원에게 감사드리며 이상으로 세미나 후기를 마친다.

이번 세미나는 Diffusion 모델에 대하여 진행되었다. 최근 이미지를 생성하는 방법론들이 굉장히 큰 이슈를 불러일으키고 있는 것을 확인할 수 있는데 모두 Diffusion 모델로 이루어져 있다고 한다. 다양한 채널을 통해서 해당 Task에 뛰어난 성능을 내는 AI가 있다고만 들었고 실제로 어떻게 동작하는지는 아직 살펴보지 못했었는데 이번 기회에 Diffusion 모델에 대해서 학습할 수 있어서 좋은 기회였다. 이미지를 생성하는 여러가지 방법 중 이번 세미나에서 소개하는 Diffusion 모델은 샘플링 속도가 느리다는 것이 특징이고 본 세미나에서 샘플링 속도를 개선하기 위하여 어떤 방법들이 사용되었는지에 대해서 자세히 설명하였다. 우선 DDPM 방법론을 소개하면서 시작하였고, Diffusion 모델이라는 것이 노이즈를 추가/삭제하며 새로운 이미지를 생성하는 전체적인 모델의 개념을 파악할 수 있었다. 그리고 Reverse process에서 모든 Time-step 별로 노이즈를 제거해줘야 하기 때문에 샘플링 속도가 느리다는 것을 이해할 수 있었다. 특히 딥러닝 방법론을 학습시키는데만 자원을 사용하고 추론할때는 사실상 공짜라는 생각을 가지고 있었는데 chatGPT를 포함하여 많은 AI 모델들이 상용화되면서 추론할때 혹은 생성할때 발생하는 비용을 굉장히 중요하게 다루기 때문에 과거의 편협한 생각을 조금이나마 넓힐 수 있었다. 방법론 소개로 첫번째는 DDIM을 소개하였는데 기존의 DDPM이 노이즈를 제거할때 Markov chain가정이 필요한데 이 가정을 break하여 노이즈를 제거하는 Step을 축소하는 것이 핵심이라고 이해하였다. 특이한점으로는 DDPM의 모델을 그대로 사용가능하다는 것이고 Reverse process에서만 Non-Markovian임을 이용하여 샘플링 속도를 높였다. 결국 Markov 가정을 그대로 둔체 노이즈를 제거하는 Step만 낮췄을때는 이미지의 퀄리티가 높지 않았지만 DDIM에서는 Step을 적게 사용하여도 좋은 성능을 유지한 결과를 확인할 수 있었다. 두번째는 DDGAN을 소개하였다. DDPM/DDIM의 Reverse process는 Gaussian으로 정의되는데 해당 가정을 깨고 non-Gaussian으로 Reverse process를 모델링 하게 된다. 해당 방법론의 전체적인 구조가 복잡하게 느껴졌는데 실험결과 샘플링 속도가 굉장히 증가한 것을 확인할 수 있었다. 세번째는 Distillation을 사용한 방법론이였는데 잘 학습된 Teacher 모델을 통하여 Student 모델을 만드는 과정이다. 학습된 모델로 새로운 모델을 학습한다는게 흥미로웠고 모델 경량화를 비롯해서 다양하게 쓰이는 것을 확인할 수 있었고 잘 응용하면 개인 연구에도 사용할 수 있지 않을까라는 생각도 들었다. 마지막은 Classifier-free guidance 상황하에서 Distillation을 적용한 연구를 소개하였다. 이는 DDPM의 Time-step을 Continuous하게 확장한 것이라고 한다. Classifier guidance는 이미지의 다양성과 성능 사이의 trade-off 관계를 조절하여 샘플 퀄리티를 높일 수 있는 것인데 classfier 없이 guidance를 적용하는 것이 Classifier-free guidance라고 한다. Diffusion 모델을 처음 접하였는데 다양한 방법론들을 학습할 수 있어서 의미있는 시간이였고 쉽게 이해되지 않는 부분도 있었지만 이는 스스로 추가적인 학습을 진행하려 한다. 개인 연구 주제와 달라 관심 가지지 못했던 생성 모델에 대하여 공부하고 최근 연구를 파악할 수 있어서 두 번 들었다. 유익한 세미나를 준비해주신 조한샘 연구원님께 감사드리며 세미나 후기를 마친다.

이번 세미나는 Improving Sampling Speed of Diffusion Models에 대하여 설명을 해주었다. 최근 그림을 그리는 인공지능이 많이 발전하고 있다. 해당 방법에는 Diffusion 모델이 많이 활용되고 있다. 먼저 짚고 넘어갈 것은 좋은 생성모델이란 샘플의 퀄리티가 좋아야 한다는 것과 다양한 이미지를 생성해내야 한다는 것 그리고 빠르게 이미지를 생성해내야 한다는 3가지 조건을 만족하는 모델이여야 좋은 모델이라고 이야기할 수 있다. Diffusion model은 샘플 퀄리티도 좋고 다양한 이미지도 생성하지만 샘플링 스피드가 느리다는 특징을 가지고 있다. 이번 세미나에서는 Diffusion model의 speed를 개선 시키고자 했던 연구들을 소개해준다. 우선, Diffusion model의 대표적인 DDPM에 대하여 설명을 해준다. DDPM은 사전에 작업자가 설정해놓은 스케쥴에 따라 Noise를 추가하는 Forward Process와 랜덤Noise로 부터 점점 Noise를 제거해서 원하는 Clean한 Data를 생성해내는 Reverse Process과정으로 구성 되어있다. Reverse Process를 통해서 학습을 진행하게 되고 이로 인해서 랜덤한 noise로부터 data를 생성해낼 수 있게 되는 모델이다. Speed를 높이는 첫번째 방법으로는 sampling step을 뛰어넘자는 것이다. 하지만 해당 방법은 DDPM의 process들이 Markov chain(현재 시점이 이전 시점에 의해서만 영향을 받는다)으로 정의되어 있기 때문에 step을 뛰어넘는다면 Markov chain의 가정이 깨지므로 문제가 발생한다. 두번째 방법은 DDIM(Denoising Diffusion Implicit Models)방법이다. Markov chain 가정을 깨기 위해서 Process를 Non-Markovian으로 정의하고 새롭게 정의한 Non-Markovian reverse process를 통해 sampling 속도를 향상 시킨 방법이다. 세번째 방법은 DDGAN(Denoising Diffusion GAN)방법이다. Reverse process의 step이 커지려면 reverse process가 non-gaussian이 되어야 하는 것을 파악하였고, DDPM에서는 reverse process를 gaussian으로 정의하였지만, 이러한 가정이 깨져야 한다는 것을 주장하는 방법이다. 그리고 이를 위해서 GAN방법을 적용한 방법론이다. 네번째 방법은 Progressive Distillation 방법이다. Teacher model과 Student model방법을 적용한다. Teacher model의 2step reverse process를 student 모델이 예측하도록 하여 timestep이 절반으로 줄어들게 된다. 마지막은 On Distillation of Guided Diffusion model이다. 해당 연구는 classifier-free guidance 상황하에서 Progressive distillation을 적용하여 sampling speed를 개선한 연구이다. 생성모델 중 Diffusion 모델은 제대로 접한적이 없었으나 이번 세미나를 통해서 깊이 있게 배우게 되었다. GAN 생성 모델에 대하여 최근 공부하고 있는 상황에서 새로운 생성모델에 대하여 접하게 되어 흥미롭게 세미나를 들을 수 있었다. 또한 가장 최근 연구들을 설명해주어 매우 유익한 세미나가 되었다. 유익한 세미나를 준비해주신 조한샘 연구원님께 감사드리며 세미나 후기를 마친다.

Diffusion 모델은 GAN 모델보다 다양한 종류의 데이터를 생성할 수 있는 단점을 갖고 있으나, Inference 속도가 상대적으로 느린 단점을 갖고 있다. 금일 세미나는 생성 모델인 Diffusion 모델의 Inference 속도를 높일 수 있는 방법을 토대로 진행되었다.
먼저 DIffusion 모델 개요는 아래와 같다.
1. 데이터에 작은 노이즈를 점진적으로 더해가면 결국 가우시안 노이즈가 된다. (Forward Process)
2. 가우시안 노이즈에서 노이즈를 점진적으로 제거하면 원래 데이터로 복귀할 수 있다. (Backward Process)
Note. 점진적으로 더해감 및 제거함에 대한 프로세스는 마코프 체인 프로세스라고 가정함.
따라서, 학습 및 Inference에 대한 원리는 아래와 같다.
학습: 데이터에 작은 노이즈가 더해진 것을 모델에 입력한다. 모델은 입력 받았던 데이터 내에서 어떤 노이즈를 제거해야, 더해졌던 작은 노이즈를 제거할 수 있을지 학습한다.
추론: 가우시안 노이즈에서 작은 노이즈를 점진적으로 제거하면서 결국 원본 데이터를 생성해낸다.
이 때, 추론 과정은 모든 시점을 거쳐가며 노이즈를 점진적으로 제거하기 때문에 추론 속도가 느리다. 오늘 세미나에서 소개된 추론 속도 향상법은 아래와 같다.
DDIM: 모든 시점을 거쳐가며 노이즈를 제거하기 보단, 일부 시점들만 거쳐가며 노이즈를 제거해가자. 이 때, 마코프 체인 가정이 깨지기 때문에, 이에 대한 대비책은 필요함.
DDGAN: 스텝 사이즈를 키워 원본 데이터 생성에 필요로 한 노이즈 제거 횟수를 줄이자. 스텝 사이즈를 키운 Reverse 프로세스가 가우시안 분포에 벗어나기 때문에, Reverse 프로세스에 대한 분포 학습을 GAN과 함께 수행한 방법을 제시했다.
Progressive Distillation: 사전 학습된 Diffusion(Teacher) 모델이 여러 번 Reverse Process한 결과를 단번에 예측하는 Diffusion(Student) 모델을 만든다.
Progressive Distillation+Classifier-free guidance: 사용자가 원하는 Condition(ex, class)을 줄 수 있음과 동시에 Inference 속도를 높이도록 제안된 모델.
한샘이가 진행해 준 세미나가 없었으면 Diffusion에 대한 연구 트렌드를 따라가기 어려울 것으로 생각된다. 좋은 세미나를 준비해 준 한샘이에게 감사의 말을 전하며 세미나 후기를 마치도록 한다.

이번 세미나는 Diffusion 모델들의 샘플링 속도를 향상시킨 방법론들에 대해 소개 되었다. 평소에 들어보기만 하고 학습해보지는 않았던 분야이기 때문에 난이도에 대한 걱정과 또한 호기심을 가지고 세미나를 청취할 수 있었다.
DDPM(Denoising Diffusion Probabilistic Model)은 reverse process 단계에서 모든 timestep을 거치기 때문에 sampling 속도가 느리다는 단점을 가지고 있다. 단순히 sampling step을 뛰어넘자는 아이디어가 적용되기도 했지만 이는 눈에 보이는 성능 저하를 야기하였다. 이는 DDPM이 이전 step의 변수에만 영향을 받는 Markov chain으로 정의되었기 때문인데, 이를 극복하고자 Non-Markovian으로 정의된 DDIM(Denoising Diffusion Implicit Model)이 개발되었다. 이는 DDPM으로 학습된 모델을 활용할 수 있으며 reverse process 단계에서 Non-Markovian을 통해 sampling 속도를 향상 시켰다. 또한 속도를 향상 시키면서 좋은 성능 또한 유지하여 목적을 이루었다. 다음으로는 DDPM의 reverse process 단계에서 step size를 보다 키우기 위한 DDGAN(Denoising Diffusion GAN)에 대해 소개되었다. Step size가 커지기 위해서는 Gaussian 가정이 깨져야 하기 때문에 본 모델은 동일한 x_t를 입력 받아도 서로 다른 x_0를 예측하도록(stochastic) 모델에 랜덤성을 부여하였다. 일반적인 GAN 모델의 구조를 활용하여 reverse process 분포를 학습한다. 이 모델 또한 속도를 향상 시키면서 좋은 성능을 유지하였다. 다음으로 소개된 방법론은 Teacher model과 Student model을 활용하여 distillation을 통해 timestep을 감소하는 방법론과 이에 Classifier-free Guidance를 활용한 방법론이다.
평소에 접해보지 못했던 Diffusion 모델들에 대한 세미나라 매우 어려울 것 같다는 생각이 들었었지만 본 세미나에 이해하기 쉽게 정리되어 잘 받아들일 수 있었다. 시간이 오래 걸리는 생성 모델을 효율적으로 발전시킨 여러가지 방법론들에 대해 익힐 수 있었고 이 역시 정말 쉽지 않은 분야라는 생각이 다시금 들었다. 좋은 세미나 자료를 만들어주신 한샘이형께 감사드리며 이상으로 본 세미나 후기를 마친다.

금일 세미나는 "Improving Sampling Speed of Diffusion Models" 주제로 한샘이가 발표하였다. Diffusion Model은 생성 모델에서 최근 각광받고 있는 방법이며 이번에 소개한 주제는 생성 속도를 극복하는 연구들이었다. 오늘 소개된 4가지의 논문은 문제점을 개선하기 위해 다양한 방법을 활용하였다. 이번 세미나는 Diffusion Model이 무엇인지 배울 수 있었지만 어떻게 문제를 해결하는지 다양한 돌파구들도 알아볼 수 있었던 유익한 시간이었다. 한샘이가 최근 연구하고 있는 결과물이 궁금해서 가끔 보는데 생성된 이미지의 퀄리티가 상당하였다. 한샘이가 연구실 최초로 Diffusion Model의 좋은 연구에 대한 결실을 맺길 진심으로 응원한다.

이번 세미나는 Diffusion Models Speed를 주제로 진행되었다. AI 이미지 생성 모델이 가져야 하는 특징은 좋은 퀄리티, 다양함, 빠른 생성 속도이지만 기존 모델들은 빠른 생성 속도를 갖지 못하여 이것을 개선하는 방법론들이 주목되고 있다. Diffusion Models을 일반적으로 학습한다는 것은 노이즈가 있는 데이터에서 클린한 데이터로 노이즈를 제거해가는 reverse process를 말한다. 해당 프로세스는 각 시점마다 노이즈를 제거하여 모든 timestep을 거치기 때문에 시간이 오래 걸리고 이러한 시간을 개선하는 방법론은 다음과 같다.
첫 번째 소개된 DDIM은 기존의 마르코프 체인을 사용하지 않고 새로운 리버스 프로세스를 이용하는 방법으로 샘플링 속도가 향상되었다. 두 번째 소개된 DDGAN은 Non-가우시안 프로세스로 진행되어야 한다는 가정을 갖고 있는 방법론으로 랜덤하게 샘플링하는 reverse process를 가진다. 세번째 소개된 Progressive Distillation은 Mean-Teacher 구조인 distillation을 통해 timstep을 감소시킨다.
세미나를 들으며 학부 시절 StyleGAN을 통해서 토이 프로젝트를 했던 게 기억이 났다. 해당 프로젝트를 하면서 Pre-trained 모델 사용과 저해상의 이미지를 인풋으로 넣어도 웹사이트 상 변환된 이미지를 띄우는데 시간이 꽤 오래 걸려서 GPU 서버 유료 사용 등을 알아 보는 등 애로 사항이 있던 게 기억이 났다. 만약 SOTA 모델을 기준으로 똑 같은 Task를 해결하기 위해 소요 시간이 얼마나 차이가 날지 개인적인 궁금증이 들었던 것 같다. 좋은 세미나로 최신 동향을 알려준 조한샘 연구원님께 감사하다는 얘기를 전하며 세미나 후기를 마친다.