고려대학교 DMQA 연구실

The Two Formulations of Diffusion Models

2024년 3월 22일 오후 4:09
조회수: 29359

REFERENCES

DMQA_Openseminar_이종현_0322.pdf

INFORMATION

2024년 3월 22일
오후 3시 ~
온라인 비디오 시청 (YouTube)

발표자:

이종현

TOPIC

The Two Formulations of Diffusion Models

On-Line Video

OVERVIEW

요약: 디퓨전 모델에서의 연구는 크게 application 을 다루는 연구와 theoretical 한 연구로 나뉜다. 각 연구 분야에서는 동일한 디퓨전 모델을 다루지만 노이즈를 추가하고 제거하는 schedule 을 다른 방식으로 가져간다. 각 formulation 을 Variance Preserving (VP) 와 Variance Exploding (VE) formulation 이라 부르며, 본 세미나에서는 두 formulation 의 차이와 등장하게된 이론적 배경, 그리고 이를 하나로 통합시키는 unified framework 방법론을 소개하고자 한다.

참고자료:
[1] Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models." Advances in neural information processing systems 33 (2020): 6840-6851.
[2] Kingma, Diederik, et al. "Variational diffusion models." Advances in neural information processing systems 34 (2021): 21696-21707.
[3] Vincent, Pascal. "A connection between score matching and denoising autoencoders." Neural computation 23.7 (2011): 1661-1674.
[4] Song, Yang, and Stefano Ermon. "Generative modeling by estimating gradients of the data distribution." Advances in neural information processing systems 32 (2019).
[5] Song, Yang, et al. "Score-based generative modeling through stochastic differential equations." arXiv preprint arXiv:2011.13456 (2020).
[6] Song, Yang, et al. "Consistency models." arXiv preprint arXiv:2303.01469 (2023).

청취자 후기

김성수

이번 세미나는 Diffusion 모델의 큰 흐름에 대해 소개한다. 이전에는 Score-based Model과 Diffusion Model이 서로 유사한 것을 모르고, 다른 방향처럼 여겨져 연구되다가 최근에 두 모델이 Score SDE에서 상당히 유사하여 하나의 Framework로 통합할 수 있다는 사실을 알게 된다. 최근에는 이에 더 나아가 Sampling 속도에 한계를 갖는 Diffusion 계열 모델들의 한계를 개선하기 위해 Consistency Model에 대한 연구들도 많이 진행되고 있다. (장표 17p 참고)

Score-based Model과 Diffusion Model의 특징과 하나로 통합되는 과정은 아래와 같다. 본 세미나에서는 초기 Diffusion Model들은 VP(Variance Preserving)이라고 소개하며, Score-based Model들은 VE(Variance Exploding)이라고 소개한다. 두 모델은 t에 대한 분산 범위에서 차이를 보인다. 또한 Score-based Model의 경우는 기존 값의 개선 방향 Vector(Noise가 추가된 이미지의 Score)를 예측하는 방식으로 학습하며, Diffusion 모델은 Noise 자체를 예측한다는 특징을 갖는다. 결론적으로 VDM에서 Diffusion Model로도 이러한 Score를 예측할 수 있음이 밝혀졌고, Score SDE에서 이들을 하나로 표현할 수 있었다.

세미나에서 말했듯이 서로 다른 갈래인 줄 알았던 두 방법론들이 거의 유사하다는 사실이 밝혀졌다. 이는 기존 연구의 폭을 확장할 수 있음을 의미하고, 기존 모델의 단점을 보완할 수 있는 큰 힌트를 얻은 것으로 생각된다. 특히, Diffusion 모델은 최근에 정말 떠오르는 분야인데, 이러한 공통점의 발견은 연구자들 입장에서도 큰 자극이 될 것으로 보인다. 방법론 하나하나를 설명하는 세미나도 좋지만, 이처럼 큰 줄기를 설명해주는 세미나도 여러모로 참 유익한 것 같다. 좋은 세미나를 준비해준 이종현 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.

김정인

이번 세미나는 diffusion model에서 consistency model에 이르기 까지 흐름에 대해 소개되었다. diffusion models는 분산을 보존하며 forward process를 진행하는 variance preserving (VP) 형식을 따르며, score-based models는 분산을 보존하지 않고 forward process를 진행하는 variance exploding (VE) 형식을 따른다. 각 방법은 노이즈를 예측하거나 노이즈가 추가된 이미지에 대한 score를 예측한다는 측면에서 얼핏 보면 차이가 있다고 볼 수 있지만, 랜덤한 확률 변수에서 시작해서 score를 따라가게 되면 높은 우도의 샘플을 얻을 수 있다는 점에서 diffusion models와 유사함을 보인다. 이러한 측면에서, variational diffusion models (VDM)에서 score-based와 diffusion models가 서로 상호 교환 가능하다는 것을 정리하였으며, score를 diffusion model로도 예측할 수 있는 것을 보여주었다. 더 나아가 Score SDE에서 두 방법을 통합하여 하나의 프레임워크를 제안하였고 diffusion models와 score-based models 각각을 VP와 VE로 명명하였다. 하지만, 여전히 적은 step sampling으로 이미지를 생성하였을 때, 부정확한 이미지를 생성한다는 점에서 질과 샘플링 속도 간에 tradeoff는 여전히 존재한다. 따라서 어느 시점에서도 denoised output을 잘 생성해내기 위해 distillation을 활용하여 모델을 학습하였으며, 해당 모델이 바로 consistency model이다.

DMQA 오픈 세미나를 통해, score-based models와 diffusion models에 관한 내용은 이미 알고 있었지만, 이번에는 두 방법론의 목적 함수에서 찾아볼 수 있는 차이와 유사점에 초점을 맞추어, 어떻게 이 둘이 함께 활용될 수 있는지에 대한 설명을 들을 수 있었다. 이로 인해 전체적인 연구 흐름을 더 잘 이해할 수 있었고 해당 세미나를 듣고 각 방법에 관해 소개된 세미나를 듣는 것이 이해하는데 도움이 될 것 같다는 생각이 들었다. 세미나를 준비하느라 고생한 종현이에게 고맙다는 말을 전하며 이상으로 세미나 후기를 마친다.

이정민

이번 세미나는 디퓨전 모델을 formulating하는 두 갈래의 방식과 이를 통합시킨 방법론에 대해 소개해주었다. 디퓨전 모델을 formulating하는 방식은 크게 VP(Variance Preserving), VE(VarianceExploding) 방식으로 구분 지을 수 있다. 큰 차이점은 VP는 데이터의 분산을 보존하지만 VE는 분산을 점차 키운다는 특징이 있다. 과거에는 이 두 가지 방식이 디퓨전 모델과 score-based 모델, 이 두 가지 갈래로 서로 독립적으로 연구가 되어왔다.
초기 디퓨전 모델(VP)들은 원본 이미지 데이터에 적용된 noise를 예측하는 방식으로 학습되지만, score-based 모델(VE)들은 noise가 추가된 이미지의 score를 계산하여 예측하는 방식으로 학습된다. 이렇게 다른 줄만 알았던 두 가지 갈래는 어느 정도 유사한 특징을 가지고 있다라는 것이 언급되기 시작하였고 2021년 발표된 Score SDE라는 방법론에서 이 두 가지는 통합되게 되었다. 이는 아무런 관련이 없을 줄 알았던 수치해석학의 발전을 그대로 적용할 수 있게 해줬다는 의의 또한 가지고 있다.
그러나 이것에도 여전한 문제점이 존재하는데, 그것은 결국 복원되는 이미지 자체의 quality와 샘플링 속도 간의 trade off가 그대로 존재한다는 것이다. 이것을 극복하기 위해 나온 것이 Consistency Models인데, 이는 1 step generation이라는 distillation 방법론을 통해 동일한 PF-ODE 위의 adjacent random variable의 denoiser output이 가까워지도록 학습을 하는 방식이다.
디퓨전 분야에 이러한 과거가 있다는 것을 이번 세미나를 통해 알게 되었다. 이렇게 두 갈래의 방식이 통합되면서 각 갈래의 장점을 잘 활용할 수 있다면, 더 많은 연구들이 지속될 수 있겠다라는 생각이 들었다. 물론 어떠한 방법론들의 이론에 대해서 세부적으로 설명해주는 세미나도 중요하지만, 방법론들이 등장하게 된 배경에 중점을 두는 세미나도 꼭 필요한 부분이라고 생각한다. 디퓨전 분야는 접할 때 마다 큰 장벽이 있는 것처럼 느껴지지만, 종현이가 수식적인 부분도 잘 설명해주어 이해하기 보다 용이했다. 좋은 세미나를 준비해준 종현이에게 고맙다는 말을 전하며 본 세미나 후기를 마친다.

정구진

본 세미나에서는 diffusion model를 formulating 하는 두 가지 방법과, 그 두 가지 방법을 하나의 unified framework로 정리한 내용에 관하여 소개한다.
우선 VP(Variance Preserving)은 기존에 익히 알고 있는 diffusion model로 정리할 수 있는데, 분산을 보존하는 formulation이다. Text to image diffusion model에 많이 사용되며, 점진적으로 가우시안 노이즈가 주입되는 프로세스를 갖기 때문에 분산이 보존된다. 한편 VE(Variance Exploding)은 theoritical 연구에서 많이 사용되며, 시그마가 1이상으로 설정되어 VP보다 노이즈가 훨씬 빠르게 주입된다. Score-based 모델의 근간이 되며 사실상 diffusion model은 이 두 가지의 다른 이름으로 하여 동시다발적으로 연구되어 왔다.
Score-SDE는 이 내용을 정리한 연구인데, diffusion reverse SDE와 동일한 marginal을 갖는 ODE가 존재함을 밝히며, 이를 probability flow ODE(PF-ODE)라고 명명하였다. 일반적인 ODE solver로 diffusion 샘플링이 가능한 것이다. 해당 연구는 완전히 다른 줄 알았던 두 분야를 하나의 프레임워크로 합쳤다는 것에 의미가 있다. 마지막으로 PF-ODE와 denoiser를 활용하여 1step generation을 가능케한 consistency model에 대해 간략히 소개하며 세미나가 마무리 된다.
해당 내용들에 대해서 개념상은 알고 있었으나, 좀 더 명확히 정리할 수 있는 계기가 된 세미나였다. 아직은 내용들과 이론들에 대해 집중적으로 공부하고 있어서 이러한 큰 틀에서 이해는 부족했었는데, 나도 공부를 하면서 중간 중간 이러한 큰 틀에서의 정리가 가끔씩 필요하겠구나라고 생각했다. 내용에 대한 소개, 그리고 연구를 이해하는 방향에 대해 참고가 될 만한 좋은 세미나를 준비해 준 이종현 연구원에게 고마움을 전하며 세미나 후기를 마친다.

이진우

이번 세미나는 디퓨젼 모델과 score 기반 모델에 대한 내용을 다루었다. 디퓨젼 모델과 score 기반 모델은 다른 이름으로 연구되어왔지만, 이 둘은 사실 본질이 유사한 같은 계열의 연구였던 것이 밝혀졌다. 추가적으로 score 개념을 디퓨젼 모델에 도입하여 샘플링 속도를 높이는 consistency model에 대해서도 소개하였다.

[1] VP Formulation: 초기 디퓨젼 모델에서 자주 사용하던 방식으로, forward process에서 분산을 최대1 이하의 값으로 보존하는 것이 핵심이다.
[2] VE Formulation: score 기반 모델에서 사용된 방식으로, forward process에서 분산을 1이상의 값으로 점차 증가시키는 것이 핵심이다. 따라서 score 기반 모델에서는 기존 디퓨젼 모델 대비 forward process가 빠르게 일어나게 된다.
[3] Score based model: 랜덤 확률 변수가 score만큼 이동한다면 이는 이전 확률 변수보다 likelihood가 높아진다는 개념을 기반으로 한다. 즉 score를 따라 업데이트 한다면, 높은 likelihood의 샘플을 얻을 수 있다는 것이다. Score 기반 모델들은 이러한 score를 예측하는 방식으로 학습하며, 디퓨젼 모델의 경우 노이즈를 예측하는 모델을 학습하는데, VDM이라는 논문에서 디퓨젼 모델로 score를 예측 가능함을 보였고, 나아가 Score-SDE라는 논문에서 디퓨젼 모델과 score 기반 모델이 하나의 SDE로 표현하다는 것을 밝혔다.
[4] Consistency Model: 디퓨젼 모델의 단점 중 하나는 여러 샘플링 step을 거쳐 생성 속도가 느리다는 것인데, consistency model은 이러한 문제점을 타개하기 위해 연구되는 방법 중 하나이다. Consistency 모델은 score SDE 개념인 SDE/ODE solving와 Distillation을 통해 보다 적은 수의 샘플링 step으로도 이미지를 생성할 수 있는 모델이다.

평상시에도 디퓨젼 관련 논문들을 읽다 보면 score based model에 대한 내용을 자주 보았지만 수식적인 내용이 많아 깊게 이해하지는 못하였는데, 종현형의 세미나 덕분에 수식은 물론, 해당 연구분야의 전반적인 흐름에 대해 알 수 있어 너무 유익하였다. 좋은 세미나를 준비해준 이종현 연구원에게 고맙다는 말을 전하며 세미나 후기를 마친다

배진수

Diffusion 모델에 관한 수리적 Formulation에 대한 세미나를 청취하였다.

Diffusion의 Forward & Backward process는 원본 데이터인 X_0로부터 가우시안 노이즈를 따르는 X_T를 만들기 위해 Process 안에서 매번 더해지는 노이즈 크기를 결정해주는 Schedular가 존재한다. 여기서 Schedular가 따를 수 있는 서로 다른 가정이 2개 존재하는데, 각각의 가정 하에 Diffusion 모델을 VP 및 VE 방식의 Formulation 해볼 수 있다. VP 방식의 Diffusion 모델이 내가 주로 친숙했던 계열의 Diffusion 모델들이였고, VE 방식의 Diffusion(?) 모델이 Score-based 생성 모델이였다. 그리고 VP와 VE 방식의 Diffusion 모델들을 학습하는 것이 Score function 기반의 SDE를 푸는 것과 동일하다는 흥미로운 연구 결과들도 소개해주어 재밌게 청취하였다. SDE를 푸는 방법은 수학과 대학원 과정에서나 배울 법한 내용들인데, 요즘에는 학문간의 융합이 참 중요한 것 같다는 자극을 받을 수 있었다.

좋은 세미나를 준비하느라 고생했을 종현이에게 감사의 말씀을 전하며 세미나 후기를 마치도록 한다.

Seminar