- 2024년 3월 22일 오후 4:09
- 조회수: 8446
REFERENCES
INFORMATION
- 2024년 3월 22일
- 오후 3시 ~
- 온라인 비디오 시청 (YouTube)
TOPIC
On-Line Video
OVERVIEW
참고자료:
[1] Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models." Advances in neural information processing systems 33 (2020): 6840-6851.
[2] Kingma, Diederik, et al. "Variational diffusion models." Advances in neural information processing systems 34 (2021): 21696-21707.
[3] Vincent, Pascal. "A connection between score matching and denoising autoencoders." Neural computation 23.7 (2011): 1661-1674.
[4] Song, Yang, and Stefano Ermon. "Generative modeling by estimating gradients of the data distribution." Advances in neural information processing systems 32 (2019).
[5] Song, Yang, et al. "Score-based generative modeling through stochastic differential equations." arXiv preprint arXiv:2011.13456 (2020).
[6] Song, Yang, et al. "Consistency models." arXiv preprint arXiv:2303.01469 (2023).
청취자 후기
이번 세미나는 Diffusion 모델의 큰 흐름에 대해 소개한다. 이전에는 Score-based Model과 Diffusion Model이 서로 유사한 것을 모르고, 다른 방향처럼 여겨져 연구되다가 최근에 두 모델이 Score SDE에서 상당히 유사하여 하나의 Framework로 통합할 수 있다는 사실을 알게 된다. 최근에는 이에 더 나아가 Sampling 속도에 한계를 갖는 Diffusion 계열 모델들의 한계를 개선하기 위해 Consistency Model에 대한 연구들도 많이 진행되고 있다. (장표 17p 참고)
Score-based Model과 Diffusion Model의 특징과 하나로 통합되는 과정은 아래와 같다. 본 세미나에서는 초기 Diffusion Model들은 VP(Variance Preserving)이라고 소개하며, Score-based Model들은 VE(Variance Exploding)이라고 소개한다. 두 모델은 t에 대한 분산 범위에서 차이를 보인다. 또한 Score-based Model의 경우는 기존 값의 개선 방향 Vector(Noise가 추가된 이미지의 Score)를 예측하는 방식으로 학습하며, Diffusion 모델은 Noise 자체를 예측한다는 특징을 갖는다. 결론적으로 VDM에서 Diffusion Model로도 이러한 Score를 예측할 수 있음이 밝혀졌고, Score SDE에서 이들을 하나로 표현할 수 있었다.
세미나에서 말했듯이 서로 다른 갈래인 줄 알았던 두 방법론들이 거의 유사하다는 사실이 밝혀졌다. 이는 기존 연구의 폭을 확장할 수 있음을 의미하고, 기존 모델의 단점을 보완할 수 있는 큰 힌트를 얻은 것으로 생각된다. 특히, Diffusion 모델은 최근에 정말 떠오르는 분야인데, 이러한 공통점의 발견은 연구자들 입장에서도 큰 자극이 될 것으로 보인다. 방법론 하나하나를 설명하는 세미나도 좋지만, 이처럼 큰 줄기를 설명해주는 세미나도 여러모로 참 유익한 것 같다. 좋은 세미나를 준비해준 이종현 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.
이번 세미나는 diffusion model에서 consistency model에 이르기 까지 흐름에 대해 소개되었다. diffusion models는 분산을 보존하며 forward process를 진행하는 variance preserving (VP) 형식을 따르며, score-based models는 분산을 보존하지 않고 forward process를 진행하는 variance exploding (VE) 형식을 따른다. 각 방법은 노이즈를 예측하거나 노이즈가 추가된 이미지에 대한 score를 예측한다는 측면에서 얼핏 보면 차이가 있다고 볼 수 있지만, 랜덤한 확률 변수에서 시작해서 score를 따라가게 되면 높은 우도의 샘플을 얻을 수 있다는 점에서 diffusion models와 유사함을 보인다. 이러한 측면에서, variational diffusion models (VDM)에서 score-based와 diffusion models가 서로 상호 교환 가능하다는 것을 정리하였으며, score를 diffusion model로도 예측할 수 있는 것을 보여주었다. 더 나아가 Score SDE에서 두 방법을 통합하여 하나의 프레임워크를 제안하였고 diffusion models와 score-based models 각각을 VP와 VE로 명명하였다. 하지만, 여전히 적은 step sampling으로 이미지를 생성하였을 때, 부정확한 이미지를 생성한다는 점에서 질과 샘플링 속도 간에 tradeoff는 여전히 존재한다. 따라서 어느 시점에서도 denoised output을 잘 생성해내기 위해 distillation을 활용하여 모델을 학습하였으며, 해당 모델이 바로 consistency model이다.
DMQA 오픈 세미나를 통해, score-based models와 diffusion models에 관한 내용은 이미 알고 있었지만, 이번에는 두 방법론의 목적 함수에서 찾아볼 수 있는 차이와 유사점에 초점을 맞추어, 어떻게 이 둘이 함께 활용될 수 있는지에 대한 설명을 들을 수 있었다. 이로 인해 전체적인 연구 흐름을 더 잘 이해할 수 있었고 해당 세미나를 듣고 각 방법에 관해 소개된 세미나를 듣는 것이 이해하는데 도움이 될 것 같다는 생각이 들었다. 세미나를 준비하느라 고생한 종현이에게 고맙다는 말을 전하며 이상으로 세미나 후기를 마친다.
이번 세미나는 디퓨전 모델을 formulating하는 두 갈래의 방식과 이를 통합시킨 방법론에 대해 소개해주었다. 디퓨전 모델을 formulating하는 방식은 크게 VP(Variance Preserving), VE(VarianceExploding) 방식으로 구분 지을 수 있다. 큰 차이점은 VP는 데이터의 분산을 보존하지만 VE는 분산을 점차 키운다는 특징이 있다. 과거에는 이 두 가지 방식이 디퓨전 모델과 score-based 모델, 이 두 가지 갈래로 서로 독립적으로 연구가 되어왔다.
초기 디퓨전 모델(VP)들은 원본 이미지 데이터에 적용된 noise를 예측하는 방식으로 학습되지만, score-based 모델(VE)들은 noise가 추가된 이미지의 score를 계산하여 예측하는 방식으로 학습된다. 이렇게 다른 줄만 알았던 두 가지 갈래는 어느 정도 유사한 특징을 가지고 있다라는 것이 언급되기 시작하였고 2021년 발표된 Score SDE라는 방법론에서 이 두 가지는 통합되게 되었다. 이는 아무런 관련이 없을 줄 알았던 수치해석학의 발전을 그대로 적용할 수 있게 해줬다는 의의 또한 가지고 있다.
그러나 이것에도 여전한 문제점이 존재하는데, 그것은 결국 복원되는 이미지 자체의 quality와 샘플링 속도 간의 trade off가 그대로 존재한다는 것이다. 이것을 극복하기 위해 나온 것이 Consistency Models인데, 이는 1 step generation이라는 distillation 방법론을 통해 동일한 PF-ODE 위의 adjacent random variable의 denoiser output이 가까워지도록 학습을 하는 방식이다.
디퓨전 분야에 이러한 과거가 있다는 것을 이번 세미나를 통해 알게 되었다. 이렇게 두 갈래의 방식이 통합되면서 각 갈래의 장점을 잘 활용할 수 있다면, 더 많은 연구들이 지속될 수 있겠다라는 생각이 들었다. 물론 어떠한 방법론들의 이론에 대해서 세부적으로 설명해주는 세미나도 중요하지만, 방법론들이 등장하게 된 배경에 중점을 두는 세미나도 꼭 필요한 부분이라고 생각한다. 디퓨전 분야는 접할 때 마다 큰 장벽이 있는 것처럼 느껴지지만, 종현이가 수식적인 부분도 잘 설명해주어 이해하기 보다 용이했다. 좋은 세미나를 준비해준 종현이에게 고맙다는 말을 전하며 본 세미나 후기를 마친다.