고려대학교 DMQA 연구실

Super resolution with diffusion models

2024년 7월 19일 오전 11:16
조회수: 33024

REFERENCES

Super resolution with diffusion models.pdf

INFORMATION

2024년 7월 19일
오후 12시 ~
온라인 비디오 시청 (YouTube)

발표자:

정구진

TOPIC

Super resolution with diffusion models

On-Line Video

OVERVIEW

요약:

Super-resolution(이하 SR)은 저해상도 이미지로부터 고해상도 이미지를 복원하는 것을 목표로 한다. 초기 SR 접근법들은 bicubic이나 알려진 매개변수를 가진 blurring 등 미리 정의된 degradation 과정을 가정했다. 하지만 이러한 방법들은 제한된 일반화 능력으로 인해 실제 세계에서는 성능이 크게 저하된다. 따라서 최근에는 다양한 방식들, 특히 GAN 기반의 SR모델들이 다수 등장하였는데 본 세미나에서는 diffusion model 기반의 SR 모델들에 대해 소개하고자 한다. 먼저 SR3의 경우 최초로 diffusion model을 SR 작업에 도입한 논문으로, diffusion model의 기본이 되는 DDPM을 그대로 SR에 도입하였다. SR3+의 경우 SR3 모델에서 실제 세계의 다양성을 더 잘 반영하기 위하여 blind SR 개념을 도입한 연구이다. 마지막으로 Stable SR은 stable diffusion model의 prior knowledge를 가지고 SR을 수행한다. 이와 같은 방법론들을 통해서 diffusion model을 기반으로 하는 SR 모델 발전의 흐름을 알아본다.

[1] Saharia, C., Ho, J., Chan, W., Salimans, T., Fleet, D. J., & Norouzi, M. (2022). Image super-resolution via iterative refinement. IEEE transactions on pattern analysis and machine intelligence, 45(4), 4713-4726.

[2] Sahak, H., Watson, D., Saharia, C., & Fleet, D. (2023). Denoising diffusion probabilistic models for robust image super-resolution in the wild. arXiv preprint arXiv:2302.07864.

[3] Wang, J., Yue, Z., Zhou, S., Chan, K. C., & Loy, C. C. (2023). Exploiting diffusion prior for real-world image super-resolution. arXiv preprint arXiv:2305.07015.

청취자 후기

배진수

Diffusion 모델 기반 Super-resolution 세미나를 청취하였다. SR3(Super-resolution for via repeated refinement) 모델과 해당 모델의 개선 버전인 SR3+ 모델, 그리고 Stable SR 모델, 총 3가지의 SR 방법을 이해할 수 있었다. SR3와 SR3+ 모델은 High resolution (HR) 이미지를 Condition으로 두어 Low resolution (LR) 이미지와 Gaussian noise 이미지 사이를 Diffusion하는 모델로 이해할 수 있었다. 이 경우 HR 이미지를 Diffusion 모델의 Condition으로 두어야 하는데, 즉 Paired된 HR-LR 이미지가 있어야 한다는 제약 조건이 있는 듯 하다. StableSR 모델의 경우 Stable diffusion 모델을 기반하는 Super-resolution 모델로, 이미지의 구조적 특성을 LR 이미지에서 참조하여 유지한 채 고해상도의 이미지를 생성한다. 해당 모델이 기반하였던 Stable diffusion 모델의 유용한 지식인 Prior를 최대한 보존하며 Super-resoluion을 하려고 시도한 모델이었다. 이를 위해, Feature Modulation, Time-aware Guidance, Color correction 등 여러 가지 기존 CV 쪽에서 알려진 여러 테크닉들을 함께 사용하였는데, 본 세미나에서 자세히 청취할 수 있다.

좋은 세미나를 만드느라 고생하신 구진이 형에게 감사의 말씀을 전하며 세미나 후기를 마치도록 한다.

이정민

이번 세미나는 디퓨전 모델을 활용한 Super Resolution (SR)에 대해 소개해주었다. SR은 저화질 이미지를 고화질로 해상도를 높여주는 task를 말한다. 기존의 autoregressive model, VAE, GAN 기반의 모델들은 각각 몇 가지 문제점을 나타내어, 최근에는 디퓨전 기반의 연구들이 진행되고 있다.
먼저 SR3는 기존 고차원 이미지를 두 번의 resize를 통해 저차원으로 변환하고, 고차원 저차원 이미지를 concat하여 디퓨전 모델의 입력 값으로 사용한다. 이 때, 원본 이미지만 사용하는 DDPM과 달리, SR3는 원본 이미지를 조건부로 하는 저차원 이미지의 확률 분포를 사용한다. SR3+는 SR3에 blind SR을 적용하여 SR3보다 강건한 모델을 구축했다는 것이 큰 특징이다. 마지막으로, StableSR은 사전 학습된 stable 디퓨전 모델을 사용했다. 크게는, feature modulation, time-aware guidance, 그리고 color correction 기법들을 같이 사용했으며, SOTA의 성능을 보였다.
평가 지표 관련해서 개인적인 의문이 한 가지 들었는데, PSNR과 SSIM이라는 전통적인 지표를 실험 결과에 보여는 주지만 그 한계점을 짚으면서, 다른 지표를 통해 각각의 방법론이 제일 우수하다는 것을 주장한다. 이 분야의 논문들을 직접 읽어본 적은 없어서 그럴 수도 있지만, 이제는 그냥 전통적인 지표들은 제외해도 괜찮지 않을까..? 라는 의문이 들고, 이것들 보다 최근 연구들에서도 아직 쓰나..? 하는 물음표가 생겼다. SR 관련해서 성수의 세미나도 청취했었는데, 이번 구진이형의 세미나를 다시 들으면서 리마인드가 됐던 것 같다. 좋은 세미나를 준비하느라 고생하신 구진이형께 감사의 말씀을 전하며 본 세미나 후기를 마친다.

김성수

이번 세미나는 Diffusion을 활용한 Super Resolution 연구들에 대해 진행되었다. SR3는 Diffusion을 기반으로 Super Resolution을 구현한 첫 사례이며, SR3+는 SR3에 Blind Super Resolution 기법을 적용한 연구이다. 추가적으로 본 세미나에서는 StableSR에 대해서도 소개한다. 해당 방법론은 처음 보는 방법론이라 자세히 기록하고자 한다.

1) Time-aware Encoder: LR이미지에 대한 특징벡터를 Diffusion Process 시점마다 찔러 넣어준다. 이때, Scaling 및 Shifting 등 Modulation을 수행하고, timestep별로 다른 강도로 찔러 넣어주는 Time-aware Guidance를 수행한다. 마지막으로 저화질 이미지의 평균/분산 또는 저주파 성분을 통해 Color Correction을 수행한다.
2) CFW: 저화질 이미지 Feature와 Diffusion Process를 통과한 Feature를 혼합하는 과정이다. 논문에서는 대략 반반정도 섞으니 현실적인 이미지가 생성되었다고 한다.

본 세미나를 청취하며 가장 흥미롭게 들은 부분은 StableSR이다. 단순하게 Finetuning만 한 줄 알았지만, 생각보다 복잡한 구조로 되어있었다. Feature를 찔러주는 부분 그리고, 두 Feature를 섞는 과정(예를 들어 프롬프트와 이미지 특징)은 향후 다른 연구에서도 충분히 활용 가능할 것으로 생각된다. 유익한 세미나를 준비해준 정구진 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.

Seminar