- 2024년 7월 19일 오전 11:16
- 조회수: 32963
REFERENCES
INFORMATION
- 2024년 7월 19일
- 오후 12시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
청취자 후기

Diffusion 모델 기반 Super-resolution 세미나를 청취하였다. SR3(Super-resolution for via repeated refinement) 모델과 해당 모델의 개선 버전인 SR3+ 모델, 그리고 Stable SR 모델, 총 3가지의 SR 방법을 이해할 수 있었다. SR3와 SR3+ 모델은 High resolution (HR) 이미지를 Condition으로 두어 Low resolution (LR) 이미지와 Gaussian noise 이미지 사이를 Diffusion하는 모델로 이해할 수 있었다. 이 경우 HR 이미지를 Diffusion 모델의 Condition으로 두어야 하는데, 즉 Paired된 HR-LR 이미지가 있어야 한다는 제약 조건이 있는 듯 하다. StableSR 모델의 경우 Stable diffusion 모델을 기반하는 Super-resolution 모델로, 이미지의 구조적 특성을 LR 이미지에서 참조하여 유지한 채 고해상도의 이미지를 생성한다. 해당 모델이 기반하였던 Stable diffusion 모델의 유용한 지식인 Prior를 최대한 보존하며 Super-resoluion을 하려고 시도한 모델이었다. 이를 위해, Feature Modulation, Time-aware Guidance, Color correction 등 여러 가지 기존 CV 쪽에서 알려진 여러 테크닉들을 함께 사용하였는데, 본 세미나에서 자세히 청취할 수 있다.
좋은 세미나를 만드느라 고생하신 구진이 형에게 감사의 말씀을 전하며 세미나 후기를 마치도록 한다.

이번 세미나는 디퓨전 모델을 활용한 Super Resolution (SR)에 대해 소개해주었다. SR은 저화질 이미지를 고화질로 해상도를 높여주는 task를 말한다. 기존의 autoregressive model, VAE, GAN 기반의 모델들은 각각 몇 가지 문제점을 나타내어, 최근에는 디퓨전 기반의 연구들이 진행되고 있다.
먼저 SR3는 기존 고차원 이미지를 두 번의 resize를 통해 저차원으로 변환하고, 고차원 저차원 이미지를 concat하여 디퓨전 모델의 입력 값으로 사용한다. 이 때, 원본 이미지만 사용하는 DDPM과 달리, SR3는 원본 이미지를 조건부로 하는 저차원 이미지의 확률 분포를 사용한다. SR3+는 SR3에 blind SR을 적용하여 SR3보다 강건한 모델을 구축했다는 것이 큰 특징이다. 마지막으로, StableSR은 사전 학습된 stable 디퓨전 모델을 사용했다. 크게는, feature modulation, time-aware guidance, 그리고 color correction 기법들을 같이 사용했으며, SOTA의 성능을 보였다.
평가 지표 관련해서 개인적인 의문이 한 가지 들었는데, PSNR과 SSIM이라는 전통적인 지표를 실험 결과에 보여는 주지만 그 한계점을 짚으면서, 다른 지표를 통해 각각의 방법론이 제일 우수하다는 것을 주장한다. 이 분야의 논문들을 직접 읽어본 적은 없어서 그럴 수도 있지만, 이제는 그냥 전통적인 지표들은 제외해도 괜찮지 않을까..? 라는 의문이 들고, 이것들 보다 최근 연구들에서도 아직 쓰나..? 하는 물음표가 생겼다. SR 관련해서 성수의 세미나도 청취했었는데, 이번 구진이형의 세미나를 다시 들으면서 리마인드가 됐던 것 같다. 좋은 세미나를 준비하느라 고생하신 구진이형께 감사의 말씀을 전하며 본 세미나 후기를 마친다.

이번 세미나는 Diffusion을 활용한 Super Resolution 연구들에 대해 진행되었다. SR3는 Diffusion을 기반으로 Super Resolution을 구현한 첫 사례이며, SR3+는 SR3에 Blind Super Resolution 기법을 적용한 연구이다. 추가적으로 본 세미나에서는 StableSR에 대해서도 소개한다. 해당 방법론은 처음 보는 방법론이라 자세히 기록하고자 한다.
1) Time-aware Encoder: LR이미지에 대한 특징벡터를 Diffusion Process 시점마다 찔러 넣어준다. 이때, Scaling 및 Shifting 등 Modulation을 수행하고, timestep별로 다른 강도로 찔러 넣어주는 Time-aware Guidance를 수행한다. 마지막으로 저화질 이미지의 평균/분산 또는 저주파 성분을 통해 Color Correction을 수행한다.
2) CFW: 저화질 이미지 Feature와 Diffusion Process를 통과한 Feature를 혼합하는 과정이다. 논문에서는 대략 반반정도 섞으니 현실적인 이미지가 생성되었다고 한다.
본 세미나를 청취하며 가장 흥미롭게 들은 부분은 StableSR이다. 단순하게 Finetuning만 한 줄 알았지만, 생각보다 복잡한 구조로 되어있었다. Feature를 찔러주는 부분 그리고, 두 Feature를 섞는 과정(예를 들어 프롬프트와 이미지 특징)은 향후 다른 연구에서도 충분히 활용 가능할 것으로 생각된다. 유익한 세미나를 준비해준 정구진 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.