- 2023년 8월 28일 오후 2:37
- 조회수: 19205
INFORMATION
- 2023년 9월 1일
- 오후 1시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
요약:
최근 고화질 이미지 및 비디오에 대한 수요가 증가함에 따라 저화질 이미지를 고화질로 복원하는 Super Resolution이 각광받고 있다. 일반적으로 Super Resolution모델을 학습하기 위해서는 저화질 이미지와 고화질 이미지 쌍을 필요로 한다. 하지만 동일한 이미지를 화질에 따라 다르게(저화질/고화질) 촬영한 데이터를 수집하는 것은 현실적으로 어렵다. 따라서 선행연구들은 Bicubic Downsampling을 통해 고화질 이미지를 강제로 저화질로 바꾸어 학습에 활용한다. 그러나 이는 Real-World 저화질 이미지에 실제로 존재하는 다양한 노이즈들을 반영하지 못하기 때문에, Super Resolution 시 노이즈가 섞인 이미지로 복원된다는 한계를 갖는다. 최근에는 이러한 Super Resolution의 성능 저하를 Bicubic Downsampling을 통해 생성된 저화질 이미지의 품질을 원인으로 지적하며, 고화질 이미지로부터 저화질 이미지를 효과적으로 추정하고자 하는 Blind Super Resolution에 대한 연구가 활발하게 진행되고 있다. 따라서 본 세미나에서는 Super Resolution의 데이터가 불완전한 상황에서 고화질 이미지만으로 Real-World에 있을 법한 저화질 이미지를 추정함으로써, 학습 데이터 쌍을 구축하고 Super Resolution 성능을 향상시킨 Blind Super Resolution 연구 사례들을 소개하고자 한다.
참고문헌:
[1] Liu, A., Liu, Y., Gu, J., Qiao, Y., & Dong, C. (2022). Blind Image Super-Resolution: A Survey and Beyond. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 45(5), 5461-5480.
[2] Bulat, A., Yang, J., & Tzimiropoulos, G. (2018). To learn image super-resolution, use a GAN to learn how to do image degradation first. In Proceedings of the European Conference on Computer Vision (ECCV), 185-200.
[3] Bell-Kligler, S., Shocher, A., & Irani, M. (2019). Blind Super-Resolution Kernel Estimation using an Internal-GAN. Advances in Neural Information Processing Systems (NIPS), 32.
[4] Zhang, K., Liang, J., Van Gool, L., & Timofte, R. (2021). Designing a Practical Degradation Model for Deep Blind Image Super-Resolution. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 4791-4800.
[5] Wang, X., Xie, L., Dong, C., & Shan, Y. (2021). Real-esrgan: Training Real-World Blind Super-Resolution with Pure Synthetic Data. In Proceedings of the IEEE/CVF International Conference on Computer Vision Workshops (ICCVW), 1905-1914.
[6] Sahak, H., Watson, D., Saharia, C., & Fleet, D. (2023). Denoising Diffusion Probabilistic Models for Robust Image Super-Resolution in the Wild. arXiv preprint arXiv:2302.07864.
청취자 후기

해당 세미나는 super resolution에 대해 다루었다.
현재 다양한 이미지 데이터들이 수집되고 있는데 촬영기기 혹은 저장 방식에 따라 각기 다른 화질을 갖게 된다. 화질이란 선명도(디테일한 정도) 그리고 해상도(pixel 개수)에 의해 결정되게 되며, 매번 고화질 이미지를 얻을 수는 없기 때문에 저화질 이미지를 고화질로 변환해주는 super resolution 방법들이 많이 각광을 받고 있다.
이때 super resolution 모델을 학습시키 위해선 저화질 이미지와 고화질 이미지 쌍이 필요하다. 그러나 실제 동일한 이미지가 다른 화질로 촬영된 것을 수집하기란 매우 어려워, 주로 고화질 이미지를 저화질로 만들어 학습을 하기도 하나 이는 현실 저화질 이미지와는 분포 차이가 존재한다는 문제가 있다. 이러한 이미지 저하 기법에 강건한 모델을 만들기 위해 발전된 분야가 바로 blind super resolution이며, 총 3가지 기법들을 소개한다.
처음 소개한 HLLHGAN의 경우 고화질 -> 저화질로 만들어 학습 데이터를 구축하는 GAN과 , 저화질 -> 고화질로 만드는 GAN, 이렇게 총 2개의 GAN으로 이루어져 있다.
두번째 Kernel GAN 은 이미지 별로 다른 degradation을 갖지만, 실제 저화질 이미지를 만드는 과정에서 모두 동일한 방법을 적용하기 때문에 이를 반영하지 못한다고 문제를 제기한다. 따라서 Kernel GAN은 각 이미지에 특화된 degradation kernel을 학습하는 것을 목표로 하며, 특이한 점은 degradation에 대해서만 방법을 제안하고 super resolution의 경우에는 기존 모델을 적용한다. 더하여 degradation network에서 discriminator는 patch 단위로 식별을 하기 때문에 이미지의 내재적인 분포를 고려하는 것이 해당 모델의 특징이다.
세번째 방법론은 앞선 두 모델과는 달리 학습이 없는 heuristic한 방식이며, 기존 classical degradation에 사용되는 blur, downsampling 그리고 noise 방법을 각각 발전시켰다. 또한 각 degradation 순서를 random하게 shuffle하여 현실세계에서는 이미지 별로 다른 순서의 degradation이 적용된다는 점을 반영하였다.
마지막으로 ESRGAN의 경우에는 각 degradation 이 1번씩 적용되는 것은 현실세계의 저화질 이미지를 만들어낼 수 없다고 문제상황을 정의한다. 따라서 degradation 방법을 1번만 사용 하는게 아니라 두번 적용하는 방식을 택한다. 더하여 기존 degradation에 jpeg compression 을 추가하였다.
본 세미나를 통해 blind super resolution이라는 새로운 개념에 대해 접할 수 있었다. 기존 super resolution을 위해서는 고화질 이미지를 만들어내는 것이 핵심이라고 생각하였으나, 이와 반대로 학습을 위해 저화질 이미지를 얻는 degradation이 매우 중요하다는 것을 깨닫게 되어 색달랐다. 유익한 세미나를 준비해준 김성수 연구원에게 고맙다는 말을 전하며 세미나 후기를 마친다.

본 세미나는 저화질 이미지를 고화질로 해상도를 높여주는 Super Resolution에 대한 내용이다. 기본적으로 Super Resolution은 픽셀 개수를 늘리고 그에 따라 발생하는 빈 공간을 어떻게 채울 것인가에 대한 아이디어로 출발한다. 과거에는 통계적 기반 기법으로 보간하였으나, 최근에는 인공지능을 기반으로 빈 공간을 채우고 있다. 이러한 특성 상 고해상도(HR)과 저해상도(LR) 이미지의 쌍이 필요하다. 하지만 현실 세계에서 이러한 쌍이 존재하는 데이터는 매우 드물다.
그래서 나타난 것이 Blind Super Resolution이다. Blind Super Resolution은 쌍 이미지가 불분명 할 때, SR 이미지를 바탕으로 LR 이미지를 만들어낸 후 학습하여 Super Resolution을 수행하는 방식이다. 여러 노이즈를 함께 고려하여 HR 이미지로부터 LR 이미지를 생성하는 degradation이 기본이 되며, 본 세미나에서는 크게 두 종류의 Blind Super Resolution을 제시한다.
첫번째는 학습을 통해 LR 이미지를 생성하는 것이다. 그 중 High-to-Low & Low-to-High GAN (HLLH GAN)과 Kernel GAN 의 두 가지 방식을 설명한다. HLLH GAN은 HR 이미지에서 LR 이미지를 생성하는 GAN 모델을 구성하며, 이렇게 획득한 LR 이미지를 바탕으로 다시 HR을 생성하는 방식이다. Kernel GAN은 HLLH GAN과 비슷한데 이미지 내 patch를 활용하여 학습 한 결과로 LR 이미지를 생성한다. 개별 이미지로 각 이미지에 적절한 degradation을 수행하여 성능을 향상시켰다.
두번째는 Heuristic한 방법으로 LR 이미지를 생성하는데, BSRGAN과 Real-ESRGAN이 있다. 둘 다 Heuristic하게 LR이미지를 생성하고 LR에서 다시 HR를 만드는 Super resolution은 기존에 나온 성능이 좋은 방식을 채택한다. BSRGAN은 degradation 수행 시 blur, downsampling, noise를 적용하여 LR 이미지를 생성하고, Real-ESRGAN은 BSRGAN에 JPEG compression도 추가하며 degradation 요소를 2번씩 적용하여 LR 이미지를 생성한다. 가장 좋은 성능을 보인다.
Super resolution은 실제 산업 현장에서도 많은 쓰임새가 있을 거라고 생각이 든다. 특히 반도체 공정에서는 현미경 배율이 반도체 공정의 미세화를 따라가지 못하는 상황이 발생하며, HR-LR의 이미지 쌍을 획득하기 어려운 산업 구조 상 정말 요긴하게 쓰일 수 있는 기술이다. 다만 해당 분야에서는 HR만 존재하여 degradation이 필요한 것이 아니라 앞으로는 LR만 존재할 가능성이 높기 때문에 반대 학습에 대해서도 생각해 볼 필요가 있을 것 같다. 좋은 내용에 대해 상세히 설명해준 김성수 연구원께 고맙다는 말을 전한다.

이번 세미나는 Blind Super Resolution(BSR)이라는 주제로 진행되었다. SR은 저화질 이미지를 고화질 이미지로 해상도를 높여주는 Task인데 실생활에서 다양하게 활용될 수 있는 분야이다. 기본적으로 통계적 기법에 기반한 접근 방법이 있는데 여러가지의 한계가 있으므로 딥러닝 모델을 기반으로 한 SR 방법론들이 많이 연구되어 지고 있다고 한다. 딥러닝 기반은 CNN/GAN/Diffusion 기반으로 발전되고 있는데 개인적으로 Diffusion 모델의 이미지 생성 품질이 굉장히 높은것에 많이 놀랐기 때문에 SR도 Diffusion 계열의 모델 성능이 높지 않을까 하는 생각이 우선 들었다. 본격적으로 세미나에 들어가서 딥러닝 기반으로 학습하려면 학습데이터셋이 필요하므로 일반적으로 고품질의 데이터를 Bilinear/Bicubic 다운샘플링을 통하여 저해상도의 이미지를 생성하고 학습하는데 이때 생성할 수 있는 이미지의 노이즈가 실생활에서의 노이즈와는 차이가 있기 때문에 정확하게 모델을 학습할 수가 없고, 이때 BSR이 쓰인다고 한다. BSR은 크게 학습을 기반으로 하는 방법론들과 휴리스틱하게 추정하는 Hand-crafted Approach로 나눌수 있다고 하고 각각 2개의 방법론을 설명하였다. 첫번째로 HLLHGAN이라는 방법론을 설명하였는데 GAN 구조를 활용하는 방법론이다. 각각 2개의 Generator와 Discriminator를 사용하여서 1-stage에서는 고해상도의 이미지를 저해상도로 바꾸는 작업을 수행하고, 2-stage에서는 저해상도를 고해상도로 변환하는 SR 작업을 수행한다. 설명을 잘해주어 쉽게 해당 방법론의 구조를 이해할 수 있었다. 두번째 방법론으로 KernelGAN 방법론을 소개하였는데 해당 방법론의 특징으로는 각 이미지에 특화된 Degradation을 적용한다는 것이다. 하나의 이미지에서 공통된 특징이 있기 마련이고 이를 이용하면 더 효과적으로 분포를 파악할 수 있기 때문이라고 한다. 따라서 이렇게 하기 위해서 각각의 이미지로 학습을 진행하게 되는데 Inference를 위해서 Train과 Test를 동시에 수행한다는 것이 신기하였다. 그리고 고해상도의 이미지를 저해상도로 만드는 Generator에서 Non-linear를 사용하지 않는것도 새롭게 다가왔다. 다만 해당 방법론의 성능을 Ground Truth와 비교하며 이미지로 보여주는 부분은 직관적으로 잘 이해되지 않았다. 세번째는 휴리스틱 알고리즘인 BSRGAN을 소개하였다. 해당 방법론은 기존의 Classical Degradation이 제대로 현실 세계를 반영하지 못하기 때문에 Degradation 과정에 필요한 Blur, Downsampling, Noise 요소를 확장하여 보다 더 현실세계를 잘 반영하고자 하였다. 다양한 방법으로 각 요소를 확장하는것을 확인할 수 있었고 수없이 많은 방법과 큰 Search Space가 있었을텐데 어떻게 최적의 값을 찾았는지는 대단하다는 생각이 들었다. 그리고 보다 다양한 저해상도의 이미지를 만들어주는것이 이미지를 다양하게 증강하여 정확도를 높이고자하는 개인연구와 비슷한 부분이 있는것 같다고 느껴졌다. 마지막으로 Real-ESRGAN이라는 방법론을 소개하였다. 해당 방법론은 Degradation을 여러번 적용한다는 것이 큰 특징이며 각 요소들도 다양하게 사용하였다. 연구가 이루어지는 방향이 저해상도의 이미지를 고해상도로 SR하는 것은 잘한다고 보고, 학습을 위한 저해상도의 이미지를 생성하는 방향에 맞춰져 있는데 뭔가 목적을 위해서 그 목적의 전 단계에 집중하는 형태여서 신기하였다. 새로운 저해상도의 이미지만 잘 생성하면 SR은 특이사항 없이 잘이루어 질 수 있는것인지는 최근 SR 동향을 찾아봐야겠다. Blind Super Resolution이라는 분야에 대해서 알기 쉽게 설명해주어 연구 Task의 시각을 넓히는데 큰 도움이 되었다. 특히나 제조현장에서는 저해상도의 이미지가 많은 만큼 실제 현장에 적용하는데도 유용하지 않을까 하는 생각이 든다. 이처럼 유익한 세미나를 정성스레 준비해준 김성수 연구원에게 고맙다는 인사를 전하며 이상으로 세미나 후기를 마친다.

이번 세미나는 Blind Super Resolution을 주제로 진행되었다. 선명한 이미지란 높은 해상도와 선명도를 가진 이미지로 색상이 잘 표현되고, 노이즈 관리가 잘되며, 이미지가 정교할수록 고화질이다. 기기의 한계와 용량 문제로 인해 고화질 이미지를 얻는 것은 비용이 많이 들어간다. 저화질 이미지를 고화질로 개선하는 분야를 super resolution이라고 한다. 픽셀 개수를 늘리고 빈 공간을 잘 채우는 것이 중요 핵심이며, 인공지능을 기반으로 빈 픽셀을 추측하는 방법론들이 각광 받고 있다. Blinder super resolution은 Super Resolution에서 현실의 Noise를 고려하지 못하는 한계점을 극복하여 input data를 효과적으로 만들어서 학습하는 분야이다. 학습을 기반으로 하는Learning based degradation estimation 과 학습 없이 사람의 결정에 따르는 휴리스틱 degradation estimation로 Blinder super resolution의 분야를 나눌 수 있다.
Learning based degradation estimation분야인 첫 번째 소개된 방법론인 HILLHGAN은 GAN을 기반으로 하며, 고화질을 저화질로, 저화질을 고화질로 만드는 2 Stage로 이루어져 있다. Discriminator와 Generator가 적대적으로 학습하여 시각적으로 가장 실제 이미지처럼 복원하는 결과를 볼 수 있다. 두 번째 소개된 방법론인 Kernel GAN은 각 이미지에 특화된 degradation을 적용하며, 패치 단위로 학습을 하여 좋은 성능을 보였다. 휴리스틱 degradation estimation 분야에 첫 번째 소개된 BSRGAN은 degradation 기법을 확장하였다. 특히, 기법들이 동일한 순서로 적용되는 게 아니라 랜덤 한 순서로 적용하여, 기존 모델들을 사용하고 기법들 변경에 따라 더 좋은 이미지를 복원해냈다. 두 번째 소개된 Real-ESRGAN은 기법들을 여러 번 적용하는 것이 특징이며, BSRGAN 처럼 기존 모델들을 사용하였다.
해당 세미나를 통해 저화질을 고화질로 복원하기 위해 저화질 이미지를 현실 세계 이미지와 유사하게 최대한 생성해내는 Blinder super resolution 분야에 대해 접하게 되었다. 최근 삼성전자에서 플립5를 출시하였는데, 플립4와 화소가 동일함에도 불구하고 더 선명한 사진을 제공한다는 것을 유투브 리뷰를 통해 보았다. 해당 분야와 같은 AI 기술이 적용된 게 아닐까 자연스러운 생각을 하게 되었다. 어찌 보면 이는 비용을 줄이는 기법으로 더 무겁고 큰 모델이 아니라, 기기는 동일하지만 더 선명한 사진을 찍기 위해 관련 기술들이 앞으로 더 각광 받을 것 같다는 생각을 했다. 생소한 분야를 알기 쉽고 좋은 예제로 세미나 해준 김성수 연구원에게 수고했다는 얘기를 전하며 세미나 후기를 마친다.

Blind Super Resolution에 대한 주제로 세미나가 진행되었다. 기존의 Super Resolution을 먼저 곱씹고 넘어가자면, 다른 ML 방법론들과 달리 고해상도 이미지(HR Image;Y)를 다운 샘플링/블러링/노이즈 추가하여 저해상도 이미지(LR Image;X)를 만든 후 학습한다. 하지만 기존의 Super Resolution은 저해상도 이미지를 만드는 것에 있어 Bilinear/Bicubic 등 통계적으로 단순하고 국한된 Degradation 기법만을 고려하기 때문에, 현실 세계에 존재하는 다른 Degradation에 대한 Super Resolution 성능이 떨어진다는 것이다. 따라서 오늘 소개한 Blind Super Resolution 아이디어들의 공통된 아이디어는 학습이던 Heuristic이던 현실 세계의 다양한 Degradation 기법들을 반영하여 LR Image를 생성한 후 Super Resolution을 학습하자는 목표를 가진다.
HLLHGAN - Cyclic(?)하게 High-to-Low, Low-to-High 이미지를 생성하는 네트워크를 구축하여 Degradation Strategy를 학습하자는 아이디어를 가진다. 이 때, High-to-Low는 입력 데이터(LR Image) 생성이 목표이고, 궁극적인 목표는 Low-to-High에 있다고 볼 수 있다.
KernelGAN - 개별 이미지에 특화된 Degradation을 적용하여 LR Image를 만드는 것이 목표이며, 기존의 Super Resolution은 HLLHGAN에서 Low-to-High 를 End-to-End로 학습한 것과 달리 이미 잘 알려진 모델을 사용하고자 하는 것이 목표이다. 이때 Degradation Kernel은 선형 Kernel의 조건을 만족 시키기 위해 Convolution 사이에 ReLU 등의 Non-linearity 함수는 적용되지 않는다고 한다. (그럴거면 성수 말처럼 그냥 하나만 써도 되지않나..?)
BSRGAN - Degradation Space를 확장시키는 것이 궁극적인 목표이나, 앞선 논문들처럼 학습 기반의 Degradation 생성이 아니라, 다양한 Blur(Kernel size, width, rotation angle 변화)/ 다양한 Downsampling(Near, Bilinear, Bicubic, Down-up)/노이즈(Gaussian, JPEG Compression, Camera Sensor)/Quantization Factor Scale 을 섞어 생성한다.
Real-ESRGAN - BSRGAN에서 제안한 Degradation 시퀀스를 1번 이상 수행하여 Degradation Space를 확장시키는 것이 핵심이다. 해당 논문에서 재밌는 개념을 알게 되었는데, Ringing, Overshoot 등의 다양한 이미지 Blur 기법이 존재하며, 해당 기법들에 의해 생기는 시각적 효과에 대해서도 알 수 있었다.
기깔난 세미나를 준비하느라 고생한 성수에게 박수를 보낸다.

이번 세미나는 성수가 Blind Super Resolution를 주제로 진행해주었다. 내가 이해한 주제 내용을 간략하게 설명해보면, 저화질 이미지를 고화질 이미지로 선명하게 변환해주는 Super Resolution라 하고, 저화질 이미지가 어떻게 만들어졌는지 원인을 모르는 상태를 Blind라고 한다. (저화질 이미지가 만들어지는 과정을 만약 정확하게 알고 있다면 지도학습으로 Super Resolution을 효과적으로 수행할 수 있다는 것을 염두하고 만든 단어인 듯 하다.) 세미나를 청취하며 고화질 이미지가 정확하게 무엇인지 알아갈 수 있어 흥미로웠고, 고화질 이미지로부터 현실 세계에서 겪을 수 있을 법한 대표 저화질 이미지를 만들어내고, 이를 다시 복원하는 2 단계 구조의 Blind Super Resolution 연구 트렌드를 명확하게 파악할 수 있었다. 각 단계를 위해 GAN 모델이나 여러 가지 데이터 증강(노이즈) 기법들이 많이들 사용되고 있고, 이러한 과정을 본 세미나에서 면밀히 살펴볼 수 있다. 개인적으로 HLLHGAN 부분 설명에서 Super Resolution을 위한 GAN 활용 방법을 잘 살펴볼 수 있어 좋았다. 양질의 세미나를 준비하느라 고생한 성수에게 감사의 말씀을 전하며 세미나 후기를 마치도록 한다.