- 2023년 11월 24일 오전 11:26
- 조회수: 25960
REFERENCES
INFORMATION
- 2023년 11월 24일
- 오후 12시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
최근 생성 모델 연구에서 Diffusion Models이 각광받고 있다. Diffusion Models은 생성 프로세스를 세밀하게 제어할 수 있어 사용자가 생성된 데이터의 품질과 다양성을 조작할 수 있고, 다른 생성 모델들에 비해 안정적으로 학습 프로세스를 진행한다. 이러한 이유들로 이미지 합성 및 생성 분야 뿐만 아니라 anomaly detection, natural language generation, time series imputation and forecasting 등 다양한 분야에서 우수한 성능을 보이며 연구가 진행되고 있다. 본 세미나에서는 Diffusion Models이 다양한 분야에서 어떻게 활용되는지 살펴보고자 한다.
참고 문헌:
[1] Yang, L., Zhang, Z., Song, Y., Hong, S., Xu, R., Zhao, Y., ... & Yang, M. H. (2022). Diffusion models: A comprehensive survey of methods and applications. ACM Computing Surveys.
[2] Nichol, A. Q., Dhariwal, P., Ramesh, A., Shyam, P., Mishkin, P., Mcgrew, B., ... & Chen, M. (2022, June). GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models. In International Conference on Machine Learning (pp. 16784-16804). PMLR.
[3] Wyatt, J., Leach, A., Schmon, S. M., & Willcocks, C. G. (2022). Anoddpm: Anomaly detection with denoising diffusion probabilistic models using simplex noise. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 650-656).
[4] Gong, S., Li, M., Feng, J., Wu, Z., & Kong, L. (2022, September). DiffuSeq: Sequence to Sequence Text Generation with Diffusion Models. In The Eleventh International Conference on Learning Representations.
[5] Rasul, K., Seward, C., Schuster, I., & Vollgraf, R. (2021, July). Autoregressive denoising diffusion models for multivariate probabilistic time series forecasting. In International Conference on Machine Learning (pp. 8857-8868). PMLR.
[6] Tashiro, Y., Song, J., Song, Y., & Ermon, S. (2021). Csdi: Conditional score-based diffusion models for probabilistic time series imputation. Advances in Neural Information Processing Systems, 34, 24804-24816.
청취자 후기

이번 세미나는 Diffusion model의 전반적인 application에 대한 내용으로 진행되었다. Generative model부터 Diffusion model 까지의 유래, 원리 등을 처음부터 차근차근 알 수 있어서 해당 분야를 잘 알지 못하는 입장에서도 이해하기 쉬웠다. 본 세미나에서는 Diffusion model의 application 사례로 5가지 방법론을 소개한다.
GLIDE는 image와 text의 연관성을 고려하는 CLIP guidance를 활용하여 모델을 학습시킨다. Image inpainting 및 image editing이 가능함을 실험적으로 증명하였다. AnoDDPM은 simplex noise를 기반으로 우선 normal sample을 학습한다. 그 후 abnormal sample을 normal sample으로 근사시키고, 두 sample의 reconstruction loss가 큰 부분을 highlight하는 reconstruction-based anomaly detection 방법으로 이해했다.
DiffuSeq의 경우 discrete한 특징을 지닌 text에 diffusion model을 적용한 사례로, seq2seq text generation task에 최초로 diffusion model을 적용한 기여점이 있었다. TimeGrad은 확률적 다변량 시계열 예측을 위해 autoregressive denoising diffusion model 적용하였다. 마지막으로 CSDI의 경우 시계열 결측치 대체를 위해 conditional score-based diffusion model을 적용하였다.
하나의 세미나 내에 diffusion model이 정말 많은 분야에 적용될 수 있음을 잘 요약해서 보여준 세미나였던 것 같다. 물론 모델마다의 수식을 완벽히 이해하지는 못했지만, diffusion model이 어떻게 작동하는 지에 대한 큰 맥락은 파악할 수 있었던 것 같다. 그리고 나의 짧은 지식으로는 diffusion model하면 이미지 데이터만 줄곧 생각했었는데, 시계열(결측치 대체, autoregressive model 등등..) 데이터에 대해서도 활발히 연구가 진행되고 있는 점은 굉장히 신기했고 흥미로웠다. 유익한 세미나를 준비해준 태남이에게 감사의 말을 전하며, 세미나 후기를 마친다.

이번 세미나는 다양한 분야에서 활용되는 디퓨젼 모델들에 대한 내용을 바탕으로 진행되었다. 이미지 생성 분야 이외에도 이상치 탐지, 자연어 처리 그리고 결측치 대체 등과 같은 task를 수행하는 디퓨젼 모델들에 대해 소개하였다.
[1] GLIDE: 디퓨젼 모델에 text guidance를 도입한 모델. 기존 CFG 모델의 경우 class label만을 사용해 생성할 이미지를 guide 하였다면, GLIDE에서는 text condition을 주어 디퓨젼 모델의 출력을 guide 하였다. 또한 해당 논문에서 CFG와 CLIP guidance로 guide 하는 방법 중 CFG를 사용했을 때 생성된 이미지가 보다 현실적이라는 것을 발견하였다.
[2] AnoDDPM: 디퓨젼 모델을 이상치 탐지에 적용한 모델로, 생성된 이미지가 정상 이미지라는 가정하에 원본 이미지와 많이 차이난다면 해당 부분이 anomaly 라고 highlight하는 모델이다. 일반적인 디퓨젼 모델은 gaussian noise를 사용하는데, 이 anomaly를 잘 찾지 못하는 문제가 발생하여 본 논문에서는 multi scale simplex noise를 활용한게 특징이다.
[3] DiffuSeq: 디퓨젼 모델을 자연어 처리에 적용한 모델이다. Seq2Seq text generation을 최초로 디퓨젼 모델에 적용한 사례이며, CFG를 사용한다. 즉 입력 문장(질문)이 들어오면, 그에 대한 답변을 뱉어내는 task를 수행하는 것인데, 이때 입력 문장을 guide로 활용한다. 더하여 입력 문장에 대해서만 noise를 부여하는 ‘partial noising’이 DiffuSeq의 특징이다.
[4] TimeGrad: 디퓨젼 모델을 다변량 시계열 예측에 적용한 모델이다. 과거 시점 정보(hidden state)를 사용하는데, 이를 위해 RNN 구조를 도입하였다.
[5] CSDI: 확률적 시계열 결측치 대체를 위한 디퓨젼 모델이다. 관측치들을 reverse process의 input으로 사용하여, 결측치를 예측한다. 이때 sequential 하게 예측 값을 뱉는게 아니라, 한번에 생성한다. 이로 인해 시계열성을 반영하지 못한다고 생각할 수도 있지만 디퓨젼 모델 내부 attention이 존재하여 시계열 특성 충분히 고려한 예측을 수행한다.
일반적으로 디퓨젼 모델을 생각하면 이미지 생성이 가장 먼저 떠오르게 된다. 나 역시도 image editing 분야를 연구하다보니 다른 도메인에 대해 알아볼 기회가 많이 없었는데, 본 세미나를 통해 다양한 분야에서 디퓨젼 모델이 사용된다는 사실과 전반적인 특징들에 대해 이해할 수 있어 좋았다. 유익한 세미나를 준비해준 태남이에게 감사의 말을 전하며 세미나 후기를 마친다.

이번 세미나는 Diffusion Model의 응용이라는 주제로 진행되었다. Diffusion 모델이 굉장히 많은 주목을 받고 있는데 이미지 등을 생성하는 것 뿐만 아니라 다양한 Task를 풀 수 있다는 사실이 굉장히 흥미로워 세미나에 집중할 수 있었다. 첫번째로 소개한 방법론은 GLIDE이며 해당 방법론은 텍스트에 맞는 이미지를 생성하는 Task이다. GLIDE는 CFG와 CLIP 가이던스를 사용하였으며 이미지 생성 뿐만 아니라 이미지 미세 조정도 가능함을 보여서 굉장히 신기하였다. 두번째는 AnoDDPM 방법론을 소개하였다. 비정상 이미지에 노이즈를 추가하고 제거하는 Diffusion과정을 통해서 정상 이미지로 복원하게 되고 복원된 이미지와 기존 비정상 이미지와의 차이를 계산하여 이상 탐지를 수행하게 된다. 이때 노이즈를 Gaussian 노이즈가 아닌 Simplex 노이즈를 사용하는 것이 특징이었다. 세번째로 DiffuSeq를 소개하였다. 해당 모델은 SeqtoSeq으로서 NLP에 Diffusion 모델이 적용되어 질문과 답변을 하는 Task였다. 마지막으로 TimeGrad/CSDI라는 시계열에 Diffusion을 적용한 연구를 소개하였는데 과거 시점을 바탕으로 미래 시점을 예측하는 Task였다. Diffusion 모델이라 하면 이미지를 활용하는 Task밖에 생각나지 않았었는데 이번 세미나를 통해서 텍스트 뿐만 아니라 시계열 데이터에 까지 Diffusion 모델이 적용되는 것을 확인할 수 있었다. 하나의 Task에서 굉장히 높은 성능을 보이는 모델이 다른 Task까지 확장되며 적용되는 것이 굉장히 흥미로웠고 특히 아예 데이터의 범주가 달라서 어떻게 적용해야 하는지 감도 안오는 연구들을 쉽게 설명해주어 시야를 넓히는데 많은 도움이 된 것 같다. 관심 분야인 이상 탐지 관련 연구를 찾는 것 뿐만 아니라 다양하게 학습하고 최신 방법론들을 배우는 것이 중요함을 느낄 수 있는 유익한 시간이었다. 이처럼 Diffusion 모델과 그 응용에 대하여 차근차근 잘 설명한 박태남 연구원에게 고맙다는 인사를 전하며 이상으로 세미나 후기를 마친다.

Diffusion 생성 모델 활용에 관한 세미나를 청취하였다. 크게 네 가지 관점에서의 Diffusion 모델 활용 사례가 소개되었는데, 우리 연구실 이전 Diffusion 세미나에서 다뤄왔던 토픽들과 거의 겹치지 않게 구성되어 있으며, 이를 위해 태남이가 많이 고생했을 것이라 생각한다. 준비 과정이 태남이에게 많은 도움이 되었길 바라며, 세미나 내용 아래와 같이 간략히 정리해보고 후기 작성을 마치도록 한다.
1. Text-to-Image Generation
--> Text라는 Condition 바탕으로 이미지를 생성하는 태스크. Condition을 충분히 반영하면서 고품질 이미지 데이터를 생성해야 하는데, Condition을 어떻게 효과적으로 줄 수 있는지 고민하여 연구되고 있는 분야. Condition에 적합한 이미지 생성을 위해 Diffusion 학습에 사용되는 노이즈를 어떤 식으로 조절해갈지로 이해할 수 있는데, Guidance라는 단어가 참 직관적이고 좋은 단어라 생각 함.
2. Anomaly Detection
--> Diffusion 모델이 이상 데이터 영역은 잘 생성(복원)하지 못할 것이라는 가정을 기반한 태스크(맞나요...? 아니면 편히 연락 좀...). Diffusion 학습에는 어떤 노이즈를 매 스텝마다 얼만큼 더할지 스케쥴링 하는 과정이 중요할 거라 생각되는데, 효과적인 이상 탐지를 위해는 어느 지점까지 혹은 어느 종류의 노이즈를 사용할까를 연구하고 있는 분야. 다양한 종류의 현실 문제를 풀기 위해서는 이러한 연구들이 많이 진행되어야 한다고 생각함.
3. Natural Language Generation
--> 이미지나 오디오같이 연속적인 형태로 이루어지지 않고, 이산적인 형태로 이루어진 NLP 데이터에는 Diffusion이 생각보다 잘 적용되지 않을 수 있음을 처음 알게 됨. 연속형 데이터와 이산형 데이터 사이를 오가는 임베딩과 라운딩 과정을 디퓨전에 잘 녹여내는 것이 중요하다고 생각함.
4.Time-series Forecasting & Imputation
--> 디퓨전에서의 Reverse process 과정을 시계열 데이터의 예측 및 Imputation 관점으로 생각한 태스크. Imputation 태스크는 디퓨전 관점에서 잘 이해할 수 있었는데, 솔직하게 예측 부분은 이해하기 많이 어려웠다. 디퓨전 process 과정에 RNN 모듈 적용을 시도해볼 수 있는 것과 auto-regressive하게 예측한다는 점만은 우선 잘 기억하고 있어야 겠다.
좋은 세미나를 준비하느라 고생했을 태남이에게 감사의 말씀을 전합니다!

기존 Diffusion 관련 세미나를 준비한 진우, 건희, 종현, 한샘도 훌륭했지만 아무래도 이미지 생성 쪽이 주 연구 분야가 아닌 사람들에게는 신기하고 재밌긴 해도 직접 쓸 일은 많이 없었을 것이다. 오늘 태남이가 준비해준 세미나를 통해, Diffusion Process라는 개념이 다양한 분야에 어떻게 적용될 수 있으며 그러한 사례가 무엇인지를 알 수 있었다. 이미 연구 포화 상태이며 더 이상의 진척은 크게 바뀌지 않을 것이라고 판단했던 이상치 탐지, 자연어 처리, 시계열 예측, 결측치 대체 분야에 Diffusion을 시도한 사례를 볼 수 있어 매우 흥미로웠다. 금일 세미나에서 주로 다뤘던 내용은 Text conditioned generation을 위한 GLIDE, 이미지 이상 탐지를 위해 제안된 AnoDDPM, Text-to-Text Generation을 위한 DiffuSeq, 다변량 시계열 예측을 위한 TimeGrad, 결측치 대체를 위한 CSDI로 총 5개다. 다 너무 잘 설명해주었으며 이해가 잘 되었다. 세미나를 듣고 Diffusion에 대해 흥미가 생겨 태남이랑 이런저런 이야기를 나누었는데, TimeGrad와 CSDI에 대한 비교와 개선 방안에 대한 토론이 가장 기억에 남는다. 분명 TimeGrad에서 현재 시점의 예측 값(노이즈)을 계산, Denoising 할 때 조건으로 들어가는 히든 벡터는 이전 시점에서 완벽하게 Denoising된 값이 들어가야하기 때문에 순차적인 계산 시간이 굉장히 오래 걸리는게 단점일 것 같다. 하지만 결측치 대체를 위해 제안된 CSDI의 경우, 모든 시점의 시퀀스를 동시에 Denoising하는 방식이 존재함을 보였다. 이때, 자가지도학습으로 MLM Objective를 쓰게 되는데, 내가 생각한건 CSDI에서 Attention을 Bi-directional이 아닌 Autoregressive하게(Masked Attention)을 사용하면 굳이 TimeGrad처럼 할 필요가 없지 않을까 였다. 그런 연구가 존재하는지, 혹은 불가능할지는 모르겠지만 그래도 이번 세미나를 굉장히 재밌게 들어서 다양한 생각을 해본 계기가 되었다. 쨌든 기깔난 세미나를 준비하느라 고생한 태남이에게 박수를 쳐주고 싶다.

이번 세미나에서는 박태남 연구원께서 최근 여러 생성 모델들 중 Diffusion Model이 각광받는 이유와, Diffusion Model의 기본적인 작동 방식, 그리고 Diffusion Model이 실질적인 문제해결을 위해 어떻게 활용되는지에 대한 세미나를 해주셨습니다.
생성 모델은 주어진 데이터의 표현을 학습하고, 데이터의 분포 자체를 모델링합니다. 생성 모델 성공의 세 가지 주요 요인으로는 생성 결과물의 높은 퀄리티(High Quality Samples), 생성 결과물의 높은 다양성(Model Coverage/Diversity), 빠른 생성 속도(Fast Sampling)입니다.
최근 각광받는 Diffusion Models는 위 세 가지 요인 중 생성 결과물의 높은 퀄리티(High Quality Samples)와 높은 다양성(Model Coverage/Diversity)를 달성할 수 있습니다. Diffusion Models는 비정형 열역학에 그 기초를 두고 있습니다. 그리고 기존의 GAN, VAE, Flow-based Models와 구별되는 특징은 학습 절차가 고정되어있다는 점과, 잠재 변수의 차원이 원본 데이터의 차원과 동일하다는 것입니다.
Diffusion Models의 가장 기초라고 할 수 있는 DDPM(Denoising Diffusion Probabilistic Models)을 통해 Diffusion Models의 작동 원리를 알아볼 수 있었습니다. DDPM은 Forward Process와 Reverse Process로 구성되어있습니다. Forward Process는, 고정된 확률 프로세스를 통해 입력 데이터에 노이즈를 추가하는 과정입니다. Reverse Process는, 노이즈 제거를 반복적으로 진행하는 과정으로, 이 과정이 데이터의 합성/생성 과정에 해당됩니다. DDPM의 학습은 Reverse Process를 수행할 수 있도록 심층 신경망을 학습시키는 것으로, 심층 신경망이 성공적으로 학습되면 random noise로부터 사실적인 데이터를 생성하는 것이 가능해집니다.
DDPM은 Unconditional Generation으로, 사용자가 원하는 조건을 추가하여 생성 과정을 진행할 수 있도록 하는 Conditional Diffusion Models로의 응용이 가능합니다. 응용 방식에 따라 Conditional Diffusion Models는 Classifier Guidance와, Classifier-free Guidance(CFG)로 나눌 수 있습니다.
Classifier Guidance는 Noisy Data로 학습한 별도의 Classifier를 필요로 하며, 이 Classifier의 gradient를 기존 sampling 과정에서 추가적으로 활용하여 Conditional Sampling을 수행합니다. 하지만, 별도의 Classifier를 필요로 하기 때문에, 기존에 학습되어있는 모델을 사용할 수 없다는 한계가 존재합니다. 반면, CFG는 별도의 Classifier 없이, Diffusion Models만으로 Conditional Sampling을 수행할 수 있습니다.
Diffusion Models는 그 자체의 생성 능력 역시 주목할만 하지만, 다양한 분야에 적용했을 때의 가능성 역시 보여주고 있습니다. 이번 세미나에 포함된 대표적인 5개의 분야는 Text-to-Image Generation, Anomaly Detection, Natural Language Generation, Time-series Forecasting, Time-series Imputation입니다.
Text-to-Image Generation에 Diffusion Models를 적용하기 위한 대표적인 방법론은 GLIDE(Guided Language to Image Diffusion for Generation and Editing)입니다. GLIDE에서는 입력 텍스트로부터 그에 맞는 이미지를 생성하는 목적을 달성하기 위해 기본적인 Diffusion Model에 두 가지 Guidance를 적용합니다. 하나는 위에서 언급한 CFG이고, 다른 하나는 CLIP Guidance입니다. CLIP Guidance는 기존의 Classifer Guidance에서 Classifier에 해당하는 부분을 CLIP model로 대체한 Guidance입니다. CLIP model은 이미지와 텍스트가 비슷한 의미면 같은 공간 상에서 가깝게 위치할 수 있도록 하는 모델이며, Classifier와 마찬가지로 Noisy Data에 대한 학습 후 사용됩니다.
Anomaly Detection에 Diffusion Models를 적용하기 위한 대표적인 방법론은 AnoDDPM(Anomaly Detection with Denoising Diffusion Probabilistic Models using Simplex Noise)입니다. 기존에 GAN을 기반으로 하는 Anomaly Detection Model들에 비해 AnoDDPM은 더 작은 데이터셋을 가지고도 우수한 성능을 보인다는 것이 장점입니다. 또한, AnoDDPM은 GAN 기반의 Anomaly Detection Model들에 비해 Sample Quality가 향상되었으며, 학습 과정이 보다 안정된다는 장점 역시 존재합니다. 단, 기존의 DDPM에서는 Gaussian Noise를 활용한 반면, AnoDDPM에서는 Multi-scale Simplex Noise를 도입합니다. Multi-scale Simplex Noise를 도입함으로써, 보다 정확히 이미지의 Frequency 분포를 컨트롤 할 수 있고, 더 큰 비정상 영역을 정상으로 근사하여 복원할 수 있습니다. 이에 대해 제가 이해한 바는 다음과 같습니다.
이러한 이상치 탐지의 기본적인 원리는 비정상 데이터가 입력되면, 모델은 이를 정상 데이터로 복원하며, 복원된 결과(정상)와 원본 데이터(비정상 데이터)의 차이가 큰 경우 높은 Anomaly Score를 부여하게 됩니다(정상 데이터는 정상 데이터로 복원되며, 입력 데이터와 복원 데이터의 차이가 작기 때문에 낮은 Anomaly Score가 부여됩니다). 하지만 AnoDDPM에서 Gaussian Noise를 사용하는 경우 작은 비정상 영역은 정상으로 복원되어 위 원리를 활용할 수 있지만, 그 크기가 큰 비정상 영역은 비정상 그대로 복원해내어 위 원리를 바탕으로 탐지할 수 없습니다. AnoDDPM에서는 이러한 한계를 극복할 수 있는 Multi-scale Simplex Noise를 도입하여 해당 이슈를 극복합니다.
Natural Language Generation에 Diffusion Models를 적용하기 위한 대표적인 방법론은 DiffuSeq(Sequence to Sequence Text Generation with Diffusion Models)입니다. 이전에, Text Data는 기본적으로 이산적인 특성을 갖기 때문에 Diffusion Models를 적용하는 데 어려움이 있었는데, Text Data에 Diffusion Models를 성공적으로 적용하였다는 점 역시 DiffuSeq이 갖는 의의 중 하나입니다. DiffuSeq은 질문(x)을 바탕으로 답변(y)을 생성할 수 있도록 하는 것이 목표입니다. 따라서 학습 과정에서 x와 y를 입력받으면, x와 y를 모두 임베딩으로 바꾸어 concat하며, forward/reverse process에서 y에 해당하는 부분에만 부분적으로 노이즈를 추가/제거하는 과정인 partial noising/denoising을 수행합니다. 이 과정에서 x는 노이즈가 추가되지 않은 상태로 유지됩니다. 이를 통해 나중에 추론 과정에서, 질문(x)만을 입력받으면 답변(y)에 해당하는 부분은 랜덤 노이즈로 채우고 추론을 진행할 수 있게 됩니다. 이때 백본으로 transformer를 사용하기 때문에 partial denoising 과정에서 y에 해당하는 부분에 노이즈를 제거할 때 노이즈가 추가되지 않은 상태로 유지되고 있는 x 부분을 계속해서 참고할 수 있게 됩니다. DiffuSeq은 다른 모델들에 비해 우수하거나 동등한 성능을 보이며, 특히 동일한 질문(x)에 대해서 다양한 답변(y)를 생성하는 능력에서 우수함을 보입니다.
Time-series Forecasting에 Diffusion Models를 적용하기 위한 대표적인 방법론은 TimeGrad(Autoregressive denoising diffusion models for multivariate probabilistic time series forecasting)입니다. TimeGrad에서는 한 timestep의 데이터에 대해 forward/reverse process를 진행합니다. 이 때, 원본 시계열 데이터를 RNN에 입력한 결과로 얻어지는 latent variable을 reverse process의 조건으로 추가하면서 진행하는것이 TimeGrad의 진행방식입니다. 이 과정을 통해서 수행하고자하는 것은, 과거와 미래 데이터로 구성된 전체 시계열 데이터에서, 과거 데이터를 조건으로 하는 전체 시계열 데이터의 분포를 학습하는 것입니다.
Time-series Imputation에 Diffusion Models를 적용하기 위한 대표적인 방법론은 CSDI(Conditional Score-based Diffusion Models for Probabilistic Time Series Imputation)입니다. 시게열 데이터는 결측치를 포함하고 있는 경우가 있으며 이 결측치를 잘 채우는 것이 Time-series Imputation 분야에서 해결하고자하는 문제입니다. 기존에도 Time-series Imputation을 수행하기 위해 Score-based Model들이 사용되었지만, 결측치가 아닌, 즉 관측된 부분에 대해서도 노이즈를 부여했기 때문에 정보가 손실되고 성능이 하락한다는 문제가 있었습니다. 반면 CSDI에서는 관측된 부분은 조건으로만 사용하며, 노이즈를 부여하지 않습니다. CSDI는 결측치를 Sequential하게 채우는 것이 아니라 한 번에 채우기 때문에 Time-series가 아닌 다른 데이터에도 적용할 수 있다는 장점이 있습니다. 하지만, CSDI는 Imputation 과정에서 Attention 메커니즘을 활용하기 때문에 데이터의 Sequential한 특징이나, Feature의 의존도를 반영할 수 있습니다. CSDI는 MLM에서 착안한 Self-supervised 방법론으로 학습을 진행합니다. 현재 관측치 중 일부를 결측치로 설정하여 Masking하고, 이 부분을 복원하는 것을 학습하여, 최종적으로는 Inference 단계에서 관측하지 못한 결측치도 성공적으로 복원하는 것을 목표로 합니다.
그 동안 여러 경로로 최근 각광받고 있는 Diffusion Models를 접하면서, 신기하고 재미있는 분야이지만, 널리 알려진 이미지 생성 외에 어떤 분야에 적용할 수 있을 지 의문을 갖고 있었습니다. 이번 세미나를 통해, 기존에 다른 방법론을 통해 접근되던 분야들에도 Diffusion Models가 활용될 수 있고, 산업 현장이나 그 외 데이터 사이언스를 필요로 하던 여러 분야에서 좋은 성능을 내고 있음을 알 수 있었습니다. 또한 Diffusion Models를 다른 분야에서 적용하기 위해서 Diffusion Models 내부의 지식 뿐만 아니라 Trnasformers, Simplex Noise, MLM 등 여러 분야의 아이디어를 도입/응용하고 있음을 확인할 수 있었습니다. 연구와 개발 과정에 있어 넓은 시야를 갖고 다양한 분야의 지식을 접하는 것은 유의미하게 유리한 전략임을 확인할 수 있습니다.
좋은 세미나 준비해준 박태남 연구원께 감사의 말씀을 전합니다.

이번 세미나는 Diffusion 연구가 이미지 생성뿐만 아니라 다양한 분야에서 어떻게 이뤄지고 있는지 소개하였다. 대다수 사례들은 Conditional Generation 컨셉을 갖고 가면서, 무언가를 생성해낸다는 의의를 갖는다. 이번 세미나에서 소개한 각 사례들의 컨셉은 아래와 같다.
[1] GLIDE – Text2Image Generation: Conditional Generation 중 Classifier Guidance에 해당된다. 이때, Classifier로 CLIP Image Encoder & Caption Encoder를 활용하여 Image와 Text에 대한 이해도를 높였다.
[2] AnoDDPM - Anomaly Detection: Reconstruction 기반으로 이상 탐지를 수행한다. 이는 일반적인 이상 탐지처럼 비정상은 잘 복원되지 못할 것이라는 가정을 갖는다. 특이한 점은 DDPM에서 사용하는 Gaussian Noise가 아닌, Simplex Noise를 사용한다는 점이다.
[3] DiffuSeq – Text2Text Generation: 일반적으로 Diffusion은 이미지와 같은 연속형 데이터 모델링에 적합하다. 그러나, 자연어처럼 이산적인 데이터에는 적합하지 않다고 한다. 따라서, Embedding 공간에서 Diffusion Process를 수행한다는 특징을 갖는다. 마지막에는 다시 이산형태로 바꿔 주기 위해 Rounding 과정을 추가하였다. 추가적으로, Condition을 줄 때, X는 변화시키지 않고 Y에만 변화를 주는 것(Partial Denoising)도 하나의 포인트다.
[4] TimeGrad – 시계열 예측: 1시점씩 Autoregressive하게 예측하는 특징을 갖는다. 이는 미래 시점 데이터 분포를 학습하는 목표를 갖는다.
[5] CSDI – 결측치 대체: 기존에 관측치 중 적절한 전략(Random Strategy)을 선택하여 일부러 결측치로 만든 후, 그 외 실측치 정보로 결측치를 채우도록 학습한다 (Like BERT). 즉, 일부러 만든 결측치를 임의의 Noise로 모사한 후, 순차적으로 제거해가며 학습한다. Inference 시에는, 실제 빈 공간에 결측치를 채우는 Task를 수행한다.
이번 세미나를 통해 다양한 Diffusion 연구 동향을 볼 수 있었다. Generation을 할 때, Condition의 중요성을 알 수 있었고, 다양한 Modality에 적용되고 있는 현황들을 볼 수 있었다. 개인적으로는 CSDI가 BERT의 MLM처럼 학습하는 원리가 흥미로웠다. 어떻게 보면 연구는 돌고 도는 것 같다는 생각도 든다. 유익한 세미나를 준비해준 박태남 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.