- 2024년 3월 8일 오전 4:36
- 조회수: 29561
INFORMATION
- 2024년 3월 8일
- 오전 9시 ~
- 고려대학교 신공학관 218호
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
요약:
최근 생성 분야에서 Diffusion model은 높은 성능과 안정적인 생성 능력으로 많은 주목을 받으며, 다양한 분야에서 활용되고 있다. 그 중, 시간별로 계측하고 나열한 데이터인 Time Series 데이터에 발생한 결측치를 대체, 생성 혹은 예측하는 Diffusion Model에 대한 연구가 활발히 진행되고 있다. 시계열 데이터에 Diffusion model을 적용하기 위해서는 시계열 데이터의 특성을 model에 반영하는 것이 중요하다. 이에 본세미나에서는 시계열 데이터의 특성을 반영한 Diffusion model들에 대해 소개하고자 한다.
참고문헌:
[1] Lin, L., Li, Z., Li, R., Li, X., & Gao, J. (2023). Diffusion models for time-series applications: a survey. Frontiers of Information Technology & Electronic Engineering, 1-23.
[2] Rasul, K., Seward, C., Schuster, I., & Vollgraf, R. (2021, July). Autoregressive denoising diffusion models for multivariate probabilistic time series forecasting. In International Conference on Machine Learning (pp. 8857-8868). PMLR.
[3] Tashiro, Y., Song, J., Song, Y., & Ermon, S. (2021). Csdi: Conditional score-based diffusion models for probabilistic time series imputation. Advances in Neural Information Processing Systems, 34, 24804-24816.
[4] Alcaraz, J. M. L., & Strodthoff, N. (2022). Diffusion-based time series imputation and forecasting with structured state space models. arXiv preprint arXiv:2208.09399.
청취자 후기

오늘 세미나는 Diffusion model을 시계열 데이터에 적용하여 예측하고, 결측치를 대체하는 논문들에 대한 내용이었다.
우선, 시계열 데이터에 대한 설명과 Diffusion model에 대한 설명을 한 후, 왜 시계열 데이터에 대해 Diffusion model이 필요한지에 대해 설명해 주었는데 대부분의 개별 시계열 데이터는 서로 통계적 의존성을 가져서 이상적으로 전체 예측 분포를 고려하는 모델이 필요하기 때문이었다. 기존 생성 모델 대비 Diffusion model의 강점을 소개한 후 본격적으로 시계열 데이터에 Diffusion model을 적용시킨 논문들을 소개했다. 크게는 시계열 데이터 예측과 결측치 대체로 나눌 수 있는데, 우선 예측쪽에서는 'DiffWave'와 'TimeGrad' 논문을 소개했다.
DiffWave는 순차성이 있는 데이터에서 Bi-Dilated Convolution Layer를 통해 장기 의존성을 반영하고, 앞뒤의 샘플까지 고려할 수 있는 모델이고, TimeGrad의 경우 다변량 시계열 예측을 위한 Autogressive-Diffusion 모델인데 매 Timestep마다 RNN을 사용한 확률 모델을 계산하여 진행되어 성능은 뛰어나지만 샘플링과정에서 많은 시간이 소요되고 데이터 결측치 처리를 할 수 없다는 한계점을 가진다.
하지만, 실제 현실에서는 대부분의 데이터가 항상 결측치를 가지고 있으며 그 결측치가 데이터의 왜곡을 가져올 수 있기 때문에 Critical하므로 이를 해결 할 수 있는 논문들에 대해 소개해 주었다.
우선, CSDI는 Masked Language model에 영감을 받아 Self-supervised training 기법을 사용하며 Imputation target과 Conditional observations를 input으로 넣어 Noise를 예측하는 방법을 사용한다. 또 시계열 데이터의 시간 종속성과 특성 종속성을 반영하기 위해 Attention Mechanism을 사용하는데 각각의 residual layer에서 convolution architecture 대신 1-D layer transformer encoder를 사용하는 특징이 있다. 실험 결과를 보면 다른 Probabilistic과 Deterministic imputation 모델에 비해 우수한 성능을 보이지만 샘플링 속도가 느리고 장기의존성을 해결하기 위한 computation cost가 높다는 한계가 있다.
그래서 그 한계를 해결 하기 위해 CSDI와 유사한 방식으로 하지만 결측 부분에 대해서만 Diffusion process를 적영하는 SSSD를 소개한다. 상태방정식을 사용하는 수학적 모델로 다양한 분야에 적용이 가능하다고 한다. S4 Layer를 사용하여 장기적 의존성을 효율적으로 모델링할 수 있다고하는데, 이를 잘 활용하면 다양한 형태로 생기는 현실 세계의 결측치를 잘 처리할 수 있을 것으로 보인다. 장기적 의존성을 포착하기 때문에 결측치 대체 성능은 우수하지만 샘플링 속도가 느리고 입력 채널수가 너무 많은 경우에 수렴을 잘 하지 못하는 단점을 가지고 있는 모델이었다.
시계열 데이터는 생각보다 흔하게 접할 수 있는 데이터이지만 매번 결측치 처리를 어떻게 해야하는지 다양한 방법들을 사용하고 있었는데, 이렇게 Diffusion model을 적용한 여러가지 방법론도 있다는 좋은 연구들을 알려준 추창욱 연구원에게 감사의 말을 전하며 세미나 후기를 마친다.

이번 세미나는 "시계열 데이터에 디퓨전 모델 적용"이라는 주제로, 시계열 데이터에 예측 및 결측치를 대체하는 총 세 가지 연구, TimeGrad, CSDI, 그리고 SSSD에 대한 소개가 주를 이루었다.
1.TimeGrad: 다변량 시계열 예측을 위한 자기회귀 노이즈 제거 디퓨전 모델에 관한 연구로, 시계열 데이터의 미래 값을 예측하는 새로운 접근법을 제시한다. 이 모델은 forward process와 reverse process를 통해 데이터의 복잡한 분포를 학습하며, 학습된 모델을 통해 예측값을 생성한다.
2. CSDI & SSSD: 시계열 데이터에서 결측치는 빈번하게 발생하며, 이는 특정 시점의 평균과 분산 결과에 왜곡을 가져오는 치명적인 문제를 유발한다. 따라서, 두 연구는 이러한 결측치를 복원, 예측하기 위한 연구이다. 먼저 CSDI는 학습 데이터에서 여러 전략을 사용하여 imputation target과 conditional observation을 만들어낸다. 이후 imputation target에 잡음을 추가하며, 이 때 diffusion model에 conditional observation을 condition으로 주어 추가된 잡음을 예측한다. 이러한 과정으로 학습을 진행하고 inference 과정에서 실제 결측 부분에 noise를 추가하여 해당 부분을 복원하여 결측치를 대체하게 된다. 하지만, 해당 연구에서는 샘플링 속도가 느리고 장기 의존성을 해결하기 위해 computation cost가 높아지는 한계가 존재한다. 이러한 한계점을 SSSD에서 개선하였으며, structured state space model과 diffwave를 합친 구조를 제안하였다. 해당 연구에서는 긴 시퀀스 데이터에 대한 특징은 잘 잡아내면서 computation cost는 낮춘 s4 layer를 사용하였고 state space model에서 상태 행렬을 표현할 때 무수한 상태를 효과적으로 표현할 수 있는 hippo matrix 구조를 사용하여 앞선 한계점을 개선하였다는 것이 특징이다.
연구실의 많은 연구원들이 디퓨전 모델에 대한 세미나를 "생성"해주어, 관련 연구 추세를 따라가는 데 있어 매우 도움이 되고 있다. 이번 세미나를 통해, 이미지 데이터뿐만 아니라 시계열 데이터에 대해서도 디퓨전 모델이 어떻게 유용하게 적용될 수 있는지에 대한 흥미로운 인사이트를 얻을 수 있었다. 좋은 세미나를 준비해 준 창욱이게게 진심으로 감사의 말을 전하며 이상으로 세미나 후기를 마친다.

이번 세미나는 시계열 데이터에 Diffusion 모델이 적용되는 연구들에 대해 진행되었다. 시계열 데이터는 전체 예측 분포를 고려하는 것이 중요하다. 이러한 특징은 복잡한 데이터 분포를 잘 학습할 수 있고, 높은 품질의 데이터를 생성할 수 있는 Diffusion과 궁합이 잘 맞을 수 있다. 따라서 본 세미나에서는 시계열 데이터 Forecasting 및 결측치 대체에 Diffusion을 적용한 3가지 사례들을 소개한다.
1) TimeGrad: 시계열 Forecasting과 관련된 연구이다. RNN을 기반으로 Auto Regressive한 구조를 갖는다. RNN의 출력층에서 Diffusion Process가 적용되며, 이렇게 산출된 Output은 다음 시점의 Condition으로 들어간다.
2) CSDI: 시계열 결측치 대체와 관련된 연구이다. 결측치가 포함된 데이터에서 타겟과 Condition으로 나눈 후, 학습한다. Condition 정보를 참고하여 Target에 Diffusion Process를 적용하고, Diffusion Process 결과 추가된 Noise와 제거된 Noise를 비교하여 Loss를 산출한다. 추가적으로, 데이터의 행방향과 열방향에 대해 2번의 Attention을 적용함으로써 시간 의존성 및 특성 의존성을 반영한다.
3) SSSD: 시계열 결측치 대체와 관련된 연구이다. 이는 S4를 활용한다는 특징을 갖는다. S4에서는 최적의 “상태”를 찾는 것이 중요한데, 이 때 Computation Cost가 많이 소요된다. 따라서 HiPPO Matrix를 통해 이를 극복하였다. 다만 전체적으로 Diffusion이 어느 Process에 들어가는지가 아직 좀 와닿지는 않았다.
이번 세미나를 통해 시계열 도메인에서 Diffusion이 어떻게 적용될 수 있는지 알 수 있었다. 이번 세미나를 계기로 분포를 잘 학습하는 Diffusion의 힘이 엄청나다는 것을 다시 한 번 실감할 수 있었다. 하지만 생각보다 연구에서 잘 “적용”하는 것의 중요성을 느끼기도 했다. Diffusion을 드라마틱하게 수정했다는 느낌은 못 받았으며, 큰 수정 없이 특정 부분에 어떻게 잘 끼워넣는지가 핵심으로 느껴졌다. 유익한 세미나를 준비해준 추창욱 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.

본 세미나는 시계열 예측 및 시계열 데이터에서의 결측치 처리에 디퓨전 모델을 사용한 방법론들에 대해 소개해주었다. 디퓨전 모델은 GAN, VAE, 그리고 Flow-based 등의 생성형 모델들에 비해 학습의 안정성 및 유연성 등의 강점을 가지고 있어 이를 기반으로 한 연구들이 진행되기 시작하였다.
첫 번째로, TimeGrad는 다변량 시계열 예측을 위한 autoregressive-diffusion 모델이다. RNN셀의 히든 스테이트 정보를 예측하고자 하는 시점에서 매 스텝마다 conditional distribution으로 넣어준다. 사용하는 디퓨전 모델로는 bi-dilated convolution layer를 기반으로 한 DiffWave 모델을 사용한다. 이는 뛰어난 성능 향상을 보여주었지만, 매 시점 및 매 스텝마다 연산을 요하기 때문에 샘플링 과정에 많은 시간이 소요된다.
두 번째로, CSDI는 conditional score-based diffusion model을 이용하여 시계열 데이터 결측치를 처리한 모델이다. 이 전 방식인 conditional observation에 노이즈를 추가하는 방식은 정보 손실의 우려가 크기 때문에 conditional observation 자체를 conditional input으로 사용한다. 학습 데이터에 일부 마스킹을 가한 후, 마스킹 된 시점들에 노이즈를 추가하여 noisy targets을 정의한다. Noisy targets과 conditional observation을 통해 마스킹 된 시점들에 가한 노이즈를 추정하는 방식으로 학습이 진행된다. 사용하는 디퓨전 모델로는 DiffWave에서 bi-directional convolution layer을 transformer layer로 대체한 모델을 사용한다. 이 또한, 샘플링 속도가 느리다는 단점을 가지고 있다.
마지막으로, SSSD는 diffusion model 과 structured state space model을 활용하여 시계열 데이터 결측치를 처리한 모델이다. 이는 CSDI와 유사한 형태를 가지며, DiffWave 에서 시계열 데이터의 long-term dependencies를 다루기 용이한 S4 layer를 활용한 모델을 사용하였다. 디퓨전 기반 모델을 보다 세부적인 문제 상황에 적용한 것이 유의미하였다고 본다. 그러나 SSSD도 앞서 소개 된 모델들과 마찬가지로 샘플링 속도가 느리다는 단점을 가지고 있다.
시계열 데이터에 디퓨전 모델을 적용하는 것이 과연 도움이 될까하는 의문이 있었는데 본 세미나를 통해 어느 정도는 해결되었다. 하지만 본 세미나에서 소개 된 방법론들은 공통적으로 샘플링 속도에 대한 한계를 가지고 있어, 보다 최신 방법론들은 그 문제를 해결했을까? 해결했으면 어떠한 방식으로 해결했을까가 궁금해졌다. 디퓨전 모델의 적용 범위에 대해 다시 한 번 놀랐던 세미나였고 좋은 세미나를 준비해준 창욱이에게 고맙다는 말을 전하며 본 세미나 후기를 마친다.

시계열 데이터의 여러 연구 분야가 존재하는데, 특히 결측치 처리는 실제 산업 현장에도 꼭 필요하며 유용하게 쓰일 수 있는 연구 분야이다. 이와 관련하여 다양한 연구 방법론이 존재하지만 전체 예측 분포를 고려해야 한다는 점, 즉 아주 다양한 요소가 결합되어 복잡하게 나타나는 분포를 예측하기 위해 최근 성능이 좋은 diffusion model을 활용한 연구 분야를 소개해주었다.
TimeGrad 같은 경우 기본적으로 RNN 구조 안에 diffusion process가 들어간 형태를 나타낸다. RNN의 hidden state가 diffusion model을 학습하는데 condition으로 사용한다. CSDI의 경우 시계열 imputation task에 처음으로 diffusion model을 활용한 모델인데, 임의의 결측치를 생성한 후 결측에 해당되는 부분에 노이즈를 추가하고 노이즈화된 타겟과 관측값, 노이즈 정보를 모델에 넣어주는 방식으로 작동한다.
마지막으로 SSSD는 CSDI의 영감을 받아 input data에 임의의 결측 구간을 만들어서 학습하는데, 시간에 따라 변하는 시스템의 상태를 미분 방정식으로 표현하는 수학적 모델인 s4 layer를 사용한다. HiPPO이론을 통해 상태 행렬을 구하면 긴 시퀀스의 정보를 효율적으로 추출할 수 있으며, 매우 우수한 성능을 나타낸다.
전반적으로 diffusion model을 시계열 데이터에 활용한 연구도 매우 좋은 성능을 나타내는 것을 알 수 있었다. 또한 본 세미나에서 소개해 준 s4 layer 같은 경우 아주 좋은 효과를 나타내고 있는 것 같아 개인적으로는 공부해 보고 싶다는 생각이 들었다. Diffusion model을 활용한 시계열 분석의 여러 가지 방법론에 대해 잘 소개해준 추창욱 연구원께 고맙다는 말을 전하며 세미나 후기를 마친다.

시계열 데이터 Forecasting 및 Imputation을 위한 Diffusion 모델 세미나를 청취하였다.
Diffusion은 이미지 데이터를 기반으로 많이 연구되다 보니 기존 Diffusion 방법들을 시계열 데이터에 바로 적용하는 것은 어려운 일이다. 시계열 데이터는 그들만의 고유 특성들이 있기 때문에, 본 세미나는 시계열 데이터의 특성을 먼저 설명하고, 이 특성들을 잘 반영하여 재설계된 Forward & Backward process, Backbone network, Attention mechanism을 이해할 수 있었던 귀중한 시간이었다. Diffusion 모델의 경우 Inference 시간이 상대적으로 긴 편으로 알고 있는데, 시계열 데이터 특성 상 자귀 회귀 구조로 여러 번 Inference 되어져야 하다 보니 실질적으로 활용하는데 여러 제약사항이 있을 것 같다. 해당 사항들을 개선시킬 수 있는 연구가 얼른 제시되어 활발하게 사용할 수 있는 날이 왔으면 좋겠다.
좋은 세미나를 준비하느라 고생 많이 했을 창욱이에게 감사의 말씀을 전하며 세미나 후기를 마치도록 한다.