고려대학교 DMQA 연구실

Paradigm Shifts in Time Series Forecasting

2026년 5월 29일 오전 9:10
조회수: 297

REFERENCES

[260529 Open Seminar] Paradigm Shifts in Time Series Forecasting.pdf

INFORMATION

2026년 5월 29일
오전 12시 ~
온라인 비디오 시청 (YouTube)

발표자:

박성수

TOPIC

Paradigm Shifts in Time Series Forecasting

On-Line Video

OVERVIEW

요약:

시계열 예측(Time Series Forecasting)은 과거 데이터를 분석하여 시간의 흐름에 따른 패턴을 학습하고, 이를 통해 미래 수치를 추정하는 문제이다. 시계열 예측 모델은 고전적 통계 모델에서 딥러닝과 Transformer기반 모델들로 발전했고, 최근에는 대규모 사전학습 기반의 파운데이션 모델로 확장되고 있다. 본 세미나에서는 시계열 예측 패러다임의 변화와 그에 따른 단계별 기술 발전을 분석한다. 초기 모델부터 최신 아키텍처에 이르기까지 기술의 흐름이 변화해 온 과정을 살펴보고, 각 발전 단계에서 시계열 예측의 난제들을 해결하기 위해 제안된 패러다임별 방법론들을 소개한다.

참고자료

[1] A. Zeng, M. Chen, L. Zhang, and Q. Xu, “Are Transformers Effective for Time Series Forecasting?,” in Proceedings of the AAAI Conference on Artificial Intelligence, 2023.

[2] L. Han, X.-Y. Chen, H.-J. Ye, and D.-C. Zhan, “SOFTS: Efficient Multivariate Time Series Forecasting with Series-Core Fusion,” in Advances in Neural Information Processing Systems, 2024.

[3] Y. Wang, H. Wu, J. Dong, G. Qin, H. Zhang, Y. Liu, Y. Qiu, J. Wang, and M. Long, “TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables,” in Advances in Neural Information Processing Systems, 2024.

[4] A. Das, W. Kong, R. Sen, and Y. Zhou, “A Decoder-Only Foundation Model for Time-Series Forecasting,” in Proceedings of the 41st International Conference on Machine Learning, 2024.

청취자 후기

송하영

이번 세미나는 시계열 예측(Time Series Forecasting) 기술이 전통적인 통계 모델에서 딥러닝 모델을 거쳐 최근의 파운데이션 모델로 발전해 온 흐름을 한눈에 살펴볼 수 있는 시간이었다.

초기 시계열 예측은 Exponential Smoothing이나 ARIMA와 같은 통계적 모델을 중심으로 발전해 왔다. 이러한 방법들은 자기상관성이나 차분을 통한 비정상성 제거에 초점을 맞추며 오랫동안 시계열 분석의 표준으로 사용되어 왔다. 이후 딥러닝이 등장하면서 MLP, RNN, CNN 등이 시계열 예측에 활용되기 시작했지만, 각각 시간적 의존성 반영의 한계, 기울기 소실 문제, 국소 패턴 위주의 학습이라는 제약을 가지고 있었다. 그 이후 Transformer 기반 모델들이 등장하며 시계열 예측 분야에도 큰 변화가 일어났다. Informer, Autoformer 그리고 FEDformer등 다양한 Transformer 계열 모델들이 장기 시계열 예측에서 우수한 성능을 보이며 주목받았다. 하지만 DLinear가 발표되면서 복잡한 Attention 구조가 반드시 필요한 것인지에 대한 의문이 제기되었다. 특히 시계열 데이터를 Trend와 Remainder로 분해한 뒤 단순한 선형 모델만으로도 경쟁력 있는 성능을 달성한 점은 매우 인상적이었다. 이를 통해 모델의 복잡성보다 데이터의 본질적인 특성을 이해하는 것이 더욱 중요하다는 점을 다시 생각하게 되었다.

또한 다변량 시계열 예측에서 중요한 이슈인 Channel Independence(CI)와 Channel Dependent(CD) 전략에 대한 논의로 이어졌는데, CI 방식은 각 채널을 독립적으로 처리하여 분포 변화에 강한 장점이 있지만 변수 간 상호작용을 충분히 활용하지 못한다. 반대로 CD 방식은 변수 간 관계를 적극적으로 학습할 수 있지만 구조가 복잡해지고 특정 채널의 변화에 민감해질 수 있다. 이러한 두 접근법의 장단점을 비교하며 실제 문제에 따라 적절한 선택이 필요하다는 점을 이해할 수 있었다. 특히 SOFTS는 이러한 문제를 해결하기 위한 흥미로운 아이디어를 제시했다. 각 채널의 특성을 독립적으로 유지하면서도 중앙의 핵심 표현(core representation)을 통해 간접적으로 정보를 공유하는 STAR 모듈을 사용한다. 모든 변수를 직접 연결하는 대신 핵심 정보만 공유하는 방식은 계산 효율성과 성능을 동시에 고려한 영리한 접근으로 느껴졌다. 또한 SOFTS는 DL 모델에 CI/CD 전략을 접목한 반면 TimeXer는 Transformer예 CI/CD 관점을 접목한 방식이며, 예측 대상인 내생 변수와 외생 변수를 서로 다른 방식으로 처리하여 외부 정보를 효과적으로 활용하는 구조를 제안했다. 실제 산업 데이터에서는 날씨, 경제 지표, 이벤트 정보와 같은 외생 변수가 중요한 경우가 많기 때문에 이러한 접근이 실용적으로 활용될 가능성이 높아 보였다.

마지막으로 TimesFM은 시계열 파운데이션 모델의 등장이다. 자연어 처리 분야에서 대규모 언어 모델이 등장하며 패러다임이 변화한 것처럼, 시계열 분야에서도 대규모 사전학습을 통해 다양한 도메인에 적용 가능한 범용 모델이 등장하고 있다는 점이 인상적이었다. 특히 추가 학습 없이도 새로운 데이터에 대해 예측을 수행하는 Zero-shot 능력은 시계열 분석의 활용 범위를 크게 넓힐 수 있을 것으로 보인다.

이번 세미나를 통해 시계열 예측 연구의 방향이 단순히 예측 정확도를 높이는 것에서 나아가 데이터의 표현(Representation)을 어떻게 효과적으로 학습하고 활용할 것인가로 이동하고 있음을 느낄 수 있었다. 또한 외생 정보를 적극적으로 활용하는 방향과 범용성을 갖춘 파운데이션 모델 개발이 앞으로의 중요한 연구 흐름이 될 것이라는 점도 확인할 수 있었다. 시계열 분야 역시 NLP와 Computer Vision에서 나타났던 변화와 유사한 흐름을 보이고 있으며, 앞으로 관련 연구가 더욱 빠르게 발전할 것으로 기대된다. 추가적으로 이번 세미나를 들으며 시계열 예측 분야는 여전히 많은 연구 가능성을 가진 영역이라는 생각이 들었다. 가령, 다변량 시계열 예측에서 나타나는 CI/CD 논쟁은 결국 변수 간의 관계를 어느 수준까지 모델링해야 하는가에 대한 문제로 볼 수 있다. 이는 단순히 모델 구조의 선택을 넘어, 시계열 데이터가 가진 본질적인 특성을 어떻게 해석할 것인가와도 연결된다라고 생각한다.

반면 이미지나 자연어 처리 분야는 최근 수년간 활발한 연구를 통해 데이터 표현 방식과 멀티모달 즉 서로 다른 두 도메인을 어떻게 연결해서 아웃풋을 내놓을지에 대한 이해가 상당히 축적되어 왔다. 예를 들어 CLIP과 같이 서로 다른 도메인의 표현 공간을 연결하거나, 텍스트 프롬프트 기반 이미지 생성 모델들은 다양한 데이터 간의 관계를 효과적으로 활용하는 방향으로 발전하고 있다. 이에 비해 시계열 분야는 여전히 예측 성능 향상을 위한 문제들이 활발하게 연구되고 있으며, 특히 변수 간 상호작용을 어떻게 모델링할 것인지, 외생 정보를 어떤 방식으로 활용할 것인지, 그리고 범용적인 표현 학습이 가능한지에 대한 질문들은 아직 충분히 해결되지 않은 연구 과제로 보였다. 따라서 시계열 분야는 단순한 성능 경쟁을 넘어 데이터의 구조와 변수 간 관계를 어떻게 표현할 것인가에 대한 연구가 앞으로도 중요한 방향이 될 것이라고 생각하며 이런 과제들이 해결되고 다른 도메인들과 연결되면 이미지, 자연어, 시계열 서로 다른 세 모달이 연결되는 그러한 연구도 나올 수 있지 않을까라는 생각을 가지게 되는 세미나였다.

좋은 세미나를 준비하느라 고생했을 성수에게 큰 박수를 보내며, 위와 같은 고민에 대해서 깊이 있는 토론을 성수와 함께 고민하며 나누고 싶다는 생각을 가지며 이상으로 세미나 후기를 마친다.

이정민

이번 세미나는 고전적인 시계열 예측 방법부터 MLP, RNN, CNN 등의 딥러닝 초기 접근법, Transformer 계열 모델, 그리고 이 후 다양한 각도로 발전해온 방법론들에 대해 소개해주었다.
Channel Dependent(CD) 전략은 예전에 광은이의 세미나에서 소개해줬던 것처럼, 어떠한 변수에서 비정상적인 패턴이 발생하는 것처럼 채널들의 분포 변화에 취약하며, channel independent(CI) 전략은 이와 반대로 분포 변화에는 강건하지만 다변량이라는 측면에서 각 변수의 상호작용을 고려하지 못한다.
SOFTS와 TimeXer는 이 두 전략의 장점을 적절히 섞어서 잘 활용하였다. SOFTS는 Transformer 구조를 활용하지 않고도 좋은 성능을 낸 모델로, 각 채널을 독립적으로 임베딩하면서 CI 전략을, 각 채널의 임베딩 벡터에 전체 특징이 압축된 core representation vector를 concat 함으로써 CD 전략을 사용했다. TimeXer는 이와는 다르게 Transformer의 구조를 활용했다. 예측하고자 하는 내생 변수는 patch화 하여 self-attention을 수행함으로써 CI 전략을, 외생 변수는 global token과 cross-attention을 수행함으로써 CD 전략을 사용했다. 두 연구가 비슷한 시기가 나와 동등한 성능 비교는 없었다는 점이 아쉬웠다. TimesFM은 시계열 예측 task의 foundation 모델로써, GPT 모델처럼 decoder only 구조로 autoregressive하게 학습이 수행되었고, 지속적으로 긴 기간을 예측함으로써 효율성 측면의 장점도 가져왔다. 또한 다양한 도메인의 데이터로 사전학습되어 zero-shot으로도 우수한 성능을 이루어냈다.
이번 세미나를 통해 시계열 예측 task의 전반적인 발전 과정과 어떤 방식으로 최근에는 이어져오고 있는지를 알 수 있었다. 흐름상 너무 깔끔하게 설명해줘서 이해하는데 어려움이 없었고 성수가 첫 세미나인데도 너무 잘 만들어준 것 같다. 성수가 시계열 예측 연구를 하고 있는데, 기존 연구들을 잘 참고하여 좋은 결실을 맺었으면 한다. 끝으로 좋은 세미나를 만들어 준 성수에게 고맙다는 말을 전하며, 본 세미나 후기를 마친다.

강동훈

이번 세미나는 시계열 예측(Time Series Forecasting) 분야가 전통적인 통계 모델에서 출발해 딥러닝 모델, Transformer 기반 모델, 그리고 최근의 파운데이션 모델로 발전해 온 흐름을 살펴볼 수 있는 시간이었다. 시계열 데이터가 시간적 순서, 자기상관성, 비정상성과 같은 고유한 특성을 가진다는 점에서 어려움이 존재한다는 것을 생각해볼 수 있었다.

초기 시계열 예측 방법으로 소개된 Exponential Smoothing과 ARIMA는 시계열의 자기상관성이나 추세, 비정상성 문제를 통계적으로 다루는 대표적인 접근법이었다. 이후 MLP, RNN, CNN과 같은 딥러닝 기반 모델들이 시계열 예측에 적용되면서 비선형 패턴, 순차적 의존성, 지역적 패턴을 학습하려는 시도가 이어졌다. 하지만 MLP는 시간적 순서와 의존성을 충분히 반영하기 어렵고, RNN은 기울기 소실 및 시간축 병렬 처리의 한계가 있으며, CNN은 국소 패턴 학습에는 강하지만 긴 범위의 의존성을 포착하는 데 제약이 있다는 점도 함께 확인할 수 있었다.

이후 Transformer 기반 모델들이 등장하면서 시계열 예측 분야 도입되었다. 긴 시계열에서의 계산 효율성, frequency domain 정보 활용 등을 통해 장기 시계열 예측 성능을 높이고자 했다. 그러나 DLinear의 등장은 복잡한 attention 구조가 항상 필요한가에 대한 중요한 질문을 던졌다는 점에서 인상적이었다. 입력 시계열을 trend와 remainder로 분해한 뒤 단순한 linear layer를 적용하는 방식만으로도 경쟁력 있는 성능을 보였다는 점은, 시계열 예측에서 모델의 복잡성보다 데이터의 구조와 표현 방식을 잘 설계하는 것이 더 중요할 수 있음을 보여주었다.

또한 다변량 시계열 예측에서 Channel Independent(CI)와 Channel Dependent(CD) 전략을 비교하였다. CI 전략은 각 채널을 독립적으로 다루기 때문에 노이즈에 비교적 강건하지만, 변수 간 상호작용을 직접적으로 활용하지 못한다는 한계가 있다. 반대로 CD 전략은 여러 변수를 함께 처리하여 채널 간 관계를 학습할 수 있지만, 과거의 관계를 지나치게 강하게 학습할 경우 미래 예측에서 오히려 불안정해질 수 있다. 결국 다변량 시계열 예측에서는 각 변수의 개별적인 패턴을 안정적으로 유지하면서도, 필요한 경우 변수 간 상호작용을 적절히 활용하는 균형이 중요하다.

이러한 맥락에서 SOFTS와 TimeXer는 CI와 CD의 장점을 결합하려는 접근이었다. SOFTS는 각 채널을 독립적으로 임베딩하면서도 STAR 모듈을 통해 core representation을 만들고, 이를 다시 각 채널 표현과 결합함으로써 채널 간 정보를 간접적으로 공유한다. 모든 채널을 직접적으로 연결하지 않고 핵심 표현을 통해 정보를 주고받는 구조이다. TimeXer는 예측 대상인 내생 변수와 외생 변수를 구분하여 처리한다. 내생 변수는 시간적 패턴을 학습하고, 외생 변수는 필요한 외부 정보를 선택적으로 활용한다.

마지막으로 TimesFM을 통해 시계열 예측에서도 파운데이션 모델이라는 흐름이 등장하고 있음을 확인할 수 있었다. TimesFM은 실제 데이터와 합성 데이터를 활용한 대규모 사전학습, patching 기반 decoder-only 구조, zero-shot forecasting을 통해 파운데이션 모델을 가능하게 하였다. 추가 학습 없이 다양한 도메인의 새로운 시계열 데이터에 적용될 수 있다는 점을 확인할 수 있었다.

전체적으로 이번 세미나는 시계열 예측 분야의 발전 과정을 매우 깔끔한 흐름으로 정리해준 발표였고, 각 모델이 등장한 배경과 한계를 함께 설명해주어 이해하기 쉬웠다. 특히 전통적인 통계 모델부터 TimesFM과 같은 최신 파운데이션 모델까지 하나의 큰 패러다임 변화로 연결해 설명한 점이 인상 깊었다. 좋은 세미나를 준비해준 성수에게 고맙다는 말과 뜨거운 박수를 보내며 세미나 후기를 마친다.