- 2024년 10월 11일 오후 1:40
- 조회수: 25546
INFORMATION
- 2024년 10월 11일
- 오전 10시 ~
- 온라인 비디오 시청 (YouTube)
TOPIC
On-Line Video
OVERVIEW
청취자 후기
이번 세미나는 시계열 예측에서 channel independent (CI) strategy의 효과에 대해 소개해주었다. LTSF-Linear에서는 transformer의 한계점을 지적하며 상대적으로 많이 심플한 linear layer로 했을 때의 성능 향상을 보여주었다. PatchTST는 LTSF_Linear에서의 성능 향상이 CI strategy 때문이라고 설명하였으며, 이를 transformer 구조에 결합시켰다. 다만, 여기서 patch는 단순히 슬라이딩 윈도우를 하는 것이라 이해하였는데, 이것이 큰 기여점이라고 할 수 있는지는 의문이다. 마지막 논문에서는 CI가 더 효과적임을 이론적으로 설명하였다. 변수 내 ACF 차이가 전체 ACF 의 평균 차이보다 크면 CI가 distribution drift 상황에서 우수함을 수식을 통해 보여주었다. 이를 기반으로 벤치마크 데이터셋 각각에 대해 ACF 분석을 진행하였다. 실험에서는 단순히 대부분의 데이터셋이 CI가 우세하다라는 결론을 내렸다. 개인적인 생각으로는, 데이터셋마다 ACF 분석 후, 변수 내 ACF 차이가 더 큰지 작은지에 따라 케이스를 나누고, 변수 내가 ACF 차이가 평균 차이보다 더 크면 CI가 효과적이다, 변수 내보다 평균 ACF 차이가 더 크면 CD가 효과적이다 라고 보여주는 것이 논문의 논리상 더 맞다고 생각한다. 실제로 데이터셋마다 ACF 분석한 결과를 보면 케이스가 나뉘는 것으로 보이는데, 논문에서 그냥 CI가 대부분 더 좋다라고 결론 내리는 것은 논문의 이론적 주장과 가설에 적합하지는 않는 것 같다. 이론 설명 상 CD가 더 좋아야하는 데이터셋에서 CI가 압도하는 현상도 보이는 것 같다.
시계열 데이터에 대해서는 오랜만에 세미나가 나온 것 같은데, 이번 기회에 최근 트렌드를 파악할 수 있어서 도움이 되었다. 좋은 세미나를 준비하느라 고생한 광은이에게 고맙다는 말을 전하며 본 세미나 후기를 마친다.
시계열 데이터 내 Channel Independent(CI) 전략에 대해 진행되었다. CI전략은 쉽게 말하면, 변수 간 교호작용을 고려하지 않고, 개별 변수 수준에서 예측하는 것을 의미한다. 일반적으로 변수가 많을수록 이들의 교호작용이 큰 효과를 낸다는 것이 인공지능 정설인데, 꽤나 신선한 충격을 얻은 세미나였다. 각 Paper를 요약하면 아래와 같다.
1) LTSF-Linear: Transformer가 시계열 문제에서 최적이 아니라고 주장한다. 이는 Autoregressive에서 발생하는 오류 축적 및 시계열 특성 상 존재하는 Permutation Equivariant를 이유로 뽑는다. 오히려 두가지가 적용되지 않은 구조인 하나의 Linear Layer가 Transformer보다 우수한 성능을 보인 것을 입증하였다.
2) PatchTST: 왜 그럼 Linear Layer가 좋은 성능을 보였을까? 주요한 이유는 각 변수 간 교호작용을 고려하지 않고, 각 변수 수준에서 예측했기 때문이라고 한다. 저자는 Transformer에 이처럼 변수를 독립적으로 처리하는 전략을 적용해보았다. 추가적으로, 지역적인 정보를 고려하기위해 Patching 전략 또한 함께 활용한다. 실험적으로 CI와 Patching 전략을 함께 적용한 결과 우수한 성능을 보였다.
3) 왜 CI가 좋은 효과를 보이는지를 분석한다. 이는 학습 및 평가 데이터셋 간 분포 차이를 잘 잡아주기 때문이라고 말한다. 이를 ACF로 증명하였으며, 세미나에서 쉽게 설명했기에, 자세히 들으면 충분히 이해할 수 있는 내용이다.
이번 세미나를 통해 CI전략이라는 것을 처음 접할 수 있었다. 개인적으로는 세미나 흐름이 굉장히 와닿았다. 구성이 정말 좋았던 것 같다. 또한 다른 도메인에서도 이러한 CI전략이 통할지 궁금해졌다. 발표자가 언급한 것처럼 CV나 NLP는 어렵지 않을까 싶은데, 추가적인 정보로 활용하면 성능 개선 여지가 있지 않을까 싶다. 유익한 세미나를 준비해준 조광은 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.
다변량 시계열 데이터에 대한 channel independent (CI) strategy에 대하여 소개하였다.
Transformer를 이용하려면 일단 데이터를 쪼개야 한다. 이 쪼갠 조각을 토큰이라 한다. 다변량 시계열 데이터는 두 가지 방향으로 데이터를 쪼개 나갈 수 있다. 변수 방향으로 쪼개 나가거나, 시점 방향으로 쪼개 나가거나.
우선 변수 방향으로 쪼개 나가보자. 이때에는 시점 하나가 토큰 하나가 되며, 토큰에는 해당 시점에 대한 변수 정보가 모여있다. 쪼개진 토큰은 토큰 요소 간 선형 결합을 통해 임베드된다. 이 경우에는 변숫값이 요소이므로 변수값 간 선형 결합이 이루어진다. 즉, 변수 간 정보 교환이 이루어진다.
시점 방향으로 쪼개 나갔을 때는 상황이 달라진다. 이때에는 변수 하나가 토큰 하나가 된다. 즉, 변수 하나하나가 개별 토큰으로써 완전히 분리된다. 따라서 임베딩 시 변수 간 정보 교환이 이루어지지 않는다. 이를 변수 간 독립적인 방법이라는 의미에서 CI strategy라고 한다.
세미나에서는 CI strategy를 사용했을 때 효과를 수식으로 풀어 보여준다. 요약하자면, CI strategy를 사용하면 train-test 간 distribution shift에 대한 강건성을 가질 수 있다는 것이다. 그러나 이는, 이정민 연구원님이 가진 의문점처럼, 논문 결과와 다소 모순되는 주장처럼 보인다. CI strategy는 distribution shift가 심하지 않은 상황에서도 좋은 성능을 보이고 있기 때문이다.
문득 떠오른 생각으로는 세미나 서두에서 소개한 permutation equivalent 문제가 일부 해소된 것이 원인 아닌가 싶다. CI strategy를 적용했을 때는 시점 순서가 뒤바뀌면 토큰 임베딩 값 자체가 달라지므로 출력값 역시 단순 순서 변경 이상의 영향을 받게 되기 때문이다.
많은 생각을 해 볼 수 있었다. 유익한 세미나를 준비해 준 광은이에게 고마움을 전하며 세미나 후기를 마친다.
광은이가 Time Series Forecasting의 최신 트렌드 분석에 대한 세미나를 진행하였다. 세미나에서 총 3개의 논문에 대해 소개하였는데, 세미나의 흐름이 아주 좋았다.
첫번째 논문은 LTSF로써, Transformer가 Time Series Forecasting에 최적으로 적합한 모델이 아님을 보인 논문이다. 해당 논문에서는 이러한 이유로 두 가지를 제시했는데, 첫번째는 Iterative Multi-step (IMS) 예측을 위한 Transformer Decoder의 Autoregressive Property에서 기인하는 Error Accumulation에서 비롯한 것이다. 두번째는 Transformer Encoder의 Self-Attention이 가지는 Permutation Invariance 때문이다. 본 논문에서는 이러한 두 가지 이유를 해결하기 위해 Autoregressive 하지 않고, Permutation Equivariant 하지 않는 선형 레이어 3가지를 제시하여 Transformer 기반 모델보다 우수한 성능을 입증하였다.
두번째 논문은 PatchTST로써, 첫번째 논문에 대한 반론을 제시하였다. Transformer가 Optimal 하지 않은게 아니라 LSTF가 가지는 Channel Independency 때문에 성능이 잘 나온 것이 원인이라고 지적하였다. PatchTST는 Channel Independency를 위해 Embedding을 채널에 따라 독립적으로 만들었다. 뿐만 아니라 자연어와 Time Series의 본질적인 차이점으로써 개별 시점 데이터의 Semanticity를 지적하였다. 자연어와 달리 Time Series에서는 개별 data point의 의미가 크지 않기 때문에 개별 데이터의 의미성을 부여하기 위해 window patch를 만들어 데이터 입력으로 활용하였다.
마지막 논문은 Channel Independency가 Channel Dependency보다 통상적으로 잘 되는 원인을 이론적으로 해석한 논문인데, 굉장히 흥미로웠다. 직관적으로 생각해보았을때, Multi-channel Time Series에서는 Channel 간의 상관성을 포착하여 모델을 구성하는 것이 당연히 좋을텐데, 통상적으로 그렇지 않다라는 것이다. 저자는 이러한 이유를 해석하기 위해 Channel Dependent한 상황과 Channel Independent한 상황에서 Linear Model 의 Optimal OLS Solution을 분석하였다. Distribution Shift 상황에서 변수 내의 ACF차이가 크면 Channel Dependency의 최적해에 영향을 미치고, 반대로 ACF 합의 차이가 커지면 Channel Independency가 불리하다는 것이다. 비록 Non-linear Model인 Neural Network 상황에서 분석을 하지는 못했지만, 이런식으로 가벼운 모델에서 이론적으로 증명하는 것도 큰 의의가 있다고 생각한다.
질 좋은 세미나를 만드느라 고생한 광은이에게 감사의 말을 전한다.
산학 프로젝트를 하다보면 (주 연구분야가 아니더라도) 시계열 데이터를 다루어야 하는 일들이 많은데, 최근 다변량 시계열 데이터의 채널 정보를 독립적으로 다루어야 할 일이 있어 매우 흥미롭게 들은 세미나였다.
- 본 세미나에서는 시계열 데이터의 many-to-many 'forecasting' task에 집중하여 진행되었지만, many-to-one 예측을 수행할 때에도 충분히 참고 가능할 만한 내용들이 많았다. 더불어 방법론을 설명할 때, 단순히 method의 특징을 설명하는 것이 아니라 선행연구의 흐름에 맞추어서 연구 동기를 흐름있게 이어간 점이 좋았다.
- DLinear 모델은 시계열 데이터를 분해한 뒤 (복잡한 구조의 시계열 데이터를 단순화시킨 뒤) 예측을 시도한다는 점에서 직관적이면서도 우수한 성능을 이끌어낼 수 있는 모델이며 (간단한데 우수한.. 좋은 연구), NLinear는 시계열 forecasting에서 train과 test 분포가 달라지는 고질적 문제를 해결하기 위해 정규화 기법을 추가한 모델이다.
- 주목할 만한 점은, 앞선 LTSF-linear에서 Transformer보다 우수한 성능을 낼 수 있었던 명확한 요인이 설명되지 않았다는 것이다. 그리고 이에 대한 분석-channel 정보를 독립적으로 처리한다는 특성과 기존의 Transformer는channel 정보를 섞어버리는 점을 짚음-을 기반으로 새롭게 제안된 모델이 바로 patchTST이다. 기존 transformer의 self-attention 구조는 자연어처럼 인접한 시점에 위치하지 않아도 유사성이 추출 가능한 데이터에 유리한 반면, 시계열 데이터는 인접 시점의 정보에 의존적임을 고려하여 patch 구조를 활용하는 것이 이점이라는 것이다. patch는 일종의 sliding window와 같은 개념으로 이해하였고, 이를 하나의 token으로 취급하여 transformer에 넣어 학습을 수행하게 된다.
- 그렇다면 이 channel independent 전략이 왜 좋은 성능을 발휘할까? 채널 간 상관관계 등의 정보를 고려하지 않음에도 불구하고 좋은 성능을 낼 수 있는 이론적 근거를 제안한 연구가 본 세미나에서 다룬 마지막 논문이다. 해당 논문은 특히나 distribution shift-여기서 말하는 분포 변화란, 시계열 forecasting 문제에서 label shift가 발생하는 경우를 일컫는다- 상황에서 CI 전략이 유용하다고 주장한다. 이는 linear regression (OLS) 상황에서 최적해가 모든 channel의 ACF에 대해서 정의되는 현상으로 설명 가능하다(물론 우리는 주로 non-linear 모델을 이용하기 때문에, linear 가정이 벗어난 경우에도 좋은 효과를 낼 수 있는지는 여전히 질문거리다).
forecasting task에 초점을 맞추어 진행된 세미나였지만, 기본적인 시계열 데이터 핸들링 과정에서도 고려 가능한 전략들에 대해 잘 배울 수 있었다.