- 2022년 12월 16일 오후 2:00
- 조회수: 14596
INFORMATION
- 2022년 12월 16일
- 오후 1시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
청취자 후기

이번 세미나는 시계열 데이터에서 활용되는 데이터 증강 기법에 대해 진행되었다. 일반적으로 데이터 증강은 과적합을 방지하고, 모델의 풍부한 학습을 위해 주로 활용된다. 그러나, 시계열 데이터에서 데이터 증강기법은 시간 종속적인 특징이 있기에, 기존의 이미지나 자연어에 적용하는 데이터 증강기법을 쉽게 적용할 수 없다. 따라서 본 세미나에서는 시계열 데이터의 시간적 특성을 해치지 않는 시계열 데이터 증강기법들을 소개한다.
본 세미나에서는 시계열 데이터 증강기법을 Basic Approach 및 Advanced Approach로 나누어 설명한다. Basic Approach는 시간 및 주파수 도메인을 활용하되, Cropping 등 직관적인 아이디어를 활용한다는 특징을 갖는다. 해당 부분에서는 이상치의 이전 및 이후 시점까지 이상치로 레이블을 바꾸어 학습하는 Label Expansion이 가장 와닿았다. Advanced Approach는 통계적 모형이나 학습을 기반으로 방법론들을 다룬다. 학습을 기반으로 하는 것은 GAN의 생성적 특징 활용한다. 개인적으로 해당 부분에서는 Conditional Distribution을 기반으로 미래시점의 신뢰구간을 산출한 후, 해당 범위 내에서만 데이터 증강을 수행하는 통계적 방법이 가장 와닿았다.
요즘 나오는 SOTA 논문을 살펴보면 데이터 증강이 빠진 것을 찾아보기 어려울 정도로 데이터 증강은 AI연구에서 필수적인 요소가 되었다. 각 도메인의 특성을 고려한 데이터 증강기법이 중요하기에, 이번 세미나를 통해서는 시계열 데이터에 특화된 데이터 증강기법들을 새롭게 알아갈 수 있었다. 이러한 아이디어는 시계열에만 머무르지 않고 이미지나 자연어 등에서도 활용 가능할 것으로 기대된다. 유익한 세미나를 준비해주신 황순혁 연구원님께 감사드리며 이상으로 세미나 후기를 마친다.

이번 세미나는 'How to Augment Your Time-series Data?'를 주제로 진행되었다. 먼저 시계열 데이터는 시계열성이 존재하는 데이터를 말한다. 본 세미나에서는 크게 4가지의 특성(Irregularity, Cyclicity, Trend, Seasonality)에 대한 소개와 데이터 증강 기법이 필요한 3가지 이유에 관해서 설명한다. 하지만, 기존 이미지에 적용했던 데이터 증강 기법을 그대로 적용하는 것은 시간 종속적 특성을 해결하지 못한다는 한계로 인해 어려움이 있고 하고자 하는 Task에 따라 데이터 증강 기법 적합 여부가 달라지는 문제로 인해 시계열 데이터에 데이터 증강 기법을 적용하는 것은 쉬운 일이 아니다. 본 세미나에서는 이러한 한계를 극복한 데이터 증강 기법에 대해 크게 두 갈래(Basic Approaches / Advanced Approaches)로 나누어 소개해주고 있다.
Basic Approach와 Advanced Approach 내에 존재하는 여러 데이터 증강 기법 중 Window warping과 Learning Methods(Embedding Space)가 가장 인상 깊었다. 참여하고 있는 과제에서 시계열 데이터의 각 구간별 패턴의 길이가 다른 문제를 해결하는 것을 고안 중이었는데, window warping을 사용한다면 시계열 데이터의 특성을 어느 정도 보존하면서 길이를 맞출 수 있지 않을까? 하는 생각을 하게 되었다. 그리고 Learning Methods (Embedding Space)의 경우 입력 데이터에 데이터 증강 기법을 적용하는 것이 아니라 embedding vector에 데이터 증강 기법을 적용했을 때 복원의 정확도까지 증가시킬 수 있다는 점이 굉장히 참신했고 개인 연구에서 하는 Masked Reconstruction Task에 적용 가능할까? 그리고 적용한다면 어떤 결과가 나올지 굉장히 궁금해졌다.
매우 많은 방법론에 대해 간략하고 명쾌한 설명 덕분에 세미나 듣는 내내 시간 가는 줄 모르고 들을 수 있었다. 유익한 세미나를 준비해준 황순혁 연구원에게 감사드리며 이상으로 세미나 후기를 마친다.

이번 세미나는 시계열 데이터에 적합한 데이터 증강 기법들에 대해 소개되었다. 시계열 데이터를 사용하여 개인 연구 및 프로젝트를 진행하고 있기도 하고 작은 데이터를 사용할 때 성능이 좋지 않게 나오는 경험을 했었기 때문에 주제부터 매우 흥미롭게 다가왔다. 또한, 이미지 데이터에 대한 증강 기법들에 대해서는 이전에 많이 들었었는데 시계열 데이터에 적합한 기법들은 처음 접해봐서 호기심이 가득한 자세로 들을 수 있었다.
본 세미나에서는 시계열 데이터의 증강 기법들을 basic approaches와 advanced approaches, 두 갈래로 나누어서 설명해주었다. Basic approach들 중에서 가장 인상 깊었던 부분은 time domain에서 많이 적용되는 기법들이었다. 그 중에서 label expansion은 이상치 탐지 문제에서 이상치가 발견된 시점뿐만 아니라 전 후 경향이 발생하는 지점 또한 불량으로 판단하는 label augmentation 기법이다. 이상 시점이 매우 적은 상황에서 적절하게 사용된다면 매우 효율적이라고 생각되고 실제 논문에서도 시계열 이상치 탐지 및 분류 문제에서 매우 좋은 성능을 도출했다고 한다. 나 또한 프로젝트 및 개인 연구에서 이러한 증강 기법들을 적절히 사용한다면 보다 좋은 성능을 도출할 수 있을 것이라는 생각이 든다. Frequency domain에 대한 설명도 어려운 내용임에도 불구하고 이해하기 쉽게 설명해 주어서 흥미롭게 들을 수 있었다. 다음은 advanced approach들 중 learning methods이다. 일반적으로 데이터 증강 기법들은 모델의 input 데이터에 적용하는 반면 해당 방법론은 embedded input에 증강 기법을 적용했다. 해당 방법론의 논문에서는 이 과정을 통해 데이터 증강 뿐만 아니라 모델의 복원 성능까지 향상시켰다고 한다.
본 세미나를 통해 기존에 몰랐던 시계열 데이터에 적합한 다양한 증강 기법들에 대해 알게 되었다. 개인 연구나 프로젝트에도 적용한다면 좋은 성능을 낼 수 있을 것 같고 진지하게 고민해볼 필요가 있다고 생각한다. 유익한 세미나를 준비해주신 황순혁 연구원님께 감사드리며 본 세미나 후기를 마친다.

이번 세미나는 Time-series 데이터의 증강 기법에 관한 내용으로 진행되었다. 시계열 데이터는 제조 현장에서 많이 수집되는 데이터 중 하나이기에 흥미롭게 세미나를 경청할 수 있었다. 특히 이번 학기에 예측모델 수업을 들으면서 배웠던 내용이 있어서 보다 쉽게 이해하며 들었다. 서론에서 설명한것처럼 데이터 증강은 최근 수많은 방법론에서 사용되고 있고 내가 세미나로 진행했었던 정형 데이터를 다루는 방법론들에서도 데이터 증강은 필수적인 항목이었다. 이러한 증강 기법은 보통 이미지에 최적화 되어 있어서 데이터의 형식이 달라지면 기존 방법을 그대로 적용할 수 없다. 따라서 시계열에 최적화된 증강 기법을 적용하는 것이 필요하고 다양한 기법을 일목요연하게 소개하였다. 기본적으로 주어진 데이터를 시간/주파수를 기반으로 변형을 가하는 Basic 접근 방법들 외에도 다양한 방법을 소개해주었다. 데이터를 증강하기 위한 RGAN/TimeGAN과 같은 방법론을 보면서, 특정 Task를 풀기 위해 데이터 증강이 필요하고 따라서 시계열 데이터를 증강하는 또다른 방법론을 사용하는 것이 무언가 어색하게 느껴졌지만 이러한 방법을 통해서 해당 Task의 정확도를 높이는데 기여할 수 있음이 새로웠다. 개인적으로 관심 있는 시계열 데이터의 증강 기법을 알기 쉽게 상세히 설명해주어 많은 도움이 되었다. 추후 관련 개인 연구를 진행할 때 이 영상을 다시 찾아볼 것 같다. 유익한 세미나를 준비해주신 황순혁 연구원님께 감사드리며 본 세미나 후기를 마친다.

이번 세미나는 How to Augment Your Time-series Data? 에 대하여 진행하였다. 시계열 데이터에 대한 연구를 진행하고 있고, 이미지의 augmentation은 자주 접하였지만, 시계열 데이터의 augmentation은 생소한 부분이어서 해당 세미나를 관심 있게 들을 수 있었다. 시계열 데이터에 이미지의 augmentation을 그대로 적용하게 되면, 시간의 따른 분포와 특성이 변하는 문제가 발생한다. 즉, 시계열 본질적인 특성을 잘 반영하는 augmentation이 필요하다. Basic approaches 로써, window cropping, window warping, flipping, perturbation, noise injection, label expansion 들이 있다. 해당 방법들은 영상에 자세하게 설명을 해주고 있고, 특징은 직관적인 augmentation 방법들이라는 것이다. 또 다른 방법으로는 푸리에 변환을 통해서 시계열의 주파수 영역으로 변환을 하여 주파수 도메인에서 변환을 하는 방법이 있다. 푸리에 변환을 거치면 amplitude spectrum(주파수 영역에 대한 신호 값의 세기) 과 phase spectrum(주파수 영역이 어느 위치에서 시작하는지에 대한 시간 축 위치 정보)이 나오게 된다. 주파수 도메인을 활용한 증강 기법에는 Amplitude&Phase perturbation(APP)와 Amplitude adjusted Fourier transform(AAFT)이 있는데 APP는 해당 방법은 amplitude 와 phase 영역에 각각 다른 noise를 추가하고 이를 합쳐서 시계열 데이터에 변환을 주는 방식이다. AAFT는 phase spectrum을 shuffle하여 무작위로 섞고, amplitude spectrum과 다시 결합하여 데이터에 변환을 주는 방식이다. Time & Frequency domain의 방식에는 Short Term Fourier Transform(STFT)방식이 있다. 해당 방법은 사전에 정의한 시간 단위로 windowing하여 FFT를 수행하는 방식이다. Advanced approach는 Decomposition methods, Statistical Generative Model, Learning methods, Deep Generative models가 있다. Decomposition methods에는 Decomposition으로 시계열 데이터가 trend, season, random으로 나눠졌을 때, Deterministic Method, Stochastic Method, Bootstrapped-based Method를 적용하여 데이터에 변형을 주는 방식이다. Statistical Generative Model은 시계열 데이터의 conditional distribution을 반영한 데이터 증강 기법인데, parsimonious statistical model, LGT-based statistical model, MAR-based statistical model이 존재한다. Learning methods는 embedding space 방법이 있는데, autoencoder로 예를 들때 embedded input에 대해서 augmentation을 적용하였을 때 더 효과적임을 검증한 방법이다. 마지막으로 Deep Generative models는 RGAN, TimeGAN이 존재한다. 이번 세미나를 통해서 현재 존재하는 시계열 데이터의 증강기법에 대해서 한번에 학습을 할 수 있는 매우 유익한 세미나였다. 시계열 데이터의 증강 기법은 아직 까지도 많은 연구가 행해지고 있고, 어려운 task 중에 하나 이다. 해당 분야에 대해서 연구가 발전된다면, 앞으로 시계열 연구가 발전하는데 큰 밑거름이 될 수 있을 거라는 생각이 많이 드는 세미나였다. 유익한 세미나를 준비해주신 황순혁 연구원님께 감사드리며 본 세미나 후기를 마친다.

금일 세미나는 How to Augment Your Time-Series Data?로 순혁이가 발표했다. 본 세미나의 핵심은 시계열 데이터에 적용할 수 있는 증강 기법들이다. 시계열 증강 기법에는 크게 Basic, Advanced로 나뉜다. 시계열 데이터를 다루다 보면 이미지와는 달리 데이터 증강 기법을 선택/적용하는데 있어 나도 모르는 두려움이 생기게 된다. 그만큼 쉽지 않고 어렵다. 이번 세미나는 직관적인 아이디어를 활용하는 방법부터 통계적 모형, 학습 기반의 방법론들까지 다양한 증강 기법을 소개해 주었다. 하지만 어떠한 데이터 증강 기법이 옳다고 말할 수 없다. 어떤 학습 방법을 적용할 것인지, 입력 데이터의 형태 등 다양한 요소를 고려하면서 본 세미나에서 소개한 증강 기법을 적절하게 활용하는 것이 바람직하다. 연구 어렵다…

시계열성을 갖는 데이터의 증강 기법에 대한 세미나를 청취하였다. 시계열 데이터는 이미지 데이터와 다르게 데이터 증강 과정에서 고려해야 할 요소들이 많고, 이러한 점 때문에 전반적으로 범용적이지 않다. 다른 말로, 데이터의 특성과 분석 태스크를 모두 고려하면서 증강 기법을 선택해야 한다. 그렇기 때문에, 본 세미나에서 소개된 것처럼 매우 다양한 증강 기법들이 개발되게 된 것 같다. 과거에 코로나 확진자 데이터 분석 과정에서 확진자 수 데이터에 대한 적합한 증강 기법을 사용해보고자 여러 survery paper들을 읽어본 경험이 있는데, 과거보다 훨씬 더 다양한 종류의 증강 기법들이 개발되어 있음을 본 세미나에서 잘 확인할 수 있었다.
우리 연구실은 시계열성을 갖는 데이터 프로젝트가 많이 진행되고 있는데, 여러 현실적인 요소들로 인해 데이터 증강을 취해야만 하는 경우가 많다. 앞으로는 본 세미나가 많이 도움이 될 것 같다. 추가적으로, self/semi supervised-learning에서 핵심은 데이터 증강 기법이라고 생각하는데, time-series+unlabeled 데이터에 대한 증강 기법과 self/semi 연구 주제의 궁합이 잘 맞을 것 같다고 생각한다. 본 세미나 준비 과정에 여러 survery paper를 읽고 조사하느라 고생했을 순혁이에게 감사의 말씀을 전하며, 세미나 후기를 마치도록 한다.

이번 세미나는 시계열(Time-series) 증강 기법(Augmentation)을 주제로 진행되었다. 시계열 데이터란 시간의 흐름인 시계열성이 존재하는 데이터이다. 시계열 데이터 내 존재하는 특성은 사전적으로 예상할 수 없는 설명 불가한 요인인 Irregularity, 상승과 하락이 주기적으로 나타나는 변동인 Cyclicity, 상승 혹은 하향 경향의 상태인 Trend, 짧은 주기로 발생하는 Seasonality 등이 존재한다. 데이터 증강(Data Augmentation) 기법이란 일부 특징만을 반영하여 학습하는 과적합을 방지하고 소수의 클래스를 잘 학습하는 데이터 불균형을 해결할 수 있다. 하지만, 이미지 데이터와 달리 시계열 데이터의 경우 시간 종속적인 특징을 갖고 있기 때문에 일반적으로 널리 사용되는 이미지 데이터의 증강기법을 활용하는 것은 어렵다. 본 세미나에서는 이러한 한계점을 바탕으로 시계열에 적합한 증강 기법을 소개한다.
Basic Approach에는 직관적인 방법인 Time domain 관련 기법들이 소개되었다. 이후 Frequency domain 기법들이 소개되었다. 주파수 도메인의 경우 최근 연구가 활발히 진행되고 있으며 푸리에 변환을 통해 주파수 영역 정보를 얻어서 증강이 진행된다. 주파수 영역을 구성하는 두가지 스펙트럼에는 세기를 나타내는 Amplitude spectrum과 시간 축 위치 정보를 담고 있는 Phase Spectrum으로 구분할 수 있다. Amplitude와 Phase에 가우시안 노이즈를 부여하는 증강 기법인 APP 기법이 소개되었으며, Phase에 셔플링을 적용하는 증강 기법인 AAFT 기법이 소개되었다.
Advanced Approach에는 Trend, Season, Remainder로 분해하는 STL Conditional, distribution을 반영한 Statical Generative Model, Learning Method가 소개되었다. Learning Method는 Embedding Space 방법과 Generative Models 방법으로 분류할 수 있다. Embedding Space는 embedding된 feature에 augmentation을 주는게 효과적임을 가정하는 방법론이고, Deep Generative Models은 DGM을 시계열 데이터 생성에 사용하는 방법론이다.
프로젝트를 통해 푸리에 변환에 대해 어느 정도 파악하고 있다고 생각했지만, Phase spectrum등 생소한 부분이 있음을 알 수 있었고 다시 한번 시계열 변환에 대해 처음부터 짚어볼 수 있는 세미나였다. 다양한 푸리에 변환으로 얻을 수 있는 데이터들을 통해 Multi-modal 학습을 실행해 보면 좋겠다는 생각이 들었다. 단계 별로 설명해 주는 좋은 자료로 세미나 진행해준 황순혁 연구원님께 수고했다는 얘기를 전하며 세미나 후기를 마친다.