- 2022년 1월 14일 오후 1:57
- 조회수: 3809
INFORMATION
- 2022년 1월 14일
- 오전 12시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
청취자 후기

이번 세미나는 다변량 시계열 데이터의 표현학습에 대해서 억형이 발표를 해주었다. 세미나 초반에도 언급이 되지만 다변량 시계열 데이터는 센싱 기술의 발전으로 다양한 분야에서 매우 많이 수집이 되고 있다. 하지만 이에 대한 labeling은 전문가가 아니라면 어렵고 그 비용 또한 많이 든다. 그렇기 때문에 다변량 시계열 데이터에서는 unlabeled data를 활용하는 unsupervised learning를 통해 좋은 representation을 학습하는 것이 중요하다.
Unsupervised learning에는 크게 pretext task기법과 contrastive learning 기법으로 나눌 수 있다. pretext task는 사용자가 task를 부여하여 그 task를 해결하기 위한 representation을 학습하고 contrastive learning은 positive pair와 negative samples를 정의하여 잠재 공간 상에서 positive pair 끼리는 가깝게, negative samples와는 멀게 representation이 학습된다.
다변량 시계열 데이터에서도 이 두 가지 기법을 적용한 연구가 활발히 진행되고 있는데 다변량 시계열 데이터는 일반적인 데이터와 달리 이질성, 정상성, 추세, 계절성 등 고려해야 할 요소가 많기 때문에 신중한 pretext task정의나 positive pair 정의가 필요하다.
현재 개인연구를 진행하고 있는 Human Activity Recognition(HAR) 분야 역시 여러 센서에서 수집되는 다변량 시계열 데이터이며 이를 self-supervised learning으로 해결하기 위해 연구하고 있다보니 이번 세미나에서 이미 알고 있던 논문도 있었지만 새로 알게 된 방법론들도 있어서 향후 개인연구에 큰 도움이 될 것 같다. 좋은 세미나를 준비해준 억형에게 감사를 전하며 세미나 후기를 마친다.

금일 세미나는 억형이 시계열 데이터에 적합한 자가지도학습법 및 이슈에 대해 다루어주셨다. 이미지나 텍스트 데이터에서는 자가지도학습이 활발하게 많이 연구되어 왔으나, 추세와 계절성, 랜덤성과 같은 특수성질을 가진 (다채널) 시계열 데이터의 경우 자가지도학습 적용이 어려워 연구가 (중요하지만) 덜 되어 왔다. 금일 세미나는 그만큼 특수하지만 중요한 연구 토픽을 다룬 세미나여서 많은 연구원들이 들어보았으면 좋겠다고 생각했다.
자가지도학습에 필수적으로 고려되어야 하는 요소로 데이터 증강 기법, query, positive, negative 샘플 정의법, 인코더 구조, pretext task 설정법이 있다. 금일 세미나는 이 요소들이 시계열 데이터에선 어떻게 다루어져야 하는지를 다뤘다. 개인적으로 시계열 데이터여서 가능한 positive, negative 설정법 및 계층적 구조의 자기지도학습 손실함수들이 흥미로운 내용들이였다.
세미나를 끝까지 듣고 다니 시계열 데이터 내에서도 도메인 특성에 국한되어 있는 프레임워크들이 많다고 생각했다. 억형이 말했듯 이미지나 텍스트 데이터처럼 시계열 데이터에도 범용적임 프레임워크가 빨리 등장하면 좋을 것 같다고 본인 역시 생각하였다. 좋은 세미나를 준비해 준 억형에게 감사의 말씀을 전하며 세미나 후기를 마친다.

이번 세미나는 "Time Series Representation Learning"이라는 주제로 진행됐다. 이미지나 자연어 데이터에 대한 표현 학습 기법들이 많이 연구되면서 표현 학습을 통해 좋은 성능을 내는 모델을 구축할 수 있다는 것을 보여왔다. 최근에는 시계열 데이터에 대한 표현학습 기법들도 많이 연구되고 있으며 이번 세미나에서 몇 가지 방법론들이 소개되었다. 먼저 시계열 데이터에 적용될 수 있는 pretext task 기법들에 관해서 소개되었다. Masked prediction은 마스킹 된 데이터를 예측하는 태스크로 마스킹 전략이 성능에 영향을 미친다. Transformation prediction은 시계열 데이터의 순차성을 활용해 데이터의 순서를 맞추거나 anchor window와의 거리를 활용해 positive, negative pair를 정의하기도 한다. Instance discrimination은 유사한 데이터는 postivie pair, 유사하지 않은 데이터는 negative pair로 정의해 positive pair는 가까워지도록, negative pair는 멀어지도록 학습을 진행한다. 데이터의 단위를 샘플 전체, 샘플 내 일정 구간, 타임 스탬프 등의 단위로 바라볼 수 있다. 특히 타임 스탬프 단위로 바로 보는 TS2Vec은 데이터를 다양한 스케일에서 바라보기 위해 계층적인 contrastive learning을 진행한다는 점이 인상적이었다.