- 2022년 9월 23일 오전 10:16
- 조회수: 11061
INFORMATION
- 2022년 9월 23일
- 오후 1시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
산업 및 여러 다양한 분야에서 실시간 센서 데이터 수집이 증가함에 따라 Multivariate Time Series Data 분석을 위한 Anomaly detection이 더욱 중요해지고 있다. 하지만 Multivariate Time Series Data 에서 중요한 특징을 추출하는 것은 센서 쌍과 각 시계열의 시간 정보 간의 상관 관계를 동시에 고려하기 때문에 여전히 어렵다. 또한 RNN(Recurrent Neural Networks) 및 LSTM(Long-Short Term Memory) 구조는 Time Series와 같은 sequential data에 특화되어 있지만, Time Series Data가 많아 질 수록 계산의 복잡성이 커지게 된다. 본 세미나에서는 Time Series의 이미지화를 통해 시계열의 시간 정보 간의 상관 관계를 반영하고 Convolutional 구조로 계산적 복잡성을 낮춘 사례들을 소개하고자 한다.
참고 문헌:
[1] Y. Choi, H. Lim, H. Choi and I. -J. Kim, "GAN-Based Anomaly Detection and Localization of Multivariate Time Series Data for Power Plant," 2020 IEEE International Conference on Big Data and Smart Computing (BigComp), 2020, pp. 71-74, doi: 10.1109/BigComp48618.2020.00-97.
[2] Zhang, Chuxu, et al. "A deep neural network for unsupervised anomaly detection and diagnosis in multivariate time series data." Proceedings of the AAAI conference on artificial intelligence. Vol. 33. No. 01. 2019.
청취자 후기

이번 세미나는 이미지화를 통해 시계열 데이터에서 이상치 탐지를 하는 방법론들에 대해 진행되었다. 시계열 데이터는 레이블링이 어렵고, 정상 데이터와 이상 데이터가 불균형하여 두 개의 부류를 구분하기 위한 학습에 어려움이 존재한다. 이러한 상황에서 본 세미나는 비지도학습 기반의 이미지화 기법으로 어떻게 위 한계들을 극복할 수 있는지에 대하여 2가지 방법론을 제시한다.
2가지 방법론의 공통점은 역시 “이미지화”이다. MSCRED는 다변량 시계열 데이터 간 내적을 이미지화하여 Signature 행렬을 생성하고, GAN기반 방법론(두번째 방법론을 의미)은 거리를 기반으로 행렬을 생성한다. 이를 통해 두 방법론 모두 시계열 데이터 간 상관관계를 반영할 수 있다는 장점을 갖는다. 먼저 MSCRED를 자세히 살펴보면, ConvLSTM의 구조로 구성되어 재구축오차를 기반으로 학습한다. 특이한 점은 동일한 길이만 고려하여 Signature 행렬을 만드는 것이 아닌, 다양한 길이를 고려하여 Signature 행렬을 만든다는 것이다. 이때, 이상치 여부는 Residual 행렬 내에서 특정 기준치를 넘은 성분의 개수를 카운트하여 정의한다. 두 번째로 GAN기반 방법론은 GAN의 Adversarial Loss와 인코더-디코더 구조의 재구축오차를 기반으로 학습한다. GAN을 기반으로 학습한다면, Contextual Information을 잘 학습하지 못할 수 있기에, 재구축오차를 추가하여 Contextual Information을 잘 학습할 수 있도록 한 것이 특징이다. 개인적으로는 본 논문에서 말하는 Contextual Information이 잘 와닿지는 않았는데 아마도 기존 이미지의 정보를 학습에 활용한다는 의미로 받아들였다. 해당 방법론에서는 이상치 여부를 재구축오차와 GAN에서 생성된 이미지와 실제 이미지의 비유사도를 가중합하여 산출한다.
이번 세미나를 통해 이미지화라는 개념을 처음 접할 수 있었다. 세미나 제목만 보았을 때는 어떤 방향인지 감이 오질 않았지만, 세미나를 들으면서 점점 가까워질 수 있었다. 개인적으로 인상깊었던 부분은 MSCRED에서 Window내 고정된 길이만 고려하는 것이 아닌, 다양한 길이를 고려한다는 점이었다. 이를 통해 고정적인 시계열 정보가 아닌, 다양한 길이의 시계열 특성을 학습하여 전체적으로 시계열 데이터의 정보를 잘 파악할 수 있을 것이라는 생각이 들었다. 또한 GAN기반의 방법론에서는 일반적인 인코더-디코더 모델 구조의 재구축오차 뿐만 아니라 GAN에서 생성된 이미지와 비유사도를 고려한 부분이다. 사실 어떻게 보면 두 컨셉은 기존 이미지와 생성된(복원된)이미지를 비교한다는 내용으로 유사한데, 유사한 컨셉 2가지를 동시에 고려함으로써 앙상블적인 효과를 낼 수 있지 않을까라는 기대도 들었다. 유익한 세미나를 준비해주신 백민재 연구원님께 감사드리며 이상으로 세미나 후기를 마친다.

이번 세미나는 시계열 데이터의 Anomaly Detection 이라는 주제로 진행되었다. 우선 시계열 데이터의 정의부터 시작하여 순차적으로 설명하여 쉽게 이해하며 청취할 수 있었다. 시계열 이상 탐지의 어려운 점을 2가지를 언급하였는데 레이블링이 어렵다는 것과 비정상의 수가 아주 적다는 것이다. 따라서 일반적인 방법론을 사용하기가 힘들고 주로 비지도 학습으로 진행된다고 한다. 또한 이상 탐지를 위해서 RNN과 LSTM 구조가 주로 사용되는데 이러한 방법론은 계산 복잡도가 증가하고 노이즈를 효과적으로 처리하지 못해서 성능이 떨어진다고 한다. 따라서 이번 세미나에서는 시계열 데이터를 이미지화하여 위의 문제들을 해결하는 방법론을 설명해주었다. 첫 번째로 소개한 방법론은 MSCRED로서 다변량 시계열 데이터를 변수간의 내적을 통하여 이미지(signature matrix)를 생성하는 방식이다. 여러 구간의 데이터로 짧은 기간, 긴 기간을 동시에 채널로 표현하는 것과 5가지의 시점을 모두 사용하는 것이 인상 깊었다. 또한 해당 구조를 통하여 Input과 Output의 차이인 Residual Matrix라는 것을 생성하게 되는데 이것을 통해서 Anomaly Score를 계산하고 더 나아가서 이상 변수를 시각화 까지 할 수 있다는 것도 흥미로웠다. 뿐만 아니라 제안 방법론의 구조 변화를 주면서 성능의 변화를 보여주는 실험 또한 인상 적이었다. 개인 연구를 진행할 때도 각 구조 별로 나누어서 실험을 진행하는 것이 보다 더 높은 설득력을 가질 수 있고 다음 단계로 나아가기에도 논리적이기 때문에 잘 활용해야겠다는 생각이 들었다. 두번째는 GAN 기반의 다변량 시계열 데이터 이상 탐지를 수행한 방법이다. 다변량 시계열 데이터를 이미지화하는 컨셉은 동일하지만 이미지화 할 때 내적이 아니라 거리를 계산하여 이미지화 한다. 거리를 정의할 때 각 변수마다 특성이나 스케일등 다양한 차이가 있을텐데 어떻게 정확한 거리를 측정할 수 있는지 완벽히 이해되지는 않아서 해당 논문 스터디를 진행하려 한다. 현재 이미지를 활용하는 수많은 방법론들이 연구되고 있고 높은 성능을 내고 있어서 시계열 데이터를 이미지화를 하는것이 핵심이라고 생각되는데 내적과 거리 개념을 활용한 방법에 대해 접할 수 있어서 많은 도움이 되었다. 데이터 분석을 하다 보면 도메인이 다르므로 방법론도 아얘 별개로 생각하게 되는 경향이 있었는데 다양하게 융합되고 조합될 수 있다는 생각이 들게 되는 세미나였다. 유익한 세미나를 준비해주신 백민재 연구원님께 감사드리며 이상으로 세미나 후기를 마친다.

시계열 데이터를 이미지 형태로 표현한 뒤, 이상 데이터를 탐지하는 세미나를 청취하였다. 시계열 데이터를 이미지 형태로 표현하여 얻는 여러 장점들이 인상 깊었던 세미나였다. 이미지 형태로 표현되면 기존 이미지 이상 데이터 탐지 방법들을 적용하는 내용들이었다. 방법론을 제안했었던 논문 실험 데이셋이 대부분 한정적이었는데, 이미지 형태로 표현되어 얻는 장점들이 데이터셋 별로 상이할 것이라는 생각이 들었다. 표현하는 구체적 방법 역시 데이터셋 특성을 충분히 반영할 수 있도록 설계되고 있는지, 다른 참고 문헌(시계열->이미지형태 연구)들을 살펴보면 좋을 것 같다. 좋은 세미나를 준비하느라 고생하셨을 민재 형에게 감사의 말씀을 전하며, 세미나 후기를 마치도록 한다.

이번 세미나는 다변량 시계열 데이터의 이미지화를 통한 이상치 탐지를 주제로 진행되었다. 다변량 시계열 데이터의 이상치 탐지에는 크게 두 가지의 어려움이 존재한다. 첫 번째는 클래스 불균형 문제로 정상 데이터에 비해 비정상 데이터의 수가 매우 적다는 것이고 두 번째는 시계열 데이터를 위해 사용되는 RNN과 LSTM 구조 문제로 변수들 간의 관계성 파악이 어렵고, 노이즈에 강건하지 못하다는 것이다. 본 세미나에서는 이러한 어려움을 극복하는 방법론 두 가지를 소개하였다.
두 가지 방법론은 우선 첫 번째 어려움을 극복하기 위해 정상 데이터만을 활용한 비지도 학습 방법을 적용한다. MSCRED는 인코더-디코더 구조를 활용해 인풋값을 복원한 뒤 재구축 오차를 기반으로 anomaly score를 정의하고, GAN 기반 방법론은 재구축 오차와 GAN으로 생성한 값과 실제 값의 비유사도를 가중합하여 anomaly score를 정의하였다. 그리고 두 번째 어려움을 극복하기 위해 다변량 시계열 데이터에서 각 변수 간 내적 혹은 거리를 계산하여 인풋 matrix를 구해 이미지화 시킨다. 이때 변수 간 내적 혹은 거리를 계산함으로써 변수들 간의 관계성을 반영하게 되고, 데이터를 이미지화함으로써 여러 문제점이 있는 LSTM 연산 대신 convolution 연산을 할 수 있게 된다. Convolution 연산을 통해 다변량 시계열 데이터에서 계산 복잡성을 크게 감소시킬 수 있었다.
RNN과 LSTM 구조의 단점을 극복하기 위해 시계열 데이터의 형태를 이미지화 시켜 convolution 연산을 가능하게 한다는 아이디어가 매우 인상적이었다. 특히 이미화라고 했을 때는 시그널 자체를 plotting한 그래프 이미지를 사용할 줄 알았는데, 변수들간의 연산을 통해 matrix를 구하고 이를 이미지 데이터의 map 형태로 본다는 것이 너무 재밌었다. 실제 공정 현장에서도 다변량 센서값들의 전체적인 트렌드가 변하는 것보다 소수의 센서들에서만 변화가 생기는 이상 현상이 많이 발생할 것 같아, 변수들 간 상관관계를 반영한 인풋 데이터 형태가 매우 도움이 될 거 같다.
이번 세미나를 통해 ‘시계열 데이터의 이미지화’라는 너무 좋은 아이디어를 얻어 가는 거 같다. 이렇게 유익한 세미나를 진행해주신 백민재 연구원님께 감사의 말씀을 전하며 이상으로 세미나 후기를 마친다.