- 2022년 3월 21일 오후 7:20
- 조회수: 10172
INFORMATION
- 2022년 3월 25일
- 오후 1시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
발표자 후기

금일 세미나는 Anomaly Detection for Time Series with Autoencoder라는 주제로 진행하였다. 시계열 데이터에 대한 이상 탐지 모델 중 기본이 되는 EncDec-AD 모델을 시작으로 앙상블과 GANs 을 접목한 모델들을 설명하고, Autoencoder가 가지고 있는 장단점을 가지고 시계열 데이터의 이상 탐지 문제를 해결해가는 방법을 소개하였다.
사실 발표자는 시계열 데이터의 이상 탐지라는 연구 주제를 처음 접했을 때, 어떻게 접근을 해야할 지 너무 막막하였다. Multivariate, Multisensors 등 용어부터 너무 다양하게 사용되고 있었고, 도메인에 의존적이어서 논문을 찾는 것도 굉장한 난관이었다. 이번 세미나는 그 때 답답함을 하나하나 해소해 나아갔던 내 발자취와도 같다. 그 때의 심정을 담아 혹시 이 분야를 접하는 누군가에게 도움이 되었길 바란다.
청취자 후기

이번 세미나는 Autoencoder를 활용한 시계열 이상탐지를 주제로 진행되었다. 최근 센서나 Edge device 등에서 실시간 데이터를 수집하고 처리하는 일이 많아지면서 시계열 데이터의 이상탐지에 대한 수요가 증가하고 있다. 하지만 시계열 데이터의 이상탐지는 다양한 이상유형, 레이블링의 어려움 등으로 일반적인 이상탐지와 다르게 어려움이 따른다. 지도학습으로도 시계열 이상탐지가 가능하지만 정상과 비정상의 레이블링이 어렵고 보다 다양한 이상 경우가 존재하기에, 본 세미나에서는 Reconstruction Error 기반의 비지도학습 중 Autoencoder를 활용한 시계열 이상탐지 방법론 3가지를 소개하였다. 첫번째로 EncDec-AD는 기존의 AutoEncoder가 시계열적인 특성을 반영하지 못하기에, Encoder와 Decoder에 LSTM Layer를 추가하여 시계열적인 특성을 반영할 수 있게 하였다. 두번째로 S-RNN AutoEncoder Ensembles는 다른 데이터가 들어와도 기존의 Training set과 비슷하게 만든다는 기존 AutoEncoder의 한계를 극복하기 위해 각 Layer의 Connection이 일부 끊어진 형태로 서로 다른 구조의 여러 Network를 결합한 앙상블 모델을 제안하였다. 마지막으로 USAD는 비정상데이터가 정상데이터와 비슷하면 Reconstruction Error가 작아서 이상감지가 어렵다는 기존 Autoencoder의 한계와 안정적인 학습이 어렵다는 GAN의 한계를 극복하고자 하는 것에서 출발하였다. 두 모델을 결합함으로써 AutoEncoder는 GAN의 Discriminator를 통해 이러한 한계를 극복하였고, GAN은 목적함수에서 학습초기에 AutoEncoder의 Reconstruction Error에 가중치를 부여함으로써 극복할 수 있었다. 본 세미나에서는 기존 모델의 한계를 제시하고 이를 어떻게 보완했는지에 대해 설명하면서 해당 모델의 의의를 보다 용이하게 이해할 수 있었다. 추후 논문을 읽게 된다면 이처럼 본 논문이 나오게 된 배경을 이해하고, 각 배경이 어떻게 해결되었는지 이해하면서 읽는 습관을 들여야겠다는 생각이 들었다. 유익한 세미나를 준비해주신 조경선 연구원님께 감사드리며 이상으로 세미나 후기를 마친다.

이번 세미나는 시계열 데이터에 대한 이상 탐지에 대하여 진행되었다. 시계열 데이터는 관측치가 시간적 순서를 가진 데이터를 뜻하는데 산업 전반에서 흔히 발생되는 데이터이므로 시계열 데이터 이상 탐지에 대한 수요가 증가하고 있다. 하지만 시계열 데이터에 대한 이상 탐지는 상당히 어려운데 다양한 이상 유형이 존재하고 Labeling 하기가 어려우며 또한 불량 데이터가 정상 데이터보다 훨씬 적기 때문에 데이터 불균형으로 인한 이상 탐지 알고리즘이 오탐을 하는 경우도 많이 발생하고 있기 때문이다. 본 세미나에서는 시계열 데이터의 이상 탐지를 위하여 비지도 학습 방식, Reconstruction Error 기반의 Autoencoder를 활용한 방법론 3가지를 소개하였다. 첫째로 LSTM-Autoencoder(EncDec-AD)는 기존 Autoencoder가 시간적 순서를 반영하지 못함을 해결하기 위한 방법으로 시간적인 특성을 고려하기 위하여 LSTM Network를 Encoder와 Decoder에 적용한 방법이다. 이 방법론은 주기성을 가진 시계열 데이터와 예측 불가능한 데이터셋에서(Engine-NP) 좋은 성능을 보여 다양한 도메인에 적용 가능한 모델이다. 두번째는 Autoencoder Ensembles(Sparsely-connected RNNs; S-RNN)이며 기존 Autoencoder가 정상 데이터만 학습하기에 과적합 문제가 발생할 수 있고 이를 개선하기 위하여 제안되었다. Layer의 Connection을 Sparse 하게 변경함으로서 과적합 문제를 줄이고 정확도로 향상 시키는 방법이다. 마지막은 USAD으로 GAN의 개념이 Autoencoder에 추가 되었다. 정상 데이터와 비정상 데이터가 유사할 경우 Autoencoder는 제대로 감지하기 어렵다는 문제를 해결하기 위하여 제안되었다. 이는 Autoencoder의 한계를 극복함과 동시에 안정적인 학습이 어렵다는 GAN의 단점도 보안하며 더 좋은 성능을 내는 방법론이다. 이상 탐지 주제에 관심을 가지고 있는데 Autoencoder를 시계열 이상 탐지 분야에서 사용하는 방법론, 더 나아가 한계점을 명확히 하고 이를 보완할 수 있는 다양한 방법론을 접할 수 있어서 많은 도움이 되었다. 이번 세미나를 준비해주신 조경선 연구원님께 감사드리며 이상 세미나 후기를 마친다.

금일 세미나는 오토 인코더 모델 기반 이상 시계열 데이터 탐지를 주제로 조경선 연구원이 진행해주셨다. 시계열 분야의 데이터 정의와 이상 탐지 어려움을 소개하며 세미나가 시작되었다. 시계열 데이터 분야의 이상치 탐지 연구에 익숙하지 않은 사람들도 쉽게 이해할 수 있었다. 오토인코더를 활용한 이상 시계열 데이터 탐지 방법론 3개를 소개 받았다.
첫번째는 EncDec-AD로 시계열성을 가진 정상 데이터만을 학습하여 이상 시계열 데이터를 탐지하는 방법론이다. Many-to-many 방식의 인코더-디코더 (언어) 모델 작동 방식과 유사했는데, 디코더 부분의 학습 및 추론 과정에 차이가 존재하였다. 이상 탐지 성능을 입증하기 위해 사용된 평가지표 F_beta score, TPR/FPR는 헷갈려서 다시 공부했는데 많은 도움이 되었다.
두번째는 앙상블 아이디어 기반 시계열 이상 탐지 오토인코더 방법이였다. 오토인코더 고유 문제점(비정상 데이터도 잘 복원해버리는, 즉, 과적합)을 앙상블로 보완하며 좋은 성능을 내보자라는 아이디어를 사용하였다. 모델 구조의 다양성을 부여하기 위해, 즉 앙상블 아이디어를 위해, LSTM 유닛 사이의 연결을 임의 제거, 임의 추가하는 Sparsely-connected RNNs를 제안하였다. 여러 모델들을 동시에 학습하는 Shared Framework 부분이 새로운 점으로 잘 기억해두어야겠다.
개인적으로 세번째 방법론이 가장 흥미로웠다. GAN과 오토인코더 모델을 결합해 서로의 단점을 이상치 탐지 관점에서 보완하도록 설계되었다. 두 개의 오토인코더 모델을 구축해 하나는 생성기, 나머지는 판별기 모델로 사용한다. 이 때, GAN처럼 Reconstruction 오차를 적대적으로 감소, 증가시키면서 학습한다. 이렇게 되면 오토인코더 고유의 문제점(비정상 데이터도 잘 복원)을 해결할 수 있다. 논문에서는 GAN의 단점인 학습 불안전성도 오토인코더 모델 구조에 의해 해결된다고 하는데, 이 부분도 신선했다.
시계열 데이터에서는 오토인코더로 어떻게 이상치를 탐지하는지 살펴볼 수 있는 좋은 세미나였다. 또한, 이상 탐지 연구 트렌드가 이상 데이터를 인위적으로 만드는 방식을 활용하는 것으로 기울고 있는 것도 알게 되었다. 정성스레 세미나를 준비해주신 경선 누나에게 감사의 말씀을 전하며 세미나 후기를 마친다.

이번 세미나는 Anomaly Detection for Time Series with Autoencoder라는 주제로 진행되었다. 시계열 데이터의 이상 현상은 시점과 기간으로 구분되며, 여러 도메인이 대상이기 때문에 이상 유형이 다양하고, 정확히 구분하는 라벨링이 어렵다. 라벨링을 위해서 많은 시간과 비용이 소요되고, 이상 데이터의 숫자가 적기 때문에 데이터 불균형 현상이 발생된다. 이상 탐지 관련 오토인코더 기반의 3가지 방법론이 소개되었다. LSTM-Autoencode인 EncDec-AD은 시간적인 특성을 고려하여 LSTM 네트워크를 활용하였고 정규분포에서 임계치 이상으로 거리가 멀면 이상으로 판단하였다. S-RNNs은 과적합이 되는 기존 오토인코더의 한계점을 극복하기 위해 RNN 구조를 변경하였다. 다양한 구조를 가진 오토인코더가 많아질수록 정확도가 향상되는 결과를 볼 수 있었다. USAD은 오토인코더와 GAN을 결합하여 정상과 유사한 이상을 감지할 수 있는 구조를 만들었다. 시계열 데이터와 이상치 탐지 분야에 대해 관심이 많았기에 발표해주시는 내용을 유익하게 들을 수 있었다. 개인적으로는 이러한 모델들의 앙상블을 통해 모델의 크기가 점점 무거워지는 대신 응용에 대한 범위가 넓어지는 쪽으로 해당 분야가 발전할 수 있지 않을까라는 생각이 들게 되었다. 개념 및 발전 영역에 대해 잘 설명해 주셔서 유익한 시간이었다는 감사의 말씀드리며 세미나 후기를 마친다.

금일 세미나는 경선 누나가 오토인코더를 활용한 시계열 이상치 탐지를 주제로 세미나를 발표하였다. 세마나는 시계열 데이터의 특징과 이상치 탐지에 쓰이는 모델에 대해서 소개를 한다.
우선 시계열 데이터는 크게 두 가지로 나눌 수 있다. 변수를 하나만 가지고 있는 단변량 시계열 데이터와 둘 이상을 가지고 있는 다변량 시계열 데이터이다. 최근 산업계에서도 데이터의 중요성이 부각되고 있고 스마트 팩토리에 대한 개념이 전파되면서 센서를 통한 시계열 데이터 분석의 수요가 증가하고 있다. 그 중에서도 특히 제조 과정 등에서 비정상 상황이 발생한 경우를 잡아내는 이상치 탐지가 많은 주목을 받고 있다.
다만, 이상치 데이터는 말 그대로 이상 상황에 발생하는 데이터이기 때문에 매우 희소한 특징이 있다. 이로 인해 학습 데이터셋에서 정상 데이터에 비해 비정상 데이터의 비율이 매우 작아서 데이터 불균형이 발생한다. 따라서 라벨을 활용하는 지도학습 방식으로 모델을 학습하는 것을 어렵게 만들기 때문에 비지도학습 방식 또한 많이 활용되고 있다.
이러한 비지도학습 방법론의 대표적인 모델 중 하나가 오토인코더이다. 오토인코더는 데이터를 압축하는 인코더와 압축된 데이터를 다시 복원하는 디코더로 구성되어 있다. 입력된 값과 출력되는 값이 최대한 비슷하도록 재구성하는 작업을 통해서 모델을 학습하게 된다.
만약에 학습에 사용된 적이 없는 입력값을 사용하게 될 경우 복원이 잘 안 될 것이고 따라서 에러가 크게 발생하게 된다. 이상치 탐지에 오토인코더를 활용할 때에는 이 특성을 이용하게 되는데, 모델이 정상 데이터만을 잘 복원하도록 학습시킴으로써 이상 데이터가 들어왔을 때에는 큰 오차를 발생시키도록 유도하는 것이다. 따라서 사전에 임계치를 설정하고 복원했을 때 큰 오차가 발생하는 경우 이상치를 탐지했다고 하도록 한다.
오토인코더의 인코더와 디코더를 LSTM로 하여 시계열 데이터를 압축&복원하도록 학습하는 모델은 LSTM-Autoencoder이며 위에서 언급한 방식을 통해 시계열 이상치를 탐지할 수 있게된다. 한편 앙상블 기법을 활용한 경우도 있는데, 임의의 time step간에 skip connection을 연결하도록 하여(Sparsely-connected RNNs) 조금씩 다른 다수의 오토인코더 모델을 생성하는 방법이다. 이는 모델의 수 만큼 다양한 표현 벡터를 획득할 수 있게된다는 장점이 있다. 한편 이 경우에는 입력값의 이상치 점수를 계산할 때 각 모델에서 나온 복원 오차를 모은 뒤 중간 값을 채택하는 방식으로 오버피팅 문제를 해결한다고 한다. 마지막으로 GAN을 활용한 모델도 있다. 오토인코더와 GAN의 구조를 함께 사용함으로써 두 모델의 한계를 극복하였다고 한다.
경선 누나의 세미나를 통해서 시계열 도메인의 이상치를 어떻게 탐지하는지 알게 되어서 매우 유익했다고 생각한다. 도메인에 대한 설명부터 다양한 모델까지 꼼꼼한 설명을 준비해주신 경선 누나에게 감사드린다.

정보 복원 기반 이상치 탐지에 대한 굵직한 논문들에 대해 알 수 있었다. 세미나 내용만큼 좋았던 점은 이상치 탐지 연구들에 대한 분류 체계를 짚고 넘어갈 수 있었던 점이다. 기존에 이상치 탐지에 대해서는 많이 공부해보지 않아서 개념 정립이 잘 되지 않았지만, 금일 세미나를 통해 비지도학습 기반의 이상치 탐지는 크게 다른 데이터와의 유사도, 이후 시점 예측 값, 현재 시점의 복원 값에 기반한 이상치 점수를 산출하는 방식으로 나뉜다는 것을 알게 되었다. 일례로, 시간에 대한 정보가 필요 없는 데이터는 k Nearest Neighbor 등의 유사도나 밀집도 기반으로 이상치 점수를 산출한다(i.e. Local Outlier Factor). 시계열 데이터 이상치 탐지에서 이상 징후를 조기에 탐지해야 하는 경우는 이후 시점의 예측 값과 실제 값의 차이(i.e. DeepAnT) 를, 조기 탐지가 아닌 경우에는 현재 시점의 값을 Autoencoder를 통해 복원한 값과의 차이(i.e. EncDec-AD) 를 통해 이상치 점수를 산출한다.
기존의 LSTM Encoder-Decoder 구조에서 약간의 변형과 보완을 더한 방법론 2개가 금일 세미나의 주된 내용이었다. 전자는 다양한 Skip-Connection Term 을 가진 각각의 모델을 학습시켜 앙상블한 모델과 후자는 Autoencoder 구조에서 Adversarial Training 을 합친 연구였다. Encoder-Decoder 구조에 Adversarial Training 을 학습시키는 방식은 주로 분자 구조의 생성 등 Sequential Decision Making/Sequence Generation 에 자주 사용되어왔다. 하지만 본 연구는 이러한 학습 방식을 이상치 탐지에 적용하였을 뿐만 아니라, hyperparameter에 따라 False alarm 을 조절할 수 있는 Adaptive Anomaly Score 를 제안한점이 큰 기여점인 것 같다.
비지도학습 기반 이상치 탐지 중 정보 복원 기반 방법론에 대해 큰 흐름을 잡을 수 있었다. 이후 시점 예측이나 유사도 기반 이상치 탐지 알고리즘도 공부하고 싶다는 생각이 들었다. 세미나를 준비하느라 고생하신 경선누나께 감사의 말씀을 드린다.

이번 세미나는 시계열 데이터에 대한 Autoencoder 기반의 Anomaly Detection을 주제로 진행되었다. 시계열 데이터는 다양한 산업 분야에서 발생하는 데이터이다. 최근에는 센서나 Edge device 등 시계열 데이터를 발생시키는 장치가 증가하고, 데이터의 복잡도도 증가하면서 시계열 데이터의 이상 탐지에 대한 수요와 중요성이 커지고 있다. 하지만 시계열 데이터에 대한 이상치를 탐지하는 것은 쉽지 않다. 발생할 수 있는 이상 유형이 다양하고, 정상과 비정상 데이터를 구분해 라벨링을 하기가 어렵기 때문이다. 정상 데이터가 비정상 데이터에 비해 훨씬 많은 데이터 불균형 문제도 해결해야 할 주요 이슈이다.
본 세미나에서는 시계열 데이터에 대한 이상 탐지 방법 중, Autoencoder 기반의 딥러닝 모델들을 소개해주셨다. 먼저 Autoencoder는 입력 데이터로 정상 데이터만 사용하는데, Encoder의 입력 데이터와 Decoder의 결과인 복원 데이터의 차이를 줄이면서 정상 데이터의 특징을 학습한다. 이때 비정상 데이터가 모델에 입력되면 복원된 데이터가 입력과 많은 차이가 발생하게 되면서 비정상을 탐지하게 된다.
첫 번째로 소개해주신 모델은 LSTM-Autoencoder이다. 데이터의 시간적인 특성을 고려하기 위해 LSTM 네트워크를 이용했다. 해당 모델은 시퀀스를 예측할 수 없는 데이터 셋에 대해서는 좋은 성능을 보였지만, 예측 가능한 데이터 셋에 대해서는 시계열 예측 기반 이상 감지 모델보다 좋은 성능을 내지 못했다. 두 번째는 Autoencoder Ensembles 알고리즘이다. 기존 Autoencoder 모델은 정상 데이터만 가지고 학습하여, 다른 데이터가 들어와도 training set과 비슷하게 만드는 과적합 문제가 발생했다. 따라서 서로 다른 네트워크 구조를 가진 여러 개의 Autoencoder를 결합한 모델이 제안되었다. 이때 서로 다른 구조를 가진 Autoencoder를 여러 개 생성하기 위해 RNN 구조를 변경한 Sparsely-connected RNNS(S-RNNs)을 사용하며, 이 $N$개의 S-RNN Autoencoder가 Shared layer를 통해 상호작용하며 훈련한다. 해당 모델은 시퀀스 데이터에 적합할 뿐만 아니라 단변량과 다변량 모두에서 좋은 성능을 보였다. 세 번째로 소개된 USAD는 Autoencoder training과 adversarial training을 함께 사용하는 알고리즘이다. 두 가지를 함께 사용함으로써 Autoencoder와 GANs 각각의 한계를 극복하였다.
본 세미나에서는 시계열 데이터에 대한 친절한 설명부터 Autoencoder를 활용한 unsupervised learning 기반의 이상치 알고리즘으로 여러 한계점들이 극복되는 과정을 잘 설명해주셨다. 덕분에 시계열 이상 탐지라는 분야에 어떻게 접근해야 할 지 감을 잡는 데 많은 도움이 되었다.

이번 세미나는 Autoencoder를 사용한 시계열 이상치 탐지를 주제로 진행되었다. 시계열 이상치 탐지에 대한 소개, Autoencoder와 이것을 이용한 시계열 이상치 탐지 순으로 진행되었다.
시계열 데이터는 금융, 의료, 에너지 등 여러 도메인에서 다양하게 발생하여 이상 유형 또한 다양하게 발생한다. 또한 비정상 데이터가 정상 데이터에 비해 훨씬 적어서 데이터 불균형 현상이 발생하고 이 또한 분석에 큰 어려움을 준다. 이러한 문제들을 해결하기 위해 다양한 연구들이 진행되고 있다.
Autoencoder(AE)는 재구성 기반 판별 방식인 딥러닝 모델이다. AE는 앞서 말한 비정상 데이터가 정상 데이터에 비해 훨씬 적은 상황에서도 적용 가능하다. 그러나 AE는 과적합 등의 문제점을 가지고 있다. 본 세미나에서는 이러한 문제점을 극복하기 위해 AE를 활용한 LSTM-AE, AE Ensembles, AE within an Adversarial Training Framework에 대한 논문들을 소개해주었다.
그 중에 AE에 GAN을 같이 활용한 USAD(Unsupervised Anomaly Detection on Multivariate Time Series) 논문이 가장 인상 깊었다. Decoder를 두 단계로 나누어 형성했고 각각의 Decoder가 GAN에서의 Genorator와 Discriminator의 역할을 하고 Training epoch 수가 증가할수록 점점 더 좋은 성능을 도출하였다. 구조가 복잡하게 느껴지긴 했지만 이렇게도 적용할 수 있구나 하고 매우 새롭게 다가왔다.
본 세미나와 같은 주제로 프로젝트를 진행하고 있는데 관련한 모델들의 설명을 학습할 수 있는 매우 좋은 경험이었다. 어렵게 느껴지긴 했지만 관심 분야 또한 관련 주제이기 때문에 더 흥미롭게 다가왔다. 어려운 내용임에도 불구하고 이해하기 쉽게 설명해주신 조경선 연구원님께 감사드리며 본 세미나의 후기를 마친다.