- 2023년 9월 22일 오전 11:53
- 조회수: 21481
INFORMATION
- 2023년 9월 22일
- 오후 12시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
청취자 후기

이번 세미나는 "Dynamic Threshold in Time Series Anomaly Detection"을 주제로 진행되었다. 본 세미나는 시계열 데이터의 종류(단변량, 다변량), 세분화된 이상치 기준 정의 및 fixed threshold와 dynamic threshold의 차이점을 시작으로 dynamic threshold와 관련된 논문 3가지를 소개해 주었다.
기존 fixed threshold의 경우 단순하게 평가 데이터의 이상치 스코어가 특정 임계값보다 크면 이상, 작으면 정상으로 판단하는 것은 누구나 다 알고 있는 사실이고 fixed threshold의 한계점은 데이터의 특성을 온전히 반영하기 어렵다는 한계가 존재한다. 이러한 한계를 개선하기 위해 데이터의 특성을 반영하여 임계값을 시간에 따라 dynamic한 dynamic threshold가 등장하게 되었다. 해당 방법을 통해 fixed threshold보다 false alarm을 줄이고 보다 향상된 이상치 탐지가 가능하다.
관련 논문 3개는 기존에 단순한 fixed threshold보다 각 논문에서 사용하고 있는 데이터의 특성을 반영한 임계값을 설정하기 위해 통계적 기법, 가설 검정 등을 활용하였다. 단순하면서도 생각보다 복잡할 수 있는 내용을 정민이가 잘 설명해 주었는데, 그중에서도 3번째로 소개된 논문이 가장 단순하면서도 적용해 보기 편하다고 느꼈다. 다소 궁금했던 부분은 각 논문이 특정 데이터 셋의 특성을 잘 반영한 방법이기에 특성이 다른 데이터 셋에는 적용했을 때 결과가 좋지 않을 수 있겠지만, 만약 유사한 특성을 지닌 데이터 셋에 대한 결과는 어떻게 될지가 좀 궁금했다. 실험에서 사용한 특정 데이터 셋 뿐만 아니라, 유사한 데이터 셋에도 좋은 성능을 보인다면 굉장히 좋을 것 같은데.. 왜 실험을 안 했지라는 생각이 들었다. (원래 안 해도 되나..)
본 세미나를 통해서 dynamic threshold 등장 배경과 여러 도메인에서 적용할 수 있는 dynamic threshold 방법을 접할 수 있었다. 유익한 세미나를 준비해 준 정민이에게 고마운 마음을 전하며 이상으로 세미나 후기를 마친다.

이번 세미나는 Dynamic Threshold에 대해 진행되었다. 현실에 존재하는 시계열 데이터는 일반적으로 다양한 패턴을 갖는다. 이때, 이상치를 식별하기 위해 고정된 Threshold를 사용하는 것은 시계열 패턴이 고정적일 때 효과적일 수 있지만, 대다수 변동성이 존재하는 시계열 데이터에서는 적절하지 않을 수 있다. 따라서 이러한 상황에 유동적으로 Threshold를 변경하여 적용하는 것이 Dynamic Threshold이다. 본 세미나에서는 Dynamic Threshold에 대한 3가지 논문을 소개한다.
첫번째 논문은 우선적으로 EWMA로 Error를 Smoothing하는 과정을 거친다. 이후, Error의 평균 및 표준편차를 활용하여 각 시퀀스 별 Severity를 정의한다. 이후에는 Pruning으로 잘못 분류된 이상치를 완화하는 과정을 거친다. 두번째 논문은 아예 분포적으로 뒤틀릴 때를 극복하기 위해 제안되었다. 이때, 인접한 시점 간 Threshold의 평균에 대한 가설검정을 활용한다. 조금 더 상세한 프로세스를 세미나에서 소개해주고 있는데, 해당 과정은 아직 명확하게 이해하진 못했다. 세번째 논문은 기초 통계량을 기반으로 Threshold를 조절한다. 이때, 학습 데이터의 정보 및 이전 시점의 정보를 함께 고려한다는 것이 특징이다.
본 세미나를 통해 Dynamic Threshold에 대해 쉽게 이해할 수 있었다. 현실에서는 당연히 마주할 수 밖에 없는 문제이며, 상당히 실용적인 분야라고 생각된다. 하지만, 이미 예측된 값에 대해 다시 한 번 Threshold를 잡아주는 것보다(2-phase), 애초에 이상여부를 예측하는 것(1-phase)이 더 효과적이지 않을까 라는 생각이 들었다. 왜냐하면 모델링 과정이 2번 소요되기에, 오차가 가중될 것 같기 때문이다. 유익한 세미나를 준비해준 이정민 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.

이번 세미나는 Dynamic Threshold라는 주제로 진행되었다. 시계열 이상 탐지의 경우 Point/Contextual/Collective로 나눌 수 있고 각각 특정 포인트에서 값이 이상해지거나 패턴이 깨지거나 특정 구간에 이상이 발생하는 등의 경우이다. 이러한 이상치 기준은 추가적으로 세세하게 나누어지게 되는데 이를 하나씩 시각화 하여 소개하여 시계열 데이터의 이상이라는 것에 대하여 기본적인 개념을 차근차근 정리할 수 있었다. 이러한 이상치는 기본적으로 평가 데이터가 들어왔을 때 Model이 이상치 스코어를 출력하게 되고 이 값이 특정 값을(Threshold) 넘어갈 경우 이상으로 판단하게 된다. 이때 사용되는 Threshold를 시간에 따라 동적으로 조절하게 된다면 보다 나은 이상치 탐지를 할 수 있다는 가정하에 발전되고 있는 분야가 Dynamic Threshold 연구 분야이다. 첫번째로 KDD 방법론을 설명하였는데, KDD는 각각의 변수별로 LSTM 모델을 생성하고, Threshold는 연산량이 크지 않고 분포 가정이 필요없는 nonparametric dynamic threshold 기법을 제안하였다. 동적으로 threshold가 어떻게 변화하는지는 예제를 들어 설명하여 어떠한 방식으로 동작하는지 확인할 수 있었다. 또한 False Positive를 줄이기 위한 2가지의 방법도 확인할 수 있었다. 두번째로는 VATU라는 방법론을 설명하였는데 해당 방법론을 데이터의 분포 자체가 변하는 경우에 이에 맞는 Threshold를 적용하기 위하여 연구가 진행되었으며 데이터가 변하는 경우를 평균에 대한 가설 검증을 통하여 추적하고 이에 따른 결과로 Threshold를 업데이트 해나가는 방식을 사용하였다. 마지막으로 설명한 방법론은 LSTM Stacked Autoencoder를 사용하였고 Autoencoder를 학습할때 Dynamic Weighted Loss Function을 사용하였다. (작은것은 더 작게, 큰 것은 더 크게) 해당 방법론에서의 Dynamic Threshold는 이상 시점에서의 기초 통계량을 반영한다는 점이 특징이다. 각각의 방법론이 Dynamic Threshold를 위하여 제안하는 방법론이 상이하여서 이를 통합하여 모든 데이터셋과 경우에 맞는 방법론을 개발할 수 있지는 않을까라는 생각이 들었다. 다소 생소하지만 실제 현장에서는 정말 필요한 분야에 대해 세미나를 준비해준 이정민 연구원에게 고맙다는 인사를 전하여 이상으로 세미나 후기를 마친다.

이번 세미나는 Dynamic Threshold in Time Series Anomaly Detection을 주제로 진행되었다. 시계열 데이터는 시간순으로 이루어진 데이터이며, 이러한 데이터의 이상치는 여러가지 종류(Point / Contextual / Collective)로 분류가 가능한 특징을 가지고 있다. 이상치 탐지를 할 때 이상치의 기준을 score의 특정 threshold를 기준으로 하며, 이를 수동으로 설정하기 위해 도메인 지식이 필요하며 이러한 한계를 극복하기 위한 방법론이 dynamic threshold이다.
첫번째 논문은 Nonparametric dynamic threshold를 제안하였으며, 각 이상 sequence에서 severity라는 score를 도출하여 이상치 정도를 산출하고, learning from history, pruning anomalies라는 기법을 통해 이상치 감지 성능을 향상시켰다. 두 번째 논문은 VATU로 데이터 분포 자체가 변하는 경우에 사용되며 이상치 스코어를 별도로 저장 및 업데이트하는 방법론이다. 세 번째 논문은 dynamic weighted loss function을 사용하여 더 큰 loss를 도출하는 샘플에 큰 가중치를 주며 이전 시점 이상치 스코어들의 기초 통계량을 이용하였다.
세미나를 들으며 결국 도메인에 대한 지식이 있는 경우 동적으로 변화하는 threshold를 효율적으로 구축할 수 있기에 로버스트한 dynamic threshold의 필요성이 느껴졌고 아직 연구할 부분이 많이 남아 있다는 생각이 들었다. 좋은 세미나를 준비한 이정민 연구원에게 고생했다는 얘기를 전하며 세미나 후기를 마친다.

정민이가 진행한 Dynamic Threshold for Time Series Anomaly Detection에 관한 세미나를 청취하였다. 해당 주제는 이전보다 더 효과적인 이상 탐지를 위한 Dynamic Threshold 기법 연구로, 이상치 탐지 방법론이 이상치 스코어 점수를 설계하고 이상 스코어 점수가 특정 임계값보다 높은지 혹은 낮은지에 따라 이상치 여부를 판단하는 것에 있어, 임계값을 유동적으로 변화해야 함을 가정하고 있다. 세 편의 기존 동적 임계값 조정 기법들을 본 세미나에서 청취할 수 있었는데, 각 방법론마다의 장단점을 주의깊게 잘 분석하여, 일반화된 방법론을 만들기 위해 연구하면 좋을 것 같다고 생각하였다. 본 연구와 비슷한 주제를 정민이가 진행하고 있는 것으로 알고 있는데, 본 세미나 준비를 통해 많은 인싸이트를 얻고 본인 연구에 큰 도움이 되었길 바란다. 좋은 세미나를 준비하느라 고생한 정민이에게 감사의 말씀을 전하며, 세미나 후기를 마치도록 한다.

이번 세미나는 Dynamic Threshold in Time Series Anomaly Detection에 대해 다루었다.
시계열 데이터는 시간순으로 이루어진 데이터로, 변수가 하나면 단변량, 여러개면 다변량 시계열 데이터이다. 시계열 데이터의 이상치란 point, contextual collective 세가지로 구분할 수 있는데, point는 한 값이 튀는 경우를 의미하고, contextual이란 문맥상에서 어떤 한 포인트가 문맥을 깨는 경우, collective는 특정한 구간에서 패턴이 어그러지는 현상을 의미한다.
시계열 이상치 탐지를 하기 위해서는 평가 데이터의 이상치 스코어가 특정 threshold보다 크면 이상, 작으면 정상으로 판단한다. Threshold를 수동으로 설정할 경우 전문가의 도메인 지식이 필요하고, fixed threshold의 경우 데이터의 특성을 반영하기 어렵다는 한계점을 가지고 있다. 이러한 문제점을 해결하고자 데이터의 특성을 반영하여 threshold를 시간에 따라 dynamic하게 적용하기 위한 연구가 진행되고 있다.
첫번째 논문은 각 센서별로 LSTM 모델을 구축하는 방법을 제시한다. 값이 급속하게 변하는 경우 LSTM의 성능이 저하될 수 있기 때문에 prediction error를 EWMA를 이용하여 Smoothing 시킨다. Error의 평균과 표준편차를 활용하여 각 시퀀스별 Severity (심각성)을 정의한다. 이후 Pruning 기법을 이용하여 잘못 분류된 이상치를 완화하는 과정을 거친다.
두번째 논문 (VATU)은 concept drift가 발생할 때를 대비하여 슬라이딩 윈도우 기법과 가설 검정을 활용한 adaptive threshold 기법을 제안한 논문이다. Concept drift는 데이터의 분포 자체가 변하는 경우를 의미하고, 고정 threshold를 사용하면 분포의 변화를 반영하기 어렵다. 이를 해결하고자 VATU는 이상치 스코어를 별도로 저장하고 평균에 대한 가설검정을 통해 threshold를 업데이트하는 방법을 제시한다.
마지막 논문은 dynamic weighted loss function을 이용하여 더 큰 loss를 도출하는 샘플에 더 큰 가중치를 적용한 방법론이다. 해당 방법론은 학습 데이터 이상치 스코어의 정보를 활용할 뿐 아니라, 이전 시점들의 이상치 스코들의 기초 통계량을 활용하였다.
본 세미나를 통해 실생활에서 매우 필요한 연구분야인 도메인 별 시계열 dynamic threshold 구축 방법론들에 대해 접해 볼 수 있어 좋았다. 또한 데이터셋별로 threshold를 구축하는 방식이 상이한데, 이를 통합적으로 구축할 수 있는 방법에 대한 필요성도 느껴졌다. 유익한 세미나를 준비해주신 이정민 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.