- 2023년 1월 27일 오후 6:55
- 조회수: 16198
REFERENCES
INFORMATION
- 2023년 1월 27일
- 오전 12시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
청취자 후기

트랜스포머는 AI 성능의 비약적 발전을 이끈 중요한 알고리즘입니다. 금주 세미나는 트랜스포머를 이상 감지에 활용한 2개 알고리즘을 설명하고 있습니다. 처음 소개된 "Anomaly Transformer"는 기존 트랜스포머의 엔코더만을 활용한 알고리즘입니다. 일반적인 데이터는 정상 패턴의 빈도가 지배적이기 때문에 이상 데이터의 주변 패턴은 전반적인 패턴과 차이가 있을 것으로 가정하였습니다. 지역적 패턴을 추출하기 위해 기존 트랜스포머에는 없는 prior association을 정의하였고 이를 기존 트랜스포머를 활용한 series association(=self-attention score)과 비교하는 방식으로 이상 수준을 결정하였습니다. 두 번째 알고리즘인 "TranAD"는 기존 트랜스포머(엔코더+디코더)를 엔코더처럼 활용하고 디코더 부분은 GAN 같이 2개의 데이터 경로를 설계하여 서로 적대적 학습 방법으로 가중치를 학습하는 방법이 흥미롭습니다.
두 논문의 출판 시기가 비슷하여 서로에 대한 성능 비교는 없었지만 구현 코드가 공개되어 있으므로 향후 성능과 학습 속도 등을 비교하면 흥미가 있을 것 같았고, 성능이 비슷하다면 2단계로 학습을 해야하는 TranAD보다 엔코더만으로 학습이 가능한 Anomaly Transformer를 선호할 수 있겠다는 생각을 했습니다. 기존 트랜스포머부터 2개 알고리즘까지 상세히 설명해주시느라 고생 많으셨고 알고리즘 이해에 많은 도움이 되었습니다. 감사합니다.

이번 세미나는 Transformer 기반의 이상치 탐지 방법론에 대해 진행되었다. Transformer는 자연어 처리에서 시작한 모형이지만, 병렬적인 처리가 가능하고 Self-attention을 기반으로 인접한 시점과 관계를 지속적으로 학습하기에, 시계열 분야에서도 좋은 성능을 보인 연구결과가 많다. 이처럼 다양한 연구결과들 중 본 세미나에서는 2가지 연구를 소개한다. 크게 두 가지 연구의 공통점을 짚고 넘어가면, Transformer를 기반으로 지역적인 정보와 전역적인 정보를 모두 고려한다. 추가적으로, 두 방법론 모두 재구축오차를 기반으로 학습한다. 먼저 Anomaly Transformer는 지역적인 정보와 전역적인 정보를 모두 고려하여 Association Discrepancy를 정의한다는 특징을 갖는다. 특히, 지역적인 정보를 정의할 때 Q, K, V 이외에 시그마까지 함께 학습한다는 특징을 갖는다. 추가적으로 학습은 MinMax 전략을 사용하여 지역적인 정보가 전체적인 시계열 패턴을 반영할 수 있도록 학습하며, 전역적인 정보가 인접하지 않은 시점에도 가중치가 부여되도록 학습한다. 두번째로 TranAD는 Transformer와 Adversarial Learning을 동시에 활용한다. 하나의 Encoder에 2개의 Decoder를 가지며, 하나의 Decoder에 대해 만들어진 가짜 데이터를 다른 Decoder에서 이를 복원하는 Task를 통해 학습한다.
본 세미나를 통해 Transformer에 대해 복기하고, Transformer 기반의 이상치 탐지 방법론에 대해 접할 수 있었다. 두 방법론 모두 지역적인 정보와 전역적인 정보를 모두 고려하였는데, 개인적으로는 단순히 재구축오차 뿐만 아니라, 지역적인 정보와 전역적인 정보를 MinMax전략으로 학습한 Anomaly Transformer가 흥미로웠다. Transformer가 이상치 탐지에 적용된 결과를 보면 기존 머신러닝/딥러닝 방법론보다 성능이 크게 개선된 것을 볼 수 있었다. 그만큼 Transformer의 영향력을 다시 한 번 체감하고, 다양한 적용가능성을 확인할 수 있었던 세미나였다. 유익한 세미나를 준비해주신 이지윤 연구원님께 감사드리며 이상으로 세미나 후기를 마친다.

이번 세미나는 'Transformer-based Anomaly Detection in Multivariate Time Series'를 주제로 진행되었다. 먼저 다변량 시계열 데이터의 이상치 탐지에 관한 기본 지식 설명을 시작으로 다변량 시계열 데이터에서 트랜스포머 기반 이상치 탐지 방법론 2가지에 관해 설명해주고 있다. 2가지 방법론에 관해 설명하기에 앞서 트랜스포머에 관한 자세한 설명 덕분에 이후 진행되었던 트랜스포머 기반 이상치 탐지 방법론에 관한 이해가 수월했다. 두 가지 방법론에 관한 간략한 설명은 아래와 같다.
먼저 Anomaly Transformer 방법론은 기존 다변량 시계열 데이터에서의 이상치 탐지의 한계를 특정 시점의 인접한 시점을 반영하고 있는 지역적 시계열 특징(Prior Association)과 모든 시점 간의 관계를 활용한 전반적인 시계열 특징(Series Association)을 반영해 개선한 방법론이다. 특징으로는 트랜스포머의 self-attention 구조를 차용하고 Prior Association과 Series Association 간의 차이를 KL Divergence를 통해 연산한 값인 Association Discrepancy와 Reconstruction Loss를 전체 Loss로 활용한다는 점이다. 두 번째로 TransAD 방법론은 전체적인 시점정보와 지역적 시점정보 모두 반영하여 시계열 데이터가 지닌 장단기 특징을 반영한다는 점과 트랜스포머를 encoder로 사용하고 두 개의 서로 다른 역할을 하는 decoder를 사용해 다변량 시계열 데이터의 이상치 탐지 한계를 개선한 방법이다.
세미나를 시청할 때면 하나의 방법론에서 사용되고 있는 용어에 관해 찾아보면서 듣는 경우가 종종 있었는데 본 세미나에서는 '저건 뭐였지?'라는 궁금증이 발생할 때마다 이지윤 연구원이 설명해주어 온전히 세미나에만 집중할 수 있었다. 여러 알고리즘을 접할 때마다 네트워크 구조뿐만 아니라 사용하고 있는 loss function에도 관심이 많았는데 본 영상에서는 전체적인 구조와 더불어 loss function에 관한 자세한 설명이 있어 굉장히 즐겁게 시청할 수 있었다. 유익한 세미나를 준비해준 이지윤 연구원에게 감사드리며 이상으로 세미나 후기를 마친다.

이번 세미나는 이지윤 연구원이 'Transformer-based Anomaly Detection in Multivariate Time Series'라는 주제로 진행하였습니다. Transformer 에 대한 자세한 설명부터 시계열 이상탐지 알고리즘 두 종류까지 잘 정리되어 있어 해당 분야 연구에 큰 도움이 되었습니다. 감사합니다.
전체 세미나 내용은 간단히 아래에 정리하였습니다.
1. Transformer (2017, NeurIPS)
- NLP 분야에서 시작되었으나, 현재는 다양한 분야에서 활용 중
- 기본 구조는 Eebedding, Positional Encoding, Encoder, Decoder, Predition 으로 구성
- 본 세미나에서 Attention의 연산 방식(Q, K, V)을 도식화하여 쉽게 이해
2. Anomaly Transformer(2022, ICLR)
- 기존 Transformer Encoder 구조에 Prior Association(인접 시점의 정보)과 Series Association(시계열 전반적인 정보, 기존 self-attention 개념)을 설정하여 이 두 개념의 분포 차이를 Association Discrepancy 으로 제안 및 이상탐지 진행.
- Prior Assocation 을 만든 이유 : 이상 시점은 일반적으로 주변 시점들도 비정상 패턴일 가능성이 높으므로 인접 시점들을 파악하기 위해서
- MinMax Strategy를 하는 이유 : 학습시에, Series Association과 Prior Association을 원하는 방향으로 만들기 위해 phase 별로 각각의 값을 detach하여 학습 진행
- Anomaly Score : Reconstruction Loss와 Association Discrepancy를 연산하여 사용
- 궁금한 부분 : 저자들이 loss를 조절하여 Series Association이 non-adjacent한 부분에 attention을 기존보다 더 집중하도록 만들었고 이를 통해 이상 시점의 reconstruction이 어려워져 성능 향상이 이뤄졌다는 내용. 해당 방식이 항상 유의미한 결과를 불러오는 방식인지 모르겠음.
3. TranAD (2022, VLDB)
- Anomaly Transformer의 개념과 마찬가지로 timestamp 단위의 정보와 window 단위의 정보를 모두 반영하여 시계열 이상탐지에 특화된 모델을 제안
- Adversarial training 방식을 통해 정상/이상을 분류하고자 하는 방법론이며, 모델 구조에서 하나의 Encoder와 두 개의 Decoder는 Transformer에서 차용하였음
- 궁금한 부분 : model-agnostic meta learning(MAML)을 추가하여 학습하였는데 적용 전/후의 소요 시간 및 성능 차이가 유의미한지 궁금.

이번 세미나는 Transformer 기반의 다변량 시계열 데이터의 이상 탐지라는 주제로 진행되었다. 작년 초 입학 후 여러가지 유명한 논문을 공부하면서 Transformer 논문을 읽었었고 아는것이 턱없이 부족하던 때라(물론 지금도...) 직관적으로 와닿지 않아 이해하기 힘들었던 기억이 난다. 또한 자연어 처리였기에 내 관심 분야가 아니라고 생각하고 대략적으로만 이해하고 자세하게 공부하지 않았었는데, 이렇게 이상탐지 분야에서 Transformer가 사용되고 또 SOTA 성능을 달성하는 것을 보면 논문 하나하나를 대충 공부해서는 안되겠구나 라는 반성을 하게 된다. 뿐만 아니라 이상탐지에 관심이 있어서 Anomaly Transformer 논문도 과거에 읽었었는데 당시 자세히 이해하기 어려웠었던 기억이 난다. 이번 기회에 Transformer와 Anomaly Transformer를 보다 더 확실하게 이해할 수 있어서 굉장히 유익한 시간이었다. 지역적인 정보와 전체적인 정보를 모두 활용하는 Transformer의 방법론과 이를 통해 이상치를 탐지를 설계하고, Minimax, 가중치 조절 등을 통해 최고의 성능을 내는 것을 보면 정말 대단하다는 생각이 들었다. 그리고 두번째로 TranAD를 소개해주었는데 TranAD는 Transformer와 Adversarial 학습을 동시에 활용한 방법론이다. 조금 변형된 Encoder를 사용하는 Anomaly Transformer와는 달리 기존 Transformer의 구조를 그대로 사용하고 끝부분에 저자가 의도한 구조를 추가하여 첫번째로 소개한 논문 보다 조금 더 직관적으로 이해하기 쉬웠던것 같다. 결과적으로 2개의 논문 모두 다변량 시계열 이상탐지에서 높은 성능을 보였는데 Transformer의 영향력을 체감할 수 있는 시간이었던것 같다. 세미나의 구성이 Transformer 설명부터 시작하여 각 논문의 방법론에 대해서 상세하게 설명해주어 어디서 볼 수 없는 귀중한 강의를 들은 것 같다. 이번 세미나를 통해서 여러 내용을 복습할 수 있어서 좋았고 미래에 다시 이 내용을 잊어버리게 되면 찾아올 것 같다. 유익한 세미나를 준비해주신 이지윤 연구원님께 감사드리며 이상으로 세미나 후기를 마친다.

Transformer 모델 기반 다변량 시계열 이상 데이터 탐지에 관한 세미나를 청취하였다. 다변량 시계열 이상 데이터 탐지를 위해 어떠한 요소가 고려되어야 하는지, 오늘 소개된 Transformer 기반 이상 탐지 알고리듬은 그러한 요소들을 어떤 방법으로 녹여냈는지 소개되어 있다. Transformer 모델을 활용한 이상 탐지 알고리듬을 설명하기 전, 원본 Transformer 모델에 대한 내용도 소개가 되어 있어 친절한 세미나라고 생각하였다. Transformer하면 생각하는 Attention Score를 이상탐지 Score에 활용하는 개념(Association Discrepancy)을 보며 연구진들이 참 고생을 많이 했겠다고 생각이 드는 동시에 존경심을 담은 박수를 보내고 싶은 생각이 들었다. 시계열 데이터의 전역적인 연관 패턴과 국소적인 연관 패턴의 차이를 두 가지(정상과 이상) 관점 독립적으로, 치열하게 생각해본 것 같다. 이상 데이터 발생 패턴 종류에 따라 다른 의견(논리)도 있을 것 같았는데, 여러 종류의 벤치마크 데이터셋에 골고루 우수한 결과를 보이는 것을 보며 대단하다 생각했다. 두번째 방법론인 TranAD는 과거 이상 탐지 연구에서 적용되었을 법한 메인 아이디어를 트랜스포머 백본 모델에 추가 적용하였다는 느낌을 받았다. 이러한 연구처럼 기존 이상탐지 연구들 중 트랜스포머 백본 모델에 추가하면 좋을 것 같은 아이디어를 탐색해보면, 흥미로운 연구거리가 하나 등장할 것 같다는 느낌이 들었다. 좋은 세미나를 준비하느라 고생하신 지윤 누나에게 감사의 말씀을 전하며, 세미나 후기를 마치도록 한다.

본 세미나는 transformer에 대한 소개와 transformer를 다변량 시계열 이상치 탐지 task에 적용한 Anomaly Transformer, Tran AD 두 가지 모델에 대한 설명으로 이루어졌다.
우선 transformer은 encoder에서는 multi-head attention, decoder에서는 masked multi-head attetntion과 multi-head attention으로 구성된다. 그리고 encoder와 decoder에서 모두 positional encoding을 통해 순차성을 부여하게 된다. 큰 특징이라고 생각된 점은 decoder에서 masked multi-head attention을 통해 미래의 정보는 사용하지 않고(masked) 현재 주어진 정보들만 사용한다는 점과 encoder의 key, value 값들을 사용하여 encoding 정보를 고려한다는 점이었다. Anomaly Transformer은 이러한 transformer 구조에서 encoder만 가져와서 사용한다. prior-association을 통해 지역적인 시계열 특징을 반영하고 series-association을 통해 전반적인 시계열 특징을 반영한다. 이 두 association 차이를 KL Divergence를 통해 연산하여 Loss식과 anomaly score 식에 활용한다. 최종적으로 다양한 이상치 탐지 모델들과 비교 실험을 진행했고 비교했을 때 현저히 높은 성능을 도출했다. Trans AD는 이와 달리 transformer의 encoder와 decoder를 모두 사용하는데 일반적인 transformer 전체 구조를 해당 모델의 encoder로써 사용하고 두 개의 decoder를 통해 adversarial training을 진행하는 것이 가장 큰 특징이라고 할 수 있다. 이러한 adversarial training을 통해 이상과 정상을 더 잘 구분하도록 한다. 이 모델의 논문은 Anomaly Transformer와 비슷한 시기에 출간되어 두 모델끼리의 비교는 이루어지지 않았지만 이 모델 역시 다른 이상치 탐지 모델들과 비교 실험을 진행했을 때 역시나 현저히 좋은 성능을 도출했다.
본 세미나는 기본적인 다변량 시계열 데이터에 대한 소개부터 시작하기 때문에 이 분야를 처음 접하는 분들도 보다 쉽게 다가갈 수 있는 세미나라고 생각한다. 이전에 혼자 transformer를 학습할 때는 어렵고 이해가 가지 않는 부분이 있었는데 본 세미나를 통해 transformer에 대해 다시 복습하면서 많은 도움을 받을 수 있었다. 또한 이를 내가 연구를 진행하고 있는 다변량 시계열 이상치 탐지에 적용한 모델들을 소개해주어 더욱 유익한 세미나였다. 당장 이 모델들을 적용하기는 쉽지 않겠지만 추후에 활용하게 된다면 더 유의미한 연구를 진행할 수 있을 것 같다. 매우 좋은 세미나 자료를 만들어 큰 도움을 주신 지윤누나께 감사드리며 이상 본 세미나 후기를 마친다.

이번 세미나는 Transformer-based Anomaly Detection in Multivariate Time Series에 대하여 설명을 해주었다. 우선 기본 Transformer에 대하여 자세하게 설명을 해주었는데, 세미나를 통해서 Transformer에 대하여 기억을 되살릴 수 있었다. Transformer를 활용한 논문 2가지를 소개해주었다. 첫 번째로는 Anomaly transformer이다. 해당 방법은 시계열의 특성을 반영하여 지역적 시계열 특징(Prior Association)과 전체적인 시계열 특징(Series Association)을 동시에 고려한 방법론이다. 방법론의 주요 포인트는 Prior Association으로, Prior과 Series 사이의 차이를 의미한다. 불량에 대해서는 Association Discrepancy가 작은 값이 나오게 되어 Anomaly를 판단 할 수 있다. 해당 논문은 이해하기 위해서 여러번 읽었으나 확실하게 이해를 못하고 대략적으로 이해를 했었던 기억이 있다. 하지만 이번 세미나를 통해서 각 단계를 시각적으로 살펴보니 이해하는데 많은 도움이 되었고, 세미나를 본 후 다시 논문을 확인 했을 때 loss function에 대해서 추상적이었던 부분을 이해할 수 있었다. 두 번째는 TranAD이며, 해당 방법은 Transformer구조와 Adversarial training을 접목시킨 방법론이다. Decoder를 2개를 지니고 있어 Adversarial training을 실시하고 정상에 대해 더욱 robust하게 학습을 진행한다. 세미나를 보면서 단어 하나하나를 신경써서 설명을 해주었다는 느낌이 강하게 들었다. 듣는 청자로써 따로 논문을 검색해서 학습을 해보지 않더라도 세미나만을 들어도 모든 단어 및 내용을 이해할 수 있도록 상세하고 꼼꼼하게 설명을 해주었다. 또한, Transformer를 기존 방법론들에 적용을 하였을 때 성능이 상승하는 것을 보면서, 다음 연구를 진행할 때는 Transformer를 활용할 수 있는 연구를 진행해보아야 겠다는 생각이 들었다. 유익한 세미나를 준비해주신 이지윤 연구원님께 감사드리며 이상으로 세미나 후기를 마친다.

금일 세미나는 Transformer에 대한 기본 개념과 Transformer를 이상치 탐지에 접목한 Anomaly Transformer, TranAD에 대해 알아보았다. 요약하자면 Anomaly Transformer는 기존의 Transformer의 Self-Attention으로 Global Feature를 뽑고, 새롭게 도입한 파라미터를 통해 Local Feature를 뽑는다. 정상 데이터의 경우 Global Feature와 Local Feature의 discrepancy가 크지 않을 것이라는 가설 하에 이상치 스코어를 정의하였다. TranAD 같은 경우 Tranformer에 Adversarial Training을 접목한 모델이다. TranAD에서 왜 Focus Score라는 것을 도입하였는지가 조금 의문이다. Focus Score가 없을 경우 어떠한 문제점이 발생하는지 잘 이해가 가지않고, Two Stage의 느낌이 들어서 Anomaly Transformer 보다는 조금 학습과 이상치 탐지 과정이 복잡해 보이기 때문에, 개인적으로는 Anomaly Transformer 부분을 조금 더 흥미있게 시청하였던 것 같다. 금일 세미나를 준비하느라 고생하신 지윤누나께 감사의 말씀을 전한다.

이번 세미나는 다변량 시계열 데이터의 Transformer-based Anomaly Detection을 주제로 진행되었다. 다변량 시계열 데이터의 이상치 탐지는 각 시점에서 이상치 여부를 판단하는 것으로 여러 시점인 순차성을 반영해야 한다는 특징이 있다. 불량과 정상의 라벨링 수행이 모호하기 때문에 데이터의 시계열성과 변수 사이의 복잡한 관계를 반영해야 한다. 본 세미나에서는 이러한 복잡한 관계를 반영하는 Transformer 기반 이상치 탐지 방법론을 다루었다.
첫번째 소개된 방법론은 Anomaly Transformer로 지역적 시계열 특징을 반영하는 Prior Association과 전반적인 시계열 특징을 반영하는 Series Association을 정의한 방법론이다. 두 Association의 유사성 지표인 Association discrepancy를 제안 및 minmax 전략을 통해 학습한다. 두번째 소개된 방법론은 TranAD로 두 개의 디코더를 사용하여 Adversarial 훈련을 하는 방법론이다. 첫 번째 디코더는 진짜 같은 가짜 데이터를 생성(=구축)하여 차이가 작아지도록 학습, 두 번째 디코더는 진짜 데이터와 가짜 데이터를 구별하도록 학습한다.
Anomaly Transformer 논문의 경우 예전에 이해를 시도하다가 어려움을 겪어서 끝까지 읽지 못한 경험이 있는데 Transformer 개념부터 설명해주는 해당 세미나를 통해 완벽하게 이해할 수 있었다. Transformer 도입을 통해 이상치 탐지 분야에서 SOTA 성능을 보이는 것이 매우 인상 깊었으며, 자세하고 심도 깊게 세미나 자료 준비해준 이지윤 연구원님께 수고했다는 얘기를 전하며 세미나 후기를 마친다.

이번 세미나는 "Transformer-Based Anomaly Detection in Multivariate Time Series" 주제로 지윤이가 발표하였다. 일단 장표와 발표의 퀄리티부터 대박이다. Transformer는 NLP 분야에서 큰 성공을 거둔 확장 가능한 방법론으로써 Vision, Time Series 데이터에서도 많은 연구가 이루어지고 있다. 이번 세미나는 Transformer을 사용한 이상 탐지 방법론을 소개하였다. Anomaly Transformer와 TransAD를 소개하였으며 특히 Anomaly Transformer에서 제안한 지역적 시게열 특징과 모든 시점 관의 관계를 활용하여 전반적인 시계열 특징을 반영해 개선했다는 점이 재미있었다. 이 연구는 Self-Attention 메커니즘을 활용하여 지역적 특징과 전반적인 특징 간의 KL Divergence를 사용하고 Reconstruction Loss를 활용한다는 것이다. 이번 세미나는 Transformer에 대해 복습할 수 있었던 점과 Anomaly Detection에 어떻게 적용되고 있는지 알아볼 수 있는 유익한 시간이었다.

이번 세미나는 다변량 시계열 데이터의 Transformer-based Anomaly Detection을 주제로 진행되었다. 총 세가지 논문을 소개해주었는데 Transformer 기본 논문과, Transformer를 시계열 이상치 탐지에 적용한 Anomaly Transformer와 TranAD 를 소개해주었다. 이번 세미나를 통해 딥러닝 초보로써 Transformer 에 대해 논문을 처음 읽었을때 막막함을 어느정도 해소할 수 있었고 향후 연구주제로 다변량 시계열 데이터에 다양한 방법론을 적용 하는데 있어 Anomaly Transformer 를 적용해보고자 논문을 읽고 있었는데 이부분에 대해 자세한 설명을 들을 수 있어 좋았다. 현재 공부중인 논문이 Anoamly Transformer 여서 이부분에 대해서 요약해 보자면 기존 RNN 기반 시계열 데이터 분석 방법론은 불량이 희소하고 정상이 다수인 시계열 특성상 Anomaly data 가 묻히는 경향이 있는데, Transformer 구조를 통해 이부분을 개선한 점이 특징이다. 또한 시계열 데이터의 인접한 데이터 특징을 반영한 Prior Association과 어텐션 매커니즘인 Series Association 을 결합해 Association Discrepancy 를 산출하고 Reconstruction Loss 와 결합해 Anomaly Score 를 산출하는 방식이 신선했다. 또한 학습 시 Prior-Series Assocication 간 학습 방향이 반대라서 한쪽 Weight 가 업데이트 안하는 방식으로 학습해나가는 방법도 재미있었다. 혼자서 공부하기 어려웠던 부분에 대해 상세히 설명해 준 이지윤 연구원께 감사드리며 세미나 후기를 마친다.