- 2021년 10월 15일 오후 12:21
- 조회수: 3794
REFERENCES
INFORMATION
- 2021년 10월 15일
- 오후 1시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
요약: 대부분의 데이터와 본질적인 특성이 다른 관측치를 찾아내는 이상치
탐지 알고리즘은 오랜 시간동안 연구되어온 분야이다. 특히, 요즘은
정상 데이터만으로 학습하여 불량 탐지를 진행하는 딥러닝 기반 알고리즘들이 활발하게 연구되고 있다. 이번
세미나에서는 이상치의 정의와 이상치 탐지 알고리즘의 전반적인 연구 방향을 살펴보고자 한다. 특히, Autoencoder, GAN, Self-Supervised Learning 기반의 이상치 탐지 알고리즘들에
대하여 각각 살펴보고 비교하고자 한다.
참고 문헌:
[1] Chalapathy, R., & Chawla, S.
(2019). Deep learning for anomaly detection: A survey. arXiv preprint
arXiv:1901.03407.
[2] Pang, G., Shen, C., Cao, L., &
Hengel, A. V. D. (2021). Deep learning for anomaly detection: A review. ACM
Computing Surveys (CSUR), 54(2), 1-38.
[3] Zhou, C., & Paffenroth, R. C.
(2017, August). Anomaly detection with robust deep autoencoders. In Proceedings
of the 23rd ACM SIGKDD international conference on knowledge discovery and data
mining (pp. 665-674).
[4] Schlegl, T., Seeböck, P., Waldstein, S.
M., Schmidt-Erfurth, U., & Langs, G. (2017, June). Unsupervised anomaly
detection with generative adversarial networks to guide marker discovery. In
International conference on information processing in medical imaging (pp.
146-157). Springer, Cham.
[5] Akcay, S., Atapour-Abarghouei, A.,
& Breckon, T. P. (2018, December). Ganomaly: Semi-supervised anomaly
detection via adversarial training. In Asian conference on computer vision (pp.
622-637). Springer, Cham.
[6] Li, C. L., Sohn, K., Yoon, J., &
Pfister, T. (2021). CutPaste: Self-Supervised Learning for Anomaly Detection
and Localization. In Proceedings of the IEEE/CVF Conference on Computer Vision
and Pattern Recognition (pp. 9664-9674).
발표자 후기

이번 세미나는 'Introduction to Anomaly Detection'의 주제로 진행하게 되었다. 개인적으로 이상치 탐지의 여러 방법론들을 정리하고 공유하고 싶은 마음에 해당 주제로 선정하였다. 세미나를 준비하면서 이상치 탐지 분야가 생각보다 다양한 방향으로 발전하고 있음을 느낄 수 있었다. 그만큼 많은 내용을 공부하고, 다른 사람들에게도 전달할 수 있는 계기가 되어 개인적으로도 의미 있는 세미나였다고 생각한다. 세미나 준비에 많은 도움을 주신 연구원분들에게 감사드립니다.
청취자 후기

이번 세미나는 ‘Anomaly Detection’ 에 대해 진행되었다.
‘이상행동 탐지’에 관한 개인 연구를 하고 있던 터라 더욱 관심 깊게 청취하였다. 본 세미나에서는 비지도학습 기반 알고리즘에 대해 중점적으로 다루고 있다. 일반적으로 훈련 및 테스트 데이터를 구성할 이상치 데이터가 충분하지 않기 때문에 지도학습으로 이상 감지가 어렵기 때문에 준지도학습 혹은 비지도학습을 통해 이를 해결하고자 한다. 대표적으로 차원 축소 기반, 데이터 특성 기반 그리고 End-to-end 모델로 요약할 수 있고, 데이터 특성 기반 이상치 탐지 방법론으로 Autoencoder, GAN, Self-Supervised Learning 활용한 방법론으로 접근할 수 있다.
먼저, Autoencoder 기반 이상치 탐지는 Autoencoder 모델의 기본 구조인 입력된 데이터의 특성을 요약하는 인코더와 요약된 정보를 복원하는 디코더 형태로 구성되며, 정상 관측치들은 불량 관측치보다 우수하게 복원될 것이라는 가정을 두고 있다. 따라서, 입력 데이터와 복원된 데이터 사이의 차이를 계산하는 재구축 오차를 통해 특정 임계값 초과 관측치를 불량으로 판단하게 된다.
GAN 기반 이상치 탐지는 생성 모델의 대표 방법론인 DCGAN을 바탕으로 AnoGAN, GANomaly 등의 방법론이 존재한다. 정상 이미지가 들어오면, 생성 이미지와 큰 차이가 없기 때문에 작은 이상치 점수를 부여하지만, 불량 이미지가 들어올 시, 정상을 기반으로 생성되는 이미지와 큰 차이로 인해 이상치 점수가 높아지게 된다.
마지막 Self-supervised 기반 이상치 탐지까지 종합하면 결국 이상치 탐지 알고리즘은 정상데이터만의 분포와 특징을 파악한 후, 새로 들어온 데이터 내 불량 데이터를 찾는 과정이다.
세미나에서 다룬 방법론을 통해 개인 연구에 접목할 수 있도록 고민해봐야겠다는 생각이다. 이상치 탐지 알고리즘의 여러 갈래를 이해하기 쉽도록 자료 구성 및 발표를 진행해준 서연이한테 감사함을 전한다.

서연이가 정상/ 이상을 구분하는 문제인 Anomaly detection에 대한 세미나를 진행하였다. 현재 발표되어 있는 Anomaly detection 문제 해결 방식을 계층적으로 설명해주어 처음 이 분야에 접근하는 연구원들에게 좋은 자료 일 것으로 생각한다. 하지만 Autoencoder 기반, Genrative adversarial network (GAN)기반 이상 탐지 방법론 들은 문제를 가지고 있다. Autoencoder는 이상에 대해 복원할 수 없다는 가정이 존재하지만, 해당 가정들은 많은 논문들에 의해 가정이 잘못 되었다는 것이 증명되고 있다. GAN 기반 방법론은 잠재 공간 상에서 정상이 존재하는 범위를 탐색해야하는 점에서 많은 시간이 걸려 최근 연구 방향과 트렌드와 거리가 있다. 최근에는 Self-supervised representation learning 기반 이상 탐지들이 존재한다. 서연이가 진행하고 있는 개인 연구에서 Self-supervised representation learning 기반 모델링을 진행해보면 어떨까라는 생각이 든다. 정형 데이터에 해당 분야의 아이디어를 적용하는 것도 많은 연구가 진행되고 있지 않으며 거기에 Anomaly detection 까지 결합된다면 좋은 연구 방향일 것이라고 생각한다.

금일 세미나는 서연이가 데이터 특성 기반 이상치 탐지를 주제로 진행해주었다. 이상치 데이터에 대한 정확한 개념을 시작으로 세미나가 시작되었다. 이상치 탐지를 위한 3가지 맥락 방법론들이 존재하며, 이번 세미나에는 데이터 특성 기반 이상치 탐지가 중점적으로 소개되었다.
첫번째 방법론은 오토인코더 기반의 이상치 탐지 방법론이였다. 데이터에 내재된 특징 추출에 적합한 오토인코더를 이상치 데이터 파악에 활용하는 방법이다. 이상치 데이터에 내재된 특징은 정상 데이터의 내재된 특징과는 다를 것이라는 가정에 기반되어 있다. 기본적인 오토인코더부터 변이형 오토인코더, 적대적 오토인코더, 강건 오토인코더에 대한 개념과 이를 기반한 이상치 탐지 아이디어들을 소개해주었다.
두번째 방법론은 적대적 신경망 GAN을 기반한 이상치 탐지 방법론이였다. GAN도 오토인코더처럼 생성 모델의 입력 변수 내재 공간에 데이터의 특징들이 잘 요약되어 있다라는 가정을 갖고 있다. 따라서, 이상치 데이터의 본질 벡터랑 정상 데이터의 본질 벡터 사이에는 차이가 있다는 가정을 활용하여 이상치를 탐지한다. 이를 활용한 첫번째 방법론인 AnoGAN에 대한 정갈한 설명과, AnoGAN의 이상치 탐지 맥락을 end-to-end로 구현한 방법론 Ganomaly를 소개해주었다.
세번째 방법론은 자가지도학습 기반의 이상치 탐지 방법론이였다. 자가지도학습의 pre-training 부분이 데이터에 내재된 특징 학습에 효과적인 것을 이상치 탐지에 활용하였다. Cut-paste라는 방법론을 소개해주었는데, 해당 방법론은 이미지 내에 일부 영역을 잘라 다른 곳에 붙여두고 그 이미지를 이상치로 설정하여 이상치와 정상 데이터 구분 학습을 진행한다. 학습 후 이전에 소개해준 방법론들처럼 데이터에 내재된 벡터를 기반하여 이상치를 구분하게 된다.
이상치 탐지에 대한 여러 방법론들을 전반적으로 잘 소개해준 멋진 세미나였다!

이번 세미나는 ‘Anomaly Detection’을 주제로 세미나가 진행됐다. 본 세미나는 이상치의 정의를 시작으로 데이터 특성 기반 이상치 탐지 방법인 Autoencoder, GAN, Self-supervised Learning을 활용한 이상치 알고리즘에 대하여 설명했다. Autoencoder 기반 이상치 탐지는 데이터의 특성을 요약했다가 복원하는 autoencoder를 사용하는 방식이다. 기본적으로 정상 데이터들은 이상치보다 그 수가 많을 것이기 때문에, 정상 데이터를 학습한 autoencoder는 이상치가 들어오면 제대로 복원을 못할 것이라는 가정을 적용한다. 입력 데이터를 제대로 복원하지 못하면, 입력 데이터와 복원 데이터 사이의 차이가 클 것이다. 이 차이를 계산하여 임계값보다 클 때 이상치라고 판단하는 것이다. GAN 기반 이상치 탐지는 실제 데이터와 유사한 데이터를 만드는 Generator와 실제 데이터와 생성된 데이터를 구분하는 Discriminator로 구성된 GAN을 활용하는 방식이며 AnoGAN과 GANomaly 방법에 대해 설명했다. GANomaly는 AnoGAN을 더 발전시킨 end-to-end 방법으로 특히 인상깊었다. GANomaly에서는 Discriminator에서의 원본 이미지와 생성된 이미지의 차이, Generator의 원본 이미지와 생성된 이미지의 차이, Generator와 Encoder의 잠재 벡터 간의 차이를 손실 함수로 사용한다. 여기서 잠재 벡터 간의 차이를 Anomaly Score로 사용하며 값이 크게 되면 이상치로 판단하게 된다. 마지막으로 Self-supervised Learning 기반 이상치 탐지에서는 CutPaste 방법론을 소개했다. 실제 불량 이미지는 정상 이미지와 큰 차이가 존재하는 것이 아니라 작은 부분만 다르다는 가정에서 출발한 방법으로 기존 이미지의 일부분만을 다른 부분에 붙여 데이터를 증강하는 기법이다. 이상치에 대한 정의부터 데이터 특성을 기반으로 이상치 탐지에 대한 방법들까지 깔끔하게 설명해주시고 이해하기 쉽게 풀어서 설명해주셔서 감사하다는 말씀을 전한다.

이번 세미나는 'Introduction to Anomaly Detection'을 주제로 진행되었다. 이상치 데이터란 대부분의 데이터와 본질적인 특성이 다르며, 기존 분포에서 멀리 떨어져 있어 전혀 다른 방식으로 생성되었을 것으로 추정되는 데이터를 말한다. 본 세미나에서는 특정 데이터가 정상인지 혹은 불량인지 정확히 알기 어려운 상황에서 활용할 수 있는 비지도 학습 기반 이상치 탐지 방법론에 대해 주로 다루었다. 딥러닝 기반 이상치 탐지에는 크게 세 가지 접근방식, 즉 차원 축소 기반, 데이터 특성 기반, End-to-end 이상치 탐지 방식이 존재한다. 본 세미나는 이들 중 데이터의 특성을 잘 찾아내고, 학습된 경우와 다른 특성을 이상치로 판단하는 데이터 특성 기반 이상치 탐지에 초점을 맞추어 진행되었다. 해당 파트에 속하는 대표적 알고리즘으로 먼저 Autoencoder 기반 이상치 탐지 알고리즘에 대해 소개하였다. 이는 정상 관측치들은 불량 관측치보다 더 잘 복원될 것이라는 가정하에, 입력 데이터와 복원된 데이터 사이의 차이를 계산한다. 이후 계산된 재구축 오차가 특정 임계값보다 큰 경우 불량 관측치로 판단하게 된다. 다음으로 GAN 기반 이상치 탐지 알고리즘에 대해 소개하였다. 대표 방법론 중 하나인 AnoGAN은 먼저 정상 이미지만으로 학습을 진행하고, 생성기와 판별기의 학습을 멈춘 뒤 정상 이미지로부터 맞는 인풋 벡터를 생성하는 과정을 거친다. 이에 따라 최종적으로는 새로 들어온 이미지로 이상치 점수를 계산하여 불량 이미지를 판별하게 된다. 이와 함께 GANomaly는 AnoGAN에 인코더가 추가된 형태로 이미지에 대한 학습과 잠재공간에 대한 학습을 한 번에 진행하기 위해 제안된 모델이다. 마지막으로 Self-supervised learning 기반 이상치 탐지 알고리즘에 대해 소개하였다. 이는 정상 데이터와 불량 데이터 사이에 파악된 특성이 서로 다를 것이라는 가정하에, 데이터 레이블이 없는 상황에서도 데이터의 특성을 잘 학습하여 정상과 불량 이미지를 판별하는 방법론이다. 그중에서도 CutPaste 알고리즘은 정상 이미지를 기반으로 CutPaste 데이터 증강기법을 통해 가상 불량 이미지를 만들어낸다. 이후 이를 분류하는 모델을 학습시켜 데이터의 특성을 효과적으로 학습하고 학습된 데이터의 특성 벡터를 통해 이상치 탐지를 진행한다.
이상치 탐지에 관한 전반적인 설명과 함께, 기반을 두고 있는 여러 학습기법에 대한 부가 설명까지 다채로우면서도 알찬 세미나였다. 깔끔한 장표 덕분에 비지도 학습 기반의 여러 방법론들을 차분히 정리해볼 수 있었으며, 추후 다른 방법론들까지 정리해보고 싶은 마음이 들었다. 좋은 세미나를 준비해준 서연언니께 감사한 마음을 전하며 세미나 후기를 마친다.

이번 세미나는 "Introduction to Anomaly Detection"이라는 주제로 진행됐다. 이상치 탐지는 정상 데이터와 다른 특성이 있는 이상치를 판단해내는 것을 목적으로 한다. 이상치 데이터는 정상 데이터보다 극단적으로 작게 수집되기 때문에 일반적인 지도학습으로 학습하게 되면 클래스 불균형 문제로 인해 좋은 성능을 내지 못하게 된다. 이번 세미나에서는 크게 세 가지 유형의 이상치 탐지 알고리즘들에 관해서 소개되었다. 첫 번째는 오토인코더 기반의 이상치 탐지 모델이다. 정상 데이터만을 활용하여 오토인코더 모델을 학습하게 되며 새로운 데이터가 들어왔을 때 정상 데이터는 학습된 오토인코더로 잘 복원되는 반면 비정상 데이터는 잘 복원되지 못하게 된다. 이를 통해서 오토인코더를 통해 이상치 탐지를 수행할 수 있게 된다. 다음은 GAN 기반의 모델이다. AnoGAN의 경우 정상 이미지를 활용해 GAN 모델을 학습하고 새로운 이미지가 들어왔을 때 해당 이미지와 최대한 유사해지도록 하는 특징 벡터를 계산하게 된다. 정상 이미지의 경우 이를 통해 GAN 모델이 정상 이미지를 잘 생성해 낼 수 있지만, 비정상 이미지는 해당 이미지와 유사한 이미지를 생성할 수 없게 된다. 따라서 비정상 이미지는 GAN이 생성한 이미지와의 차이가 벌어지게 된다. GANomaly는 GAN과 함께 별도의 인코더를 학습한다. 이를 통해 새로운 이미지가 들어왔을 때 GAN에서 추출된 특징 벡터와 인코더에서 나온 특징 벡터의 차이를 계산해 이상치를 탐지하게 된다. 마지막으로는 self-supervised learning 기반 방법론인 CutPaste가 소개되었다. 해당 모델에서는 정상 이미지의 일부를 잘라 다른 부분에 붙이는 방식으로 가상의 불량 이미지를 생성한다. 가상의 불량 이미지와 정상 이미지를 잘 구분하는 모델을 학습한 후 새로운 데이터가 들어왔을 때 해당 모델을 통해 특징 벡터를 추출한다. 추출된 특징벡터들은 gaussin density estimation을 통해 특징 벡터들의 분포를 추정하고, 분포의 극단점에 존재하는 특징 벡터들을 불량이라고 검출하게 된다. 오늘 세미나를 통해 이상치 탐지의 다양한 방법론들에 대해 살펴볼 수 있어 의미 있는 시간이었다. 세미나를 위해 고생해준 서연이에게 감사의 뜻을 전한다.

금일 세미나는 이상치 탐지를 주제로 진행되었다. 이상치 탐지는 대부분의 데이터와 본질적인 특성이 다른 관측치를 찾아내는 것을 목표로 한다. 흔히 사용하는 지도 학습 기반 이상치 탐지 방법론에는 로지스틱 회귀 분석과 그래디언트 부스팅이 있다. 그러나 특정 데이터의 정상/이상 여부를 정확히 알지 못하면 지도 학습 기반 방법론을 적용하는데 한계가 있다. 이러한 경우에는 비지도 학습을 기반으로 하는 이상치 탐지 방법을 활용한다. 본 세미나에서는 다양한 비지도 학습 기반 이상치 탐지 방법 중 밀도를 추정하여 이상 데이터를 탐지하는 Isolation Forest와 Local Outlier Factor를 소개한다. Isolation Forest는 대부분의 데이터들에서 빠르게 분리되는 관측치가 이상치일 것으로 가정한다. 따라서 한 개체를 분리시키기 위하여 필요한 분리 횟수를 이상치 점수로 계산한다. Local Outlier Factor는 이상 관측치는 정상 관측치들과는 동떨어져 있을 것으로 가정하고, 특정 관측치 주변의 밀도로 이상치를 판단하는 알고리즘이다.
최근에는 다량의 데이터를 활용하기 위해 딥러닝 기반의 이상치 탐지에 대한 연구가 활발하다. 딥러닝 기반의 이상치 탐지 방법론들은 정상 데이터만을 활용하여 데이터의 분포를 우선 학습하고 이후 새로 들어오는 관측치들을 대상으로 임계값을 벗어나는 경우에는 이상치로 판단한다. 딥러닝 기반의 이상치 탐지 방식은 크게 차원 축소 기반의 이상치 탐지, 데이터 특성 기반 이상치 탐지, end-to-end 이상치 탐지가 있다. 특히 본 세미나에서는 데이터 특성 기반 이상치 탐지 방법론인 Autoencoder, GAN, Self-supervised learning 기반의 이상치 탐지 알고리즘들에 대해 자세히 소개한다.
이상치 탐지에 대해 개념 소개부터 대표 방법론의 작동 방식에 대한 설명까지 차근차근 이해할 수 있는 유익한 세미나였다.

이번 세미나는 Anomaly detection을 주제로 진행되었다. 일반적으로 지도 학습에서는 이상치를 0,1 판정을 통해 학습할 수 있겠지만, 레이블이 없는 경우 비지도 학습 기반 이상치 탐지가 필요하다. Isolation Forest나 Local Outlier Factor를 사용하여 정상치와는 동떨어진 representation을 찾는 방법이 있지만, 데이터가 매우 많아졌을 때 이러한 방법들은 정확도에서 한계를 갖게 되어 다양한 방법론에 대한 연구가 진행되었다. 이를 세가지 접근으로 분류하면 차원축소, 데이터 특성 추출, End-to-end가 있는데, 이번 세미나에서는 데이터 특성 기반 이상치 탐지에 집중하여 설명해주었다.
먼저 Autoencoder 기반 모델은 입력된 데이터의 특성을 요약하는 인코더와 다시 복원하는 디코더의 형태로 구성되어 원본과 복원된 데이터를 일치시키도록 학습시킨 다음, 정상치와 이상치를 input으로 넣었을 때, 정상치는 잘 복원될 것이고, 이상치는 잘 복원시키지 못한다는 가정으로 진행된다. 즉 모델이 제대로 예측하지 못하는 특이한 샘플이 이상치로 분류되도록 학습한다. 또한 이를 좀더 잘 학습하기 위해 다양한 오토 인코더 모델이 있었다. 변이형은 제약식을 추가하는 형태고, 적대적 오토인코더는 실제 데이터 분포와 만들어진 데이터분포를 비교하는 판별기를 추가한 형태이다. 나아가 Robust Pricipal Component Analysis(RPCA)방법은 PCA를 통해 저차원으로 특징이 요약된 행렬과 제거해야하는 이상치를 분리한다음 요약 행렬만을 오토인코더로 학습하면서 더 깨끗해진 데이터로 학습시킬 수 있기때문에 성능을 올리는 방법론을 소개하였다.
다음은 GAN 기반 방법론이다. 정상 이미지를 통해 학습시킨 모델에 불량 이미지가 들어왔을 때, Generator에 의해 생성된 이미지는 정상에 가깝게 만들어지기 때문에, 불량이미지와의 차이는 커진다. AnoGan은 이를 이용하여 이러한 차이가 큰 샘플을 이상치로 분류할 수 있었다.
마지막은 Self-supervised 러닝을 이용한 이상치 탐지다. 레이블이 없는 상황에서도 데이터의 특성을 잘 배우기 위해, 레이블이 없는 이미지를 영역을 나누어 영역의 위치정보와 함께 feture를 추출하고, 이를 레이블이 있는 이미지를 통해 fine tune 시켜준다. 만약 이상치 데이터가 들어왔을 때, 예상되는 위치에 제대로된 feature가 들어있지 않다면 이상치로 분류하게 되도록 작용한다. 이를 이용하여 CutPaste방식은 이미지의 일부분을 다른 위치로 붙여 이상치로 사용하는 augmentation을 제안하였다. 이는 이상치의 경우 전체가 다 이상하기 보다 일부분만 이상한 경우가 대부분이라는 현실적인 접근을 한 것인데, 이 부분이 굉장히 와닿았다.
이상치 탐지 분야는 산업적으로도 굉장히 관심이 많이가는 분야로, 우리 연구실에서도 많은 분이 연구하고 있고, 그만큼 유망한 분야가 아닐까 싶다. 나 또한 관심이 있었는데, 이렇게 쉽게 전체적인 그림을 그릴 수 있는 세미나를 들어서 감사하단 생각이 들었다. 또 직관적이고 이해하기 쉽게 설명해주면서 사용된 이미지나 화살표도 시원하게 표시되서 듣기 정말 편했다. 내용적으로도 발표로도 정말 많이배웠다. 세미나를 진행해준 서연이에게 감사의 인사를 전한다.

이번 세미나는 이상치 탐지에 대한 기본적인 내용을 서연이가 발표해 주었다. 이상치 탐지에 대한 접근법으로는 크게 차원 축소 기반 이상치 탐지, 데이터 특성 기반 이상치 탐지, end-to-end 이상치 탐지 세 가지로 나눌 수 있다. 이번 세미나에서는 데이터 특성 기반 이상치 탐지에 대한 내용으로 진행되었다.
데이터 특성 기반에서도 Autoencoder, GAN, Self-supervised learning을 활용하는 방법으로 나눌 수 있다. Autoencoder는 입력 변수를 잠재 벡터로 압축시키는 인코더와 압축된 잠재 벡터를 입력 변수로 복원하는 디코더를 가지고 있으며 데이터의 복원이 잘 이루어지도록 학습하게 된다. 이 때, 불량 데이터는 정상 데이터와 분포가 다르기 때문에 잘 복원하지 못할 것이라는 가정을 통해 이상치 탐지가 이루어진다.
GAN은 discriminator와 generator의 MinMax Game을 통해 적대적으로 학습되며 generator는 discriminator가 구별할 수 없는 가짜 관측치를 생성하는 것이 목적이고 discriminator는 진짜 관측치와 가짜 관측치를 잘 구별하는 것이 목적이다. 이를 이상치 탐지에 활용하기 위해서 정상 이미지만으로 GAN을 학습시킨다. 그리고 모델 파라미터를 고정한 뒤, generator에 원본 이미지와 유사해지도록 하는 잠재 공간을 찾는다. 이로써 정상 데이터와 유사한 잠재 공간을 알 수 있게 된다. 이 때, 불량 데이터가 들어오면 생성된 데이터와 많이 다를 것이라는 가정을 통해 이상치 탐지가 이루어진다.
마지막 접근법은 self-supervised learning이 입력 데이터의 특성을 잘 파악한다는 것을 이용한다. 정상 입력 데이터와 불량 입력 데이터의 특성은 다를 것이라는 가정을 통해 이상치 탐지가 이루어진다.이 때, 어떻게 pretext task를 이상치 탐지에 맞게 구성할지가 중요한 문제가 된다.
이번 세미나를 통해서 요즘 많이 연구되고 있는 이상치 탐지에 대한 데이터 특성 기반 접근법을 공부 할 수 있었다. 좋은 세미나를 만들어준 서연이에게 감사를 전하며 세미나 후기를 마친다.

이번 세미나는 Anomaly Detection에 관해 진행되었다. 특히 데이터 특성 기반 이상치 탐 방법론에 관하여 진행되었는데, 데이터 특성 기반 이상치 탐지란 데이터 특성을 효과적으로 학습하는 방법론에 관한 것으로 본 세미나에서는 Autoencoder, GAN, Self-Supervised Learning 기반의 방법론들이 소개되었다.
Autoencoder는 입력된 데이터의 특성을 요약하는 인코더를 거쳐 이를 잠재 벡터에 요약, 그리고 그 정보를 다시 복원하는 디코더의 형태로 구성되어 있으며 이상 데이터는 잠재 벡터 내 다른 특성을 가지고 다른 위치에 있을 것이라는 가정에 기반 되어있다.
두번째는 GAN 기반의 생성적 적대 신경망 이상치 탐지 방법론이다. 이를 활용한 방법론으로 AnoGAN과 GANomaly가 소개되었는데 AnoGAN은 먼저 정상 이미지만으로 학습을 진행하고 생성기와 판별기의 학습을 멈춘 뒤 정상 이미지로부터 어떤 잠재 벡터 값을 받아 잠재공간을 찾는 것으로 최종적으로는 새로 들어온 이미지로 이상치 점수(Anomaly Score)를 계산하는 방식으로 학습이 진행된다. GANomaly는 AnoGAN의 이상치 탐지 맥락을 end-to-end로 구현한 것으로 임의의 input 으로부터 원본 데이터를 잘 생성해내는데 의미가 있다.
마지막으로 self-supervised 기반의 방법론이었는데 이는 레이블이 없는 상황에서도 데이터의 특성을 잘 학습하기 위한 도구로써 자기지도학습의 pre-training단계에 데이터의 특성을 효과적으로 파악할 수 있다는 아이디어에서 착안된 것이다. 세미나에서는 CutPaste라는 모델을 제시하였는데 해당 방법론은 이미지 내의 일부를 떼어 다른 위치에 붙이고 그 이미지를 가상의 불량 이미지로 설정한 후 이를 이상치로 분류하도록 학습하는 방법론이다.
우리 연구실에서 이상치 탐지가 중요한 분야인만큼 유익하고 도움이 되는 세미나였다.