- 2023년 11월 2일 오후 11:49
- 조회수: 24187
INFORMATION
- 2023년 11월 3일
- 오후 12시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
청취자 후기

이번 세미나는 "Knowledge Distillation for Anomaly Detection"을 주제로 진행되었다. 우선, 이상 탐지는 비정상 샘플을 감지하는 방법을 말하며, 이상 혹은 비정상의 종류는 3가지(Novelty, Anomaly, Outlier)로 분류되고 있다. 이러한 이상을 탐지하는 방법에는 우리가 흔히 접할 수 있는 밀도, 거리 기반 방법(밀도 또는 거리 척도를 사용하여 Majority 군집 생성, 군집과 떨어져 있다면 이상으로 판단) 또는 reconstruction error 기반 방법(입력 데이터를 복원하여, 복원된 데이터와 입력 데이터 간 reconstruction error가 설정한 임계값보다 큰 경우 이상치로 판단)이 존재한다. 본 세미나에서는 이러한 이상 탐지 방법에 knowledge distillation(학습이 잘 된 teacher model의 지식을 좀 더 작은 모델(student model)로 전달)을 적용한 3가지 방법에 관해 소개되고 있다. 먼저, "Distilling the knowledge in a neural network"는 knowledge distillation 개념을 딥러닝 모델에 처음 적용한 연구이며, 작은 모델(student model)을 효율적으로 학습하기 위해 soft target을 사용한다. soft target은 기존에 큰 모델을 학습하기 위해 사용했던 hard target에 비해 더 많은 정보를 줄 수 있는 장점이 존재한다. 두 번째로, "Uninformed students: Student-teacher anomaly detection with discriminative latent embeddings"는 knowledge distillation 기반 이상 탐지를 처음으로 제안한 연구이다. 이상 점수를 측정하는 과정이 기존에 알고 있던 방법들고 상이하여 흥미롭게 들을 수 있었다. (이상 점수 측정 방법: student model은 정상으로만 학습했기 때문에 비정상 이미지를 한 번도 본 적이 없다. 따라서, 비정상 이미지가 들어왔을 때 Teacher network와는 당연히 다른 반응을 보일 것이고, 각각의 student network마다도 상이한 결과를 출력할 것이다. 이러한 점에서 student network 예측값의 분산 그리고 teacher network의 예측값과의 에러 값을 더하여 이상 점수를 도출하게 된다.) 마지막으로, "Multiresolution knowledge distillation for anomaly detection"은 2번째 논문에 대한 local minimum 문제(마지막 layer 지식만 전달하기 때문에 발생)와 localization과 detection 성능 저하 문제(patch 크기 제한)를 제시하고 Intermediate layer를 사용하고 이미지 단위로 학습하여 해당 문제들을 개선한 연구이다. 이상 탐지에 knowledge distillation을 적용한 연구를 살펴본 적이 없었는데, 본 세미나를 통해 새로운 개념을 알 수 있어 유익했다. 유익한 세미나를 준비해 준 민지 누나에게 감사드리며 이상으로 세미나 후기를 마친다.

이번 세미나는 Anomaly Detection에 Knowledge Distillation을 적용한 연구사례들에 대해 진행되었다. Knowledge Distillation은 일반적으로 Teacher모델과 Student모델로 구성되며, 최종적으로는 Teacher모델과 성능은 유사하면서, 파라미터 수가 적은 Student모델을 만드는 것이 목표가 된다. 본 세미나에서는 이러한 Knowledge Distillation을 Anomaly Detection에 적용한 2가지 연구 사례들을 소개한다.
1) Uninformed Students: Emsemble 및 다양한 Loss Function을 활용했다는 특징을 갖는다. Emsemble은 Inference 시, 차원을 낮췄다가 다시 유지시키는 과정에서 발생가능한 해상도 문제를 최소화하기 위해 적용되었다. 더불어, Teacher Network 학습 시, Knowledge Distillation Loss, Metric Loss(Contrastive Loss랑 비슷), Compactness Loss(각 Feature의 상관관계 최소화)를 활용했다는 특징을 가진다. 또한 Knowledge Distillation은 단순히 Student 와 Teacher Network Output 간 차이를 최소화하는 목적함수로 학습한다고 한다. 개인적으로는 Student Network에 Distillation하는 과정에 집중하여 논문이 소개될 줄 알았는데, 오히려 그 부분은 다소 미비했고, Teacher Network 학습에 대한 상세한 소개가 된 점이 다소 의아했다.
2) Multiresolution Knowledge Distillation for Anomaly Detection: 가장 큰 특징은 중간 Feature Map도 함께 Knowledge Distillation에 활용한다는 것이다. 이전 Uninformed Students는 마지막 Layer의 정보만 활용하였기에, 중간 Layer들에 대해서는 잘 학습하지 못했다는 한계를 갖지만, 이를 효과적으로 극복하였다. 추가적으로, Loss에 유클리디안 거리 뿐만 아니라, 코사인 유사도도 함께 고려하여 Loss를 극대화 했다는 특이점도 갖는다.
이번 세미나를 통해 Anomaly Detection에 어떤 식으로 Knowledge Distillation이 적용되고 있는지 살펴볼 수 있었다. Anomaly Detection을 위한 Reconstruction Loss이 위주가 되며, 그 외 부가적인 Task가 추가되어 효과적으로 학습하는 트랜드 또한 알 수 있었다. 특히 중간 Feature Map을 함께 고려하는 아이디어는 Super Resolution Paper에도 종종 활용되는 테크닉인데, Knowledge Distillation에도 효과적이란 사실이 흥미로웠다. 또한 무언가를 새롭게 제안하는 것도 연구지만, 다른 분야의 아이디어를 가져와서 활용하는 것 또한 연구구나 라는 생각이 들었다. 유익한 세미나를 준비해준 백민지 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.

이상 탐지 분야에서도 지식 증류 관련 연구들이 활용될 수 있다는 사실을 본 세미나를 통해 처음 알게 되었다. 관련 논문이 2020년에 처음 나온 것으로 소개 되었는데 흥미로운 새 연구 분야 중 하나 같다. 분류 모델의 지식 증류는 Teacher 모델과 Student 모델 사이의 로짓, 확률 출력값 사이의 정규화를 통해 수행되지만, 이상 탐치 모델의 지식 증류는 Teacher 모델과 Student 모델 사이의 Feature 값
정규화를 통해 일어난다. 이러한 과정을 Feature regression problem이라고 부르고 Feature에 남아 있는 정보를 더욱 분명하게 하기 위해 Temperature scaling와 비슷한 전처리 혹은 학습하는 과정을 세미나에서 자세히 살펴볼 수 있었다. 최종 Task를 수행하는 Student 모델의 이상 탐지 방법은 기존 이상 탐지 방법을 많이 닮아있으니, 본 세미나에서는 어떻게 이상 탐지만의 고유한 지식 증류 방법이 설계되었는가를 집중해 청취하면 좋을 것 같다. 좋은 세미나를 준비하느라 고생하신 민지 누나에게 감사의 말씀을 전하며 세미나 후기를 마치도록 한다.

이번 세미나는 "Knowledge Distillation for Anomaly Detection"에 대한 주제로 진행되었다. Knowledge Distillation이란 지식을 증류해서 전달한다 라는 의미로 볼 수 있다. 이를 모델로 생각해보면 학습된 모델(Teacher network)로 부터 지식을 추출하여 다른 모델(Student network)로 전달하는 것을 의미한다. Knowledge Distillation 방법을 neural network에 적용할 때 주요 포인트는 Soft Target이다. 분류를 진행할 때 Teacher 모델에서는 Softmax 방법을 적용하여 class 확률값을 산출하지만, class별 확률값에서 너무 많은 차이가 발생하여, 이를 T(Temperature)라는 하이퍼파라미터로 나누어줌으로써 확률값을 Soft하게 만들어주는 Soft Target을 적용하고, 이 Target을 사용하여 Student 모델을 학습한다. 이러한 방법으로 복잡하고 큰 모델을 단순하고 작은 모델로 지식을 전달하여 추론 속도 및 컴퓨팅 소스에서 이득을 볼 수 있는 방법이다. Knowledge Distillation방법으로 Anomaly detection을 실시한 방법론에 대하여 설명해준다. 첫번째 논문에서 특징은 Student network가 이상치가 없는 데이터로 학습을 하는 것으로 생각된다. Student network의 예측된 값과 Teacher descriptor 차이를 최소화 하는 방향으로 학습이 되고, 정상으로만 학습되었기 때문에 비정상 데이터가 입력될 때 network에서 다른 값을 출력하게 되면서 이상을 탐지할 수 있게 된다. 두번째 논문에서 특징은 Anomaly dectection 시 중간 layer의 feature도 함께 사용했다는 것이다. 첫번째 논문에서는 마지막 layer만을 사용하였기에 Local Minimum 문제가 발생할 수 있다. 이를 해결하기 위해서 중간 layer의 feature를 도입하여 이상 탐지 성능을 상승한 방법이다. Knowledge Distillation를 이상탐지에 활용할 수 있는 방법을 배우게 되어 새로운 접근 방법을 깨달을 수 있었다. 또한, loss를 어떻게 조합 하는지에 따라 새로운 이상 탐지 모델을 만들 수 있다는 것을 배울 수 있었고, 고정된 방법론이 아닌 다른 분야에 사용되는 방법론을 가져와서 적용할 수 있는 눈을 키울 수 있도록 해주는 흥미로운 세미나였다. 유익한 세미나를 준비해 준 백민지 연구원에게 감사드리며 이상으로 세미나 후기를 마친다.

금일 세미나는 이상치 탐지에서의 지식 증류에 대해 진행되었다. 지식 증류(knowledge distillation)은 기존 학습 된 모델을 효율적으로 사용하기 위해 보다 작은 모델을 사용하여 성능은 최대한 유지하면서 cost를 줄이기 위한 방법이다.
이를 이상치 탐지에 적용한 두 가지 논문이 본 세미나에서 소개되었다. 첫 번째 논문은 세가지 loss를 사용하는데, 여기서 knowldege distillation loss는 사전 학습된 모델의 output과 teacher 모델로부터 얻은 descriptor의 차이를 최소화 하는 역할을 한다. 이 후 student 모델을 활용하여 regression error, predictive variance를 통해 이상치 스코어를 정의한다. 이상치에 가까울 수록 이 두 값 모두 커진다는 특징을 가지고 있다.
두 번째 논문은 마지막 layer 뿐만 아니라 중간 layer들의 feature를 같이 활용한다는 특징을 가지고 있다. 이는 마지막 layer의 정보만 활용하면 local mimum에 빠질 수 있다는 문제가 있기 때문에 중간 layer들의 정보를 추가로 활용하여 해당 문제를 해결하기 위함이다. 이 논문에서는 비슷한 맥락의 knowledge distillation loss와 각 layer마다의 source network, cloner network 벡터들의 유사도를 같이 고려하여 최종 loss 식을 정의하였다. 한 가지 의문점은 ablation study 결과에서 이 두가지 loss를 같이 사용하는 것이 제일 좋지는 않았다는 것이다.
이전에 프로젝트를 하면서 자연어 분야에 지식 증류를 적용한 DistilBERT를 사용한 경험이 있다. DilstilBERT에서는 최대한 기존 BERT의 성능은 유지하면서 연산 속도의 향상을 강조했던 것으로 기억하는데, 이상치 탐지에서는 강조하는 부분이 다른 것 같다는 생각을 했다. 접해보지 못했던 내용을 새롭게 알아볼 수 있어서 개인적으로 신기하면서 좋은 세미나였다고 생각하고, 유익한 세미나를 준비해주신 민지누나께 감사하다는 말씀을 전하며 본 세미나 후기를 마친다.

이번 세미나는 이상탐지에 Knowledge Distillation 개념을 적용한 연구를 소개하였다. 먼저 Novelty와 Anomaly, 그리고 Outlier의 정의에 대해서 간략하게 짚고 넘어가면서 세미나를 시작했다. 여러번 듣지만 듣고나서 나중에 설명 하라고 하면 헷갈리는 개념인것 같아서 다시금 되새기는 기회가 되어 좋았다. 기본적인 이상탐지 방법론과 Knowledge Distillation의 간단한 개념을 예시를 들어가며 설명하였다. 첫번째로 소개한 논문은 이상탐지 분야에 Knowledge Distillation을 최초로 적용한 논문이다. Students 모델은 여러개로 Ensemble로 구성하고 Anomaly-free한 데이터만 사용하여 학습을 진행하게 된다. 그러면 Teacher와 Students 모델간의 차이(Regression error, variance)로 이상을 탐지하며 차이가 크면 이상, 차이가 적으면 정상이라는 개념으로 이상탐지를 수행하게 된다. 두번째 논문은 첫번째 논문에서 마지막 Layer만 사용하는데 중간 Layer도 사용하는것으로 이는 마지막 Layer만 사용시 Local Minimum이 발생할 수 있기 때문이라고 한다. 그리고 제한된 Patch 크기를 사용한 첫번째와 달리 이미지 단위로 학습을 진행하여 Localization과 Detection 성능 저하를 해결하였다고 한다. 또한 Anomaly Localization을 위해서 미분 값을 활용하게 되는데 기울기를 증가시키는 영역이 비정상일 것이기 때문에 이상이 있는 부위를 표시할 수 있게 되는 것이 신기하였다. Knowledge Distillation이라는 분야는 알고 있었지만 깊게 공부해본적이 없고, 이상탐지에 해당 방법론이 적용되는것 또한 이 세미나를 통해서 처음 접할 수 있어서 유익한 시간이었다. 다만 Knowlege Distillation이라는 분야 자체가 성능이 좋고 방대한 모델이 사용될 수 없는 제한적인 상황에서도 사용할 수 있도록 보다 경량화된 모델로 지식을 전달하는 개념으로 알고 있었는데 이러한 컴퓨팅 리소스와는 상관없이 가장 높은 성능을 내는 것인지 궁금했다. 이처럼 유익한 세미나를 준비해준 백민지 연구원에게 고맙다는 인사를 전하며 이상으로 세미나 후기를 마친다.

이번 세미나는 "Knowledge Distillation for Anomaly Detection" 주제로 진행되었다. 이 세미나를 통해 기존의 Knowledge Distillation에 대한 기초 개념뿐만 아니라, 이상 탐지 분야에서 이를 활용하는 방법에 대해 배울 수 있었다.
세미나에서 소개해 준 논문 중 Uninformed Students 논문이 매우 흥미로웠다. 기존의 딥러닝 모델을 사용한 Anomaly Detection은 주로 Reconstruction Error를 활용하여 설계된다. 이 방식은 정상 데이터를 Reconstruction하도록 학습한 모델을 통해 모델이 학습하지 않은 비정상적인 패턴인 Anomaly 데이터의 Reconstruction이 클 것이라고 가정하고 Anomaly Detection을 수행한다. 그러나 실제로는 모델 학습 과정에서 오직 정상 데이터의 Reconstruction만을 학습하게 되므로 Anomaly 데이터에서 Reconstruction 큰 차이를 보이도록 모델이 설계되지 않을 수도 있다는 한계가 있다. 이 논문에서는 Teacher-Student 구조의 Knowledge Distillation을 활용하여 모델이 학습하지 않은 Anomaly 데이터에 민감하게 반응하도록 하는 방법을 제안한다. 이 방법은 큰 골자에서 넓은 데이터 분포를 학습한 Teacher Network와 데이터의 특정 부분만을 학습한 Student Network의 예측 Regression 차이를 활용하여 Anomaly Score를 계산하는 것을 기반으로 한다. 이런 방식으로 Knowledge Distillation과 Anomaly Detection의 개념을 연결한 아이디어가 매우 흥미로웠다. 세미나를 통해 이러한 새로운 접근 방식을 배울 수 있었고, 알고 있는 여러 개념들을 어떻게 연결하여 새로운 지식으로 확장시킬 수 있는지에 대한 고민을 다시금 해볼 수 있는 기회였다.
유익하고 귀중한 세미나를 준비해 준 백민지 연구원에게 고마움을 표한다.

금일 세미나는’knowledge distillation for anomaly detection’에 대해 내용을 다루었다. Knowledge distillation이란 큰 모델의 지식을 작은 모델에 전달하는 방법인데, 이는 주로 모델의 경량화를 위해 사용된다. 해당 세미나에서는 knowledge distillation을 anomaly detection에 적용한 2가지 방법론에 대해 설명한다
[1] Uniformed Student: anomaly detection에 knowledge distillation을 처음 적용한 논문이다. 주요 특징으로는 student model을 여러 개 student model의 앙상블로 정의하였다는 점이다. 이는 해상도 문제를 해결하기 위함이라고 한다. 더하여 knowledge distillation loss, metric loss, compactness loss이 세가지 term으로 구성된 loss를 바탕으로 teacher model을 학습하였다고 한다. 그리고 student model 학습 시에는 regression error와 variance erorr로 구성된 anomaly score를 사용하였는데, 비정상 데이터라면 regression값과 variance가 크게 나타나는 형태이다.
[2] Multiresolution Knowledge Distillation for Anomaly Detection: 기존 모델들은 마지막 layer만 사용한 반면 해당 논문에서는 중간층에서 나온 feature들을 바탕으로 knowledge distillation을 수행하였다. 또한 patch 단위가 아닌 이미지를 그대로 사용하여 성능 향상을 도모하였다.
현재 인공지능 모델은 성능도 중요하지만 효율성과 실용성을 위해 연산량을 줄이는 연구들이 많이 진행 중이다. 특히 이를 위해 knowledge distillation 방법들이 많이 활용되는데, 이번 세미나를 통해 knowledge distillation은 물론 이상치 탐지 기법들에 대한 지식도 기를 수 있어 매우 유익하였다. 이런 유익한 세미나를 준비해주신 민지누나께 감사의 인사를 전하며 세미나 후기를 마친다