- 2023년 3월 31일 오후 8:40
- 조회수: 15378
INFORMATION
- 2023년 3월 31일
- 오전 12시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
청취자 후기

우리 연구실의 주요 연구주제 중 하나인 semi-supervised learning를 불균형 데이터의 분류 성능 측면에서 다룬 3개의 논문이 소개되었습니다. 첫 번째 소개된 DARP는 confident가 높은 unlabeled data를 중요하게 반영하는 term을 추가한 상태에서 기존 pseudo label과 재정의한 pseudo label의 데이터 분포 차이가 최소화되도록 학습하는 방법입니다. confident가 높은 pseudo label이 정답일 가능성이 크기 때문에 confident를 기준으로 pseudo label의 중요도를 차등화 함으로써 불균형 데이터의 예측 성능을 높였습니다. 두 번째는 CReST 입니다. pseudo label의 소수 범주는 다수 범주보다 높은 predision을 갖는다는 단순한 원리를 sample의 수를 활용하여 재치있게 반영했습니다. pseudo label sample을 labeled data가 많은 범주는 적게, labeled data가 적은 범주는 많게 labeled data에 합쳐서 학습하는 방식입니다. 간단하지만 분명한 성능 향상이 있으며 기존 semi-supervised learning 기법에 모두 적용할 수 있는 장점이 있습니다. 마지막으로 FixMatch를 응용한 Asdh 입니다. 기존 FixMatch는 고정된 threshold 이상의 pseudo label만 사용했으나 Asdh는 최다 범주에 속하는 pseudo labeled data의 confidence 값을 정렬한 뒤 기준 confidence를 넘는 data의 분위수를 감안하여 모든 범주에 adaptive threshold를 정함으로써 소수 범주의 데이터에 상대적으로 많은 data sample를 반영하도록 유도합니다. 이번 세미나의 소개 내용은 제조공정 내의 이미지 검사 등 실 문제에 적용하기 매우 적합한 방법이라는 생각이 들어서 회사에서 꼭 적용해볼 계획입니다. 긴 시간 상세히 소개해주셔서 감사합니다.

현실 Data Set 특성을 반영한 Class imbalanced semi-supervised learning에 대한 연구는 매우 중요하다고 생각되며,
내 관심 연구분야인 반도체 설비 데이터기반 이상 탐지 측면으로도 연구 해야될 주제인데, 정진용 연구원께서 이 부분을 다루어 주어서 관심있게 청취하였다
Class imbalanced semi-supervised learning 이란
소량의 Labeled 데이터와 다량의 UnLabeled 데이터를 가지고 학습하는 방법으로,
클래스 불균형으로 인한 잘못된 Decision Boundry 로 학습 되는 기존 SSL 방법론들을 극복하려는 연구이다.
대표적인 SSL 방법론인 FixMatch는 Strong Augmentation을 통해 Labeled 데이터와 Unlabeled 데이터를 학습하고,
일정 Threshold 이상의 Unlabeled 데이터에 대해 Pseudo Label을 부여하는 방식으로 진행된다. 이후 Supervised 와 Unsupervised loss를 최소화하는 방향으로 학습되는 방식이다.
그러나 현실 데이터셋의 분포는 클래스별로 불균형하게 분포되어 있는 경우가 많아 이는 정상 클래스에 편향된 모델을 만들어내게 되는데,
이를 극복하기 위해 데이터셋을 의도적으로 불균형하게 조정하여 SSL 연구에 활용하거나 이러한 한계를 극복하기위한 새로운 방법론을 연구되고 있다.
Class imbalanced semi-supervised learning에서 Pseudo Labeling 을 활용한 SSL 방법론 중
DARP와 CReST는 각각 Unlabeled 데이터의 true class 분포를 고려하여 Pseudo Label을 교정하거나,
소수클래스로 분류를 잘 못하더라도 일단 분류를 하면 정확하게 분류한다는 특성을 착안해 클래스 리밸런싱을 수행하여 Pseudo Label을 적극 활용하는 방법론이다.
또한, FixMatch 아키텍처를 변형한 Adsh는 각 클래스 별로 Threshold를 유연하게 조정하여 소수 클래스에 대한 Pseudo Label 생성을 더욱 효과적으로 수행하는 방식이다.
이러한 방법론들은 현실 데이터 셋에 존재하는 클래스 불균형 문제를 해결하고, 더욱 효과적인 SSL 학습을 가능케 하여 다양한 분야에서 응용할 수 있을 것으로 기대된다.
이해하기 쉽게 설명해준 정진용 연구원께 감사드리며 이상으로 세미나 청취 후기를 마친다.

이번 세미나는 클래스 간 데이터의 수가 불균형한 상황에서 Semi-supervised Learning(SSL)이 어떻게 동작하는지에 대하여 진행되었다. SSL이 잘 동작하기 위해서는 가정이 하나 필요하다고 설명하는데, decision boundary가 low-density area에서 형성되어야 한다는 것이다. 추가적으로 찾아보니 Continuity/Smoothness/Cluster/Manifold 가정이 있다고 해서 평소에 신경쓰지 않고 SSL을 사용했었는데 관련한 가정을 찾아보는 좋은 기회가 되었다. 그리고 클래스 간 데이터가 불균형한 상태에서 SSL이 어떻게 성능이 하락하게 되는지 이해할 수 있었다. 다음으로 3가지의 방법론을 소개해주었다. 첫번째로 DARP를 소개하였는데 해당 방법론은 pseudo labeling 기법이 사용되는 모든 SSL에 적용할 수 있다고 한다. DARP는 불균형한 클래스 간 분포를 사용해서 pseudo labeling의 분포를 재조절해주는 방법으로 Convex Optimization Problem을 풀어 조정한다고 한다. 그리고 이때 각 클래스 별 실제 unlabeled data의 수를 모르는데 이를 추정하는 방법으로 해결한 것을 보고 신기하다는 느낌을 받을 수 있었다. 두번째로 CReST를 설명하였고 DARP와 같이 모든 SSL에 적용할 수 있는 방법론이라고 한다. CReST는 소수 클래스의 Precision이 높다는 것에 착안하여 pseudo labeling을 진행한다. 먼저 일반적은 SSL을 진행하여 학습하고, 그 후에 Unlabeled data에 해당 모델의 결과를 보고 소수 클래스에서 보다 더 많이 샘플링을 하는 방식으로 기존 데이터를 점차 균형적인 데이터로 만드는 과정을 수행한다. 학습을 굉장히 여러번 하는 방식이고 점차 데이터의 수가 늘어나기 때문에 연산량이 너무 많지 않나 싶었는데 단순히 2~3번만 반복하더라도 유의미하게 성능이 높아지는 결과를 내어 의미가 있다는 것을 알 수 있었다. 개인 연구할 때 비슷한 메커니즘으로 학습을 여러번하는 것을 생각하다가 너무 오래걸릴 것 같아서 포기해버린게 있었는데 역시 끝날 때 까지는 끝난 것이 아니구나라는 생각도 들었다. 마지막으로 Adsh라는 방법론을 설명하였다. 이는 FixMatch에서 threshold를 사용하게 되는데 이 값을 클래스별로 adaptive 하게 조정하는 것으로 성능 향상을 꾀한 방법론이었다. 보통 소수 클래스들은 데이터량이 많지 않으므로 threshold를 넘기가 힘들어지고 결국 학습에 사용되지 않는 악순환이 반복되는데 threshold를 동적으로 조절하면서 소수 클래스의 데이터가 pseudo labeling 되어 학습에 참여하도록 유도하여 높은 성능을 냈다고 한다. 앞서 2개의 방법론과 비교 실험한 결과 가장 높은 성능을 내는 것을 확인할 수 있었다. 현재 개인 연구를 진행하는 데이터셋도 클래스간 불균형이 심하고 이러한 불균형을 다른 방법으로 해결하고자 하고 있는데 관련한 방법론에 대해서 배울 수 있어서 유익하였고 다양한 아이디어를 얻어갈 수 있었던 것 같다. 유익한 내용으로 이해하기 쉽게 설명해준 정진용 연구원에게 감사의 인사를 전하며 이상으로 세미나 후기를 마친다.

오늘 세미나에서는 불균형한 데이터에서도 Semi-supervised Learning(이하 SSL)이 잘 작동하도록 하는 Class-imbalanced SSL 방법론 3가지를 소개해주었다.
딥러닝 모델이 좋은 성능을 내기 위해서는 많은 양의 데이터가 필요하다. 하지만 지도학습에 쓰일 다량의 Labeled 데이터는 시간과 비용 측면의 문제로 수집이 어렵다. 따라서 소량의 Labeled 데이터와 다량의 Unlabeled 데이터를 동시에 활용하는 SSL이 많이 발전되어왔다. 하지만 실제 현실에서는 클래스간 데이더 불균형 문제로 SSL 성능이 하락하게 된다. 소수 클래스 지역으로 밀린 Decision boundary가 소수 클래스 high-density area를 지나게 되면서 Unlabeled 데이터가 의미있게 사용되지 못하게 되기 때문이다.
따라서 이번 세미나에서는 클래스 불균형 데이터셋에서도 성능을 유지하는 SSL 방법론 3가지 DARP, CReST, Adsh에 대해 논문에 기반하여 자세히 설명해주었다. 먼저 Pseudo Labeling기반 방법론은 DARP와 CReST가 있는데 DARP는 Distribution을 이용하는 방법론으로 실제 Unlabeled 데이터 클래스의 분포를 따라가도록 refined pseudo label 분포를 조정하는데, 이때 refined pseudo label과 original pseudo label이 서로 너무 멀어지지 않도록 한다. CReST는 클래스 불균형 상황에서 다수에 편향된 학습으로 인해 소수 클래스 분류 성능이 저조 하지만 소수 클래스는 다수 클래스보다 높은 precision을 갖고 있는 것에서 착안하여 소수 클래스 pseudo label을 적극 활용하는 방법론이다. SSL로 학습시킨 후 Unlabeled 데이터에 pseudo label을 생성하고, 다시 클래스별로 샘플링해서 labeled 데이터에 합치는 Generation을 반복하면서 점차 불균형 데이터셋이 균형 데이터셋으로 바뀌면서 클래스가 balancing해지며 불균형 데이터셋 문제가 해소되는 방식이다. 마지막으로 FixMatch와 Class adaptive thresholding을 이용한 밥법론인 Adsh는 threshold를 초기에 설정하고 학습을 진행시키면서 FixMatch 모델로 unlabeled 데이터 최대 예측 확률을 수합하고 정렬한 뒤, Labeled 데이터에서 가장 다수인 클래스 기준으로 나머지 클래스 treshold를 결정한다. 이런식으로 treshold를 조정하면서 학습시킨 Adsh는 앞선 두 방법론들과 비교해봤을때 가장 좋은 성능을 보였다.
실제 현업에서 겪은 가장 큰 문제가 바로 Imbalanced한 데이터인데, 그를 해소할 수 있는 다양한 방법론에 대해 자세히 설명해주셔서 앞으로 클래스 간의 불균형 문제를 해결할 때 큰 도움이 될 것 같다. 이런 유익한 내용을 자세히 알기 쉽도록 단계별로 정리해서 설명해주신 정진용 연구원님께 큰 고마운 마음을 전해 드리면서 이상 세미나 후기를 마친다.

Semi Supervised Learning 기법을 활용할 때에 대한 유의점을 설명해주었다.
클래스 간 데이터가 불균형한 상태에서 SSL이 어떻게 성능이 하락하게 되는지 안내해주었다.
불규형데이터에서는 decision boundary가 low-density area에서 형성되어야 하는데, high density area를 지나게 되며, unlabeld 데이터가 제대로 사용하게 되지 못한다고 한다.
불균형 데이터에서 SSL이 잘 작동케하는 방법론 3가지에 대하여 배울 수 있었다.
Unlabeled data class의 distriburtion을 감안한 DARP와, minority class pseudo label의 precision이 높은 점을 활용한 CReST 방식, 그리고 FixMatch에서 고정된 threshold 를 adaptive 기법으로 대체한 Adshs 방식이 그것이다.
요즘 Open Set Recognition을 보면서 어떠한 logits값에 대한 threshold를 잘 반영하는 것일까?라는 고민을 하고 있었는데 threshold가 갖는 의미를 다시 한 번 상기시켜준 정진용 연구원에게 감사함을 표한다.

최근 몇년간 다양한 제조업 현장에서 AI 방법론을 적용하려고 시도를 할 때, 그 접근을 어렵게 하는 대표적인 요인 중 하나가 'labeled data를 얻기 위한 높은 비용'이었습니다. 때문에 실제 현장에서는 최소한의 labeled data를 활용하여 많은 효과를 얻을 수 있는 방법에 대한 수요가 지속적으로 증가하고 있습니다.
이번 세미나는 현실에서의 labeled data 부족의 문제를 해결하기 위해 적용된 Semi-Supervised Learning(SSL)과 그로 인해 새로운 문제점으로 떠오른 불균일한 클래스 분포(Class-Unbalanced)를 해결하기 위한 세가지 방법론에 대해 설명하고 있습니다.
기존의 대표적인 SSL 방법론으로 제시된 FixMatch는 labeled data와 unlabeled data를 함께 사용하여 모델을 학습시키되, labeled data에 대해서만 loss를 계산하고 이를 일정한 threshold와 비교한 후 unlabeled data에 대한 예측 결과를 수정합니다. 하지만 FixMatch에 사용된 데이터는 학습에 적합한 균일한 클래스 분포를 갖는 데이터셋으로 현실에는 적합하지 않다는 제한점이 있으며, 클래스 분포가 불균일할 경우 다수 클래스로 인한 분류경계선 편향으로 인해 학습 성능이 하락한다는 단점이 있습니다. 따라서 클래스 불균형 데이터셋에서도 성능을 유지하면서 labeled data가 많이 없더라도 unlabeled data를 이용하여 성능을 높이는 연구가 필요합니다.
클래스 불균형의 해결을 위해 연구된 세가지 방법론이 소개되었습니다.
1.DARP : unlabeled data true class 분포를 활용하여 pseudo label 개선. pseudo-label을 사용하여 모델을 학습시키고 다시 refine 하는 과정을 거치며, refined label과 original pseudo label이 간의 분포 차이(distribustion gap)를 줄이는 방향으로 학습
2. CReST : 소수 class pseudo label를 적극 활용. Generation별 step을 따라 Self-training 방식으로 모델을 학습시켜 class re-balancing
3. Adsh : 클래스별 threshold를 조정하여 불균형한 학습을 개선. 기존 FixMatch를 응용하여 고정되었던 threshold를 class adaptive thresholding 기법으로 대체
제시된 세가지 방법론 모두 클래스 불균형 데이터셋에서도 향상된 성능을 보여 앞으로 실제 현장에서 다양한 응용을 기대할 수 있을 것 같습니다.
이번 세미나를 통해 최근 가장 활발하게 연구되고 있는 SSL 관점 방법론들이 현실에 적용되었을 때 만날 수 있는 클래스의 불균형 문제에 대한 인식과 이를 해결하기 위한 방법론을 배울 수 있어서 매우 유익했으며, 앞으로 진행될 개인연구에도 다양한 관점에서 접근해 볼 수 있는 시각을 얻을 수 있었습니다. 또한, AI 방법론의 적용을 통해 비용을 줄이고 새로운 효과를 얻으려 했으나 오히려 높은 labeling cost가 요구되는 상황에 의해 딜레마에 빠졌던 현업 엔지니어로써도 앞으로도 지속적으로 고민해 볼만한 주제인 것 같습니다. 자세한 설명을 바탕으로 세미나를 진행해주신 정진용 연구원께 감사드립니다.

이번 세미나는 Class-imbalanced Semi-supervised Learning를 주제로 진행되었다. 현실에서 발생하는 클래스 불균형 상황에서 Unlabeled data를 활용하는 준지도 학습 연구에 대해 소개되었다.
첫 번째 소개된 논문 DARP는 pseudo labeling을 활용하는 방법론으로 Unlabeled data true class 분포를 활용하여 pseudo label을 생성하여 편향을 개선하는 방법론이다. 두 번째 소개된 논문 CReST는 적은 비율을 가진 클래스인 경우 pseudo label 개수를 늘려서 생성하여 labeled data와 합쳐서 class re-balancing을 하는 self-training을 활용한 방법론이다. 세 번째 소개된 논문 Adsh는 클래스 별로 불균형 상황을 반영하여 adaptive thresholding을 하는 방법론이다.
클래스 불균형 상황에서 준지도학습을 다루는 연구가 있다는 것을 해당 세미나를 통해 알게 되었는데, 현실 세계에 매우 중요한 연구 분야라는 생각이 들었다. 이해를 쉽게 돕게 하기 위해 시각화에 열심히 노력한 좋은 세미나 준비하느라 고생했다고 정진용 연구원에게 얘기를 전하며 세미나 후기를 마친다.

준지도학습 알고리즘이 데이터 불균형 상황에서 효과적이지 않을 수 있음을 밝히고, 개선을 해나간 연구들을 새롭게 알게 되어 좋았다. 클래스 불균형으로 인해 Unlabeled 데이터의 예측 결과가 어떤 방식으로 편향되게 되어 Semi의 성능을 떨어트리게 되는지 구체적으로 소개되어 있어 유익하였다.
본 세미나에서는 DARP, CReST, Adsh라는 3가지의 알고리즘에 대해 소개되어 있는데, 알고리즘에 대한 구체적인 설명에 앞서 핵심 아이디어를 최대한 직관적으로 설명해주어 이해하기가 쉬웠다. 3가지 알고리즘에 대한 설명을 들으며 느꼈던 점은 EDA(Logging)를 잘해야 연구 개선 실마리를 잡기 쉬워진다는 것이다. CReST가 소수 클래스의 성능 특성을 꼼꼼하게 확인하지 않았다면, Adsh가 임계값을 넘겼었던 Unlabeled 데이터의 클래스 분포 확인과 클래스별 Max Probability에 대한 Logging을 하지 않았다면, 등등 논문이 쉽게 출간되지 않았을 거라고 생각된다. 제안 방법론의 성능이 개선됐는지에 대한 여부만 확인하는 습관을 버리고 세부적으로 이것 저것 Logging하면서 제안 방법론이 잘 작동하고 있는지에 대한 것들을 꼼꼼히 확인해보려 한다.
좋은 세미나를 준비하느라 많이 고생한 진용이 형에게 감사의 말씀을 전하며 세미나 후기를 마치도록 한다.

이번 세미나는 데이터가 불균형한 상황에서 준지도학습을 적용한 방법론들에 대해 진행되었다. 사실 대다수 벤치마크 데이터는 균형 잡힌 상황을 가정하여 실험한다. 하지만 현실 데이터는 그러하지 않다. 이상치 탐지 문제만 생각하더라도, 이들은 이상치 개수가 매우 적다. 과연 이처럼 불균형한 상황에서 준지도학습이 만능일 것인가? 물론 Unlabeled 데이터를 사용하기에 효과적이라고 한다 (63p). 하지만 기존의 준지도학습 연구들은 클래스가 균형 잡힌 상황을 가정했기에 클래스 불균형 상황을 잘 반영할 수 있다면, 기존의 준지도학습보다 발전된 성능을 보여줄 것이다. 본 세미나는 이러한 방법론 3개(DARP, CReST, Adsh)에 대해 다룬다.
(1) DARP: 이는 기존에 활용하던 Pseudo-label을 변형하여 활용한다. 불균형한 데이터로 학습된 모델에서 나온 Pseudo-label이기에, 편향된 학습결과를 보완하고자 한다. 이때, 전체 Unlabeled 데이터에서 해당 Class를 가진 데이터의 개수를 활용한다. 하지만, 전체 Unlabeled 데이터의 개수는 알 수 없다. 따라서 본 연구에서는 이들을 추정하여 활용한다. 이때 각 Unlabeled 데이터의 각 Class별 모든 Softmax 결과값을 Sum하여 각 Class별 분포를 추정한 값과 균형 잡힌 데이터(학습전에 일부 떼어놓음)로 추론한 결과를 추가적으로 반영한다.
(2) CReST: 이는 Self-training 시, Pseudo-labeling하는 개수를 Class별로 조절하여 진행한다. 다수 Class는 적게, 소수 Class는 많이 Pseudo-labeling하여 최대한 균형 잡힌 Self-training 방법론을 구축한다.
(3) Adsh: 해당 방법론은 Threshold를 조정하며 학습한다. 마치 FlexMatch를 연상시키는 방법론이다. 이는 다수 Class를 기준으로 Threshold를 넘는 Index를 찾은 후, 다른 Class에서도 해당 비율만큼만 활용하자는 것이 핵심이다.
기존에는 Class 균형이 잡힌 상황에서 준지도학습을 적용한 사례에 대해 공부했었는데, 이러한 문제상황을 추가적으로 부여한 연구는 처음 접해보았다. 개인적으로 준지도학습에 대해 연구했던 경험이 있기에 꽤나 재미있게 들었으며, Class별로 Pseudo-label을 미세하게 조정한다거나, Class별로 Pseudo-label 활용여부를 다르게 가져가는 접근법이 인상깊었다. 추후에 실제 데이터를 접할 수 있는 프로젝트나 공모전을 할 때, 한 번 쯤은 다시 돌아올 것 같은 세미나였다. 좋은 세미나를 준비해주신 정진용 연구원님께 고맙다는 말을 전하며 이상으로 세미나 후기를 마친다.

이번 세미나는 준지도 학습에서 클래스간 불균형이 존재할 때 적용할 수 있는 방법론들에 대해 진용이형이 소개해주었다.
준지도 학습은 다량의 unlabeled data를 효율적으로 사용함으로써 좋은 성능을 도출하고 있다. 많은 연구들에서 클래스간 불균형이 존재하지 않는 데이터를 사용하고 있지만 실제 데이터들은 그렇지 않은 경우가 많다. 이러한 클래스 불균형 문제 상황에서 준지도 학습을 효율적으로 적용할 수 있는 연구 3개(DARP, CReST, Adsh)가 이번 세미나에서 메인으로 소개되었다.
그 중에서 가장 인상 깊었던 연구는 Adsh이다. 해당 연구는 pseudo labeling을 진행할 때 소수 클래스들의 그에 대한 확률 값이 threshold를 넘지 않는 경우들을 보완하기 위해 adaptive threshold 테크닉을 적용하였다. 가장 다수인 클래스에서 초기 설정된 threshold를 넘지 못한 경우들의 비율을 계산하고 다른 클래스들에서 이 비율에 해당하는 인덱스의 확률 값을 통해 새로운 threshold를 구한다. Threshold를 조정함으로써 소수 클래스들에 대해서도 pseudo label을 보다 용이하게 얻을 수 있게 되고 이를 학습에 사용할 수 있게 된다.
프로젝트를 하면서 실제 데이터를 접할 때도 클래스간 불균형이 존재하는 경우를 직접 경험했었고 unlabeld data가 다수 존재하는 경우도 실제로 빈번하기 때문에, 이러한 문제점을 해결하고자 한 연구들은 실제 상황에서 매우 유의미하다고 생각한다. 특히, task는 다르지만 시계열 이상치 탐지에서 threshold를 조정하는 방법에 대해 개인 연구를 진행하고 있어 Adsh 방법론의 adaptive threshold 테크닉이 나에게는 제일 흥미롭게 다가왔다. 복잡하게 느껴질 수 있는 방법론들에 대해 이해하기 쉽게 세미나를 진행해주신 진용이형께 감사드리며 본 세미나 후기를 마친다.

이번 세미나는 Semi-supervised Laerning(SSL)에서 불균형 데이터를 가지고 있더라도 잘 작동하게 만들 수 있는 방법론에 대해서 소개하였다.
SSL은 현실 세계에서 다수의 labeled data를 구할 수 없기 때문에 소량의 labeled data와 다량의 unlabeled data를 합쳐서 loss를 줄이는 방식을 취하여 모델의 성능을 높이기 위한 방법이다. Unlabeled data의 augmentation을 통해 pseudo label을 생성하는데, 이 때 데이터가 불균형 하다면 다수의 클래스가 있는 쪽으로 편향된 모델을 생성하게 된다. 이렇게 데이터가 불균형 할 때에도 SSL을 수행할 수 있는 세 가지 방법론이 있다.
DARP는 unlabeled data의 클래스 별로 데이터가 얼마나 있는지 분포를 확인하여 pseudo label을 개선한다. unlabeled data의 추정값을 통해서 데이터의 불균형을 해소한다. CReST는 pseudo label을 생성하고 클래스 별로 샘플링을 해서 labeled data에 합치는 방식을 계속 취하여 re-balancing으로 클래스 불균형 문제를 해결한다. Adsh는 pseudo label 생성이 안되어 unlabeled data가 편향되게 사용되는 경우가 있기 때문에서 클래스 별로 threshold를 조정해서 불균형한 학습을 개선한다.
실제 산업 현장에서는 labeled data를 구하기도 어려울 뿐 아니라 불균형한 데이터가 매우 많다. 특히 반도체 공정에서 불량을 감지하고 싶을 경우 절대 다수의 정상 데이터와 아주 소수의 불량 데이터가 존재하기 때문에 이번 세미나에서 소개된 내용들이 많은 도움이 될 것이다. 이러한 관점에서 좋은 방법론을 설명해준 정진용 연구원께 고마움을 표한다.