- 2021년 11월 19일 오후 4:56
- 조회수: 5233
INFORMATION
- 2021년 11월 19일
- 오후 1시 ~
온라인 비디오 시청 (YouTube)
황하은
TOPIC
On-Line Video
OVERVIEW
제조, 금융, 의료 분야 등 다양한 산업군에서
머신러닝 및 딥러닝 연구가 활발하게 진행되고 있다. 이때, 대다수의
데이터는 불균형한 분포를 보이는 특징을 가진다.
불균형 데이터로 인해 모델의 성능 향상을 기대하기 어렵고 일반화 성능을 확보하기 어렵다는 문제점으로 이어진다.
대표적으로 데이터 레벨과 알고리즘 레벨로 나뉘어 불균형 데이터 관련 연구가 진행되고 있다. 특히, 대부분의 연구가 반응변수가 범주형인 분류 태스크에 대하여 이루어지고 있다.
이번 세미나는 분류 태스크에서의 불균형 데이터 처리 연구뿐 아니라, 예측 태스크에서의 연구를
소개하고자 한다.
[참고문헌]
[1] Chawla, Nitesh V., et al. "SMOTE: synthetic minority over-sampling
technique." Journal of artificial intelligence research 16 (2002):
321-357.
[2] Lin,
Tsung-Yi, et al. "Focal loss for dense object detection." Proceedings
of the IEEE international conference on computer vision. (2017)
[3] Kang, Bingyi, et al. "Decoupling representation and classifier for
long-tailed recognition." arXiv preprint arXiv:1910.09217 (2019).
[4] Yang, Yuzhe, et al. "Delving into Deep Imbalanced Regression."
arXiv preprint arXiv:2102.09554 (2021).
청취자 후기
김상민
불균형 데이터란 데이터의 비율이 균일하지 않고, 한쪽으로 치우친 데이터이다. 일반적으로 소수 데이터에 해당하는 이상치에 편향된 분류 경계선이 학습되는 문제점으로 인해 일반화 성능이 떨어진다. 이러한 불균형 데이터는 크게 범주형와 연속형으로 나눌 수 있다. 범주형은 다수 클래스 및 소수 클래스로 구분 가능한 특징이 있으며, 연속형은 skewed 된 분포 및 long tail 분포와 같은 종류가 있다. 범주형에서 불균형 데이터를 다루는 연구로는 크게 data-level 과 algorithm-level 방법이 있다. 자주 접했던 random over-sampling 및 under-sampling, SMOTE 등과 같은 방법이 data-level에 속한다. 반면 손실 함수를 조정하여 클래스 불균형 문제를 해소하는 것이 algorithm-level이다.
본 세미나에서 흥미롭게 느꼈던 부분은 연속형 불균형 데이터에 대한 부분이다. 현실에서 데이터는 연속형인 경우가 많은데, 클래스의 경계가 존재하지 않아 resampling, reweighting 과 같이 범주형에서 다루는 방법론을 적용하기가 어렵다. 또한, 타겟으로 하는 값 주변 값이 많거나 적음에 따라 다른 수준의 불균형이 발생한다. 이를 인접 데이터간 유사성을 활용하거나 커널 함수를 활용하여 불균형 문제를 해소할 수 있다.
이전까지 범주형 불균형 데이터에 국한되어 이해하고 있었는데, 연속형 불균형 데이터에 대한 내용을 알 수 있어 좋았다. 좋은 세미나를 준비해준 하은이에게 감사함을 전한다.
유이경
이번 세미나는 'Handling imbalanced datasets'를 주제로 진행되었다. 불균형 데이터란 데이터 내 각각의 클래스들이 차지하는 데이터의 비율이 균일하지 않고 한쪽으로 치우친 데이터를 말한다. 일반적으로 불균형 데이터를 통해 모델을 학습할 시에는 다음과 같은 문제점을 가진다. 먼저 적은 수의 이상치에 편향된 분류 경계선이 학습됨에 따라 예측 단계에서의 오분류율이 높다. 또한 높은 정확도에도 이상 클래스에 대해서는 잘 분류하지 못해 모델 성능에 대한 왜곡을 불러일으킨다. 본 세미나에서는 이러한 문제점을 해결하기 위한 불균형 데이터 처리 방법론을 분석 목적(분류/예측)에 따라 나누어 각각 살펴보았다. 데이터 불균형 문제를 해결하기 위한 방법론은 크게 data-level 방법과 algorithm-level 방법으로 나뉜다. Data-level 방법에는 random resampling, synthetic sampling 등이 존재하며, algorithm-level 방법에는 cost sensitive learning, two stage training 등이 존재한다. 각 방법론에 대한 간단한 소개와 함께, 끝으로 연속형 데이터의 특징에 초점을 맞추어 불균형 문제를 해소한 논문을 소개해주었다. 인접 데이터간 유사성을 활용함과 동시에 커널함수를 통해 데이터의 연속성을 잘 처리한 부분이 눈에 띄었다. 사실 개인연구 관련하여 일전에 찾아보았던 논문인데, 혼자서는 이해하기 다소 어려웠던 부분을 알기 쉽게 설명해주어 개인적으로 매우 좋았다.
본 세미나를 통해 데이터 형태에 따른 특징을 고려하여 연구하는 것이 어떠한 연유에서 중요하고, 이를 위해 어떠한 방법론들이 존재하는지 일목요연하게 정리할 수 있었다. 이론적인 측면 외에도, 세미나 중간중간 하은언니의 코멘트가 인상적이었다. 훗날 세미나를 다시 한 번 준비할 날이 온다면 이를 본받아 내 나름의 메세지를 전하고 싶다고 생각했다. 좋은 세미나를 준비해준 하은언니에게 감사한 마음을 전하며 후기를 마무리한다.
허종국
불균형 데이터를 처리하는 방법론들에 대해 알아보았다. 기존의 알고 있던 Under Sampling, Over Sampling, Weighted Loss Function 에 대해 다시 환기시킬수 있어서 좋았지만, 더욱 재미있었던 것은 알고리즘 레벨의 Two-Stage 방법론과 '연속형' 불균형 데이터를 처리하는 방법론이었다.
Two-Stage 방법론은 End-to-End 로 학습시킨 Feature Extractor 와 Classifier 를 디커플링 시키는 방법이다. 분류 경계면은 Feature Extractor 가 아닌 Classifier 의 역할이라는 가정 하에, Classifier 만 re-training 시킨다. 기존 연구가 소수 클래스에 대한 데이터 부족을 해결하기 위한 데이터 증강이나 손실함수 가중치 개선이였다면, 간단하면서도 색다른 관점에서 불균형 문제를 해소할 수 있다는 것이 특징이다.
이번 세미나에서 가장 인상 깊었던 부분은 연속형 불균형 데이터에 대한 고찰이었다. 레이블이 범주형인 데이터는 불균형 정도와 오분류율 상관관계가 서로 큰 반면, 레이블이 연속형인 데이터는 오분류율과 불균형의 상관관계가 상대적으로 낮다는 것을 차트와 상관계수로 보여주었다. 기존에 범주형 데이터에서 사용하였던 데이터 증강 기법 등의 트릭이 연속형 데이터에서는 잘 맞지 않았던 이유를 이제야 깨달았고, 이러한 데이터에 적합한 FDS와 LDS 방법을 배울 수 있었다. 세미나를 준비하느라 고생한 하은이에게 고맙다는 말을 전하고 싶다.
정재윤
이번 세미나는 ‘Handling imbalanced datasets’을 주제로 세미나가 진행됐다. Imbalanced datasets이란 불균형 데이터로, 데이터의 비율이 균일하지 않고 한쪽으로 치우친 데이터를 의미한다. 이런 현상은 실험이 아닌 실제 산업에 적용할 때 흔히 직면하는 현상이다. 불균형 데이터의 문제점은 정확도는 굉장히 높으나 소수 클래스에 대해서는 제대로 분류하지 못한다는 점이다. 이를 해결하기 위한 방법으로는 Random resampling 방법과 Synthetic sample 방법과 같은 Data level 방법이 있고, Cost sensitive learning과 Two Stage Training과 같은 Algorithm level 방법이 있다. 이 중 특히 새로웠던 방법은 Two Stage Training으로, 기존의 feature extractor를 잘 학습시켜야 한다는 관점에서 벗어나서 결국 클래스를 분류하는 분류 경계면은 Classifier에 의해서 형성되기 때문에 오히려 Classifier를 잘 학습시켜야 한다고 이야기 한다. 세미나에서는 이에 끝내지 않고 더 발전시켜 불균형 연속형 데이터에 대해서 이야기한다. 현실의 데이터들은 대체로 연속형 데이터가 많으나, 불균형 데이터에 대한 해결법은 보통 범주형 데이터에 대한 것들이 많다. 이 간극으로 인해 문제가 발생하며, 세미나에서는 이를 해결하기 위한 논문을 소개한다. 논문에서는 인접 데이터간 유사성과 커널 함수를 활용하여 불균형 문제를 해소하며 대표적으로 LDS방법과 FDS방법을 소개한다.
이번 세미나를 통해 불균형 데이터에 대해서 확실하게 정리할 수 있었고, 이를 해결하기 위한 연구 동향에 대해서도 알 수 있었다. 특히 지금까지 불균형 데이터라고하면 단순히 범주형 데이터에 국한되어서 생각해왔는데 연속형 데이터에 대해서까지 사고를 확장할 수 있어서 좋았다. 좋은 세미나를 준비해준 하은이에게 감사하다는 마음을 전하며 후기를 마무리한다.
임새린
이번 세미나는 불균형 데이터에 대한 내용을 하은이가 발표해 주었다. 데이터의 불균형은 크게 분류 문제와 예측 문제에서의 불균형으로 나뉘며 분류 문제에서는 클래스 불균형, 예측 문제에서는 분포의 치우침을 말한다.
분류 문제에서 불균형이 존재하는 데이터셋을 통해 학습을 진행하면 소수 클래스에 대해 혹은 이상치에 대해 편향된 분류 경계선이 학습이 이루어진다. 또한 모델 성능에 대한 왜곡이 나타나는데 다수 클래스는 잘 맞추어 분류문제에서 정확도는 높지만 소수 클래스에 대해 분류를 잘 하지 못해 정확도가 낮게 된다. 하지만 이 둘을 합치면 다수 클래스의 수가 많아 정확도가 높게 나오게 된다.
이러한 데이터 불균형 문제를 해결하기 위해서 다양한 방법론들이 제안되었는데 data-level에서 해결하는 방법론과 algorithm-level에서 해결하는 방법론으로 나눌 수 있다.
2020년 ICLR에 게제된 방법으로는 학습 방법에 초점을 두어 재미있는 연구 성과를 제안했다. 보통의 딥러닝에서 end-to-end learning이 학습에 유리하다고 알려져있지만 해당 논문에서는 클래스 불균형이 있는 상황에서 특징 추출기만을 학습하고 파라미터를 고정한 뒤, 분류기를 학습하는 two stage learning이 더 효과가 좋다고 주장했다.
예측 문제에서는 클래스 경계가 존재하지 않기 때문에 위에서 언급한 방법론을 적용하기가 어렵다. 또한 타겟값끼리의 연속성 및 유사성이 있어 주변값의 분포에 따라 다른 수준의 불균형을 겪게 된다. 또한 특정 타겟값에 대한 데이터가 아예 없을 수도 있다.
이를 해결하기 위해 제안된 방법론으로 크게 인접 타겟값과의 유사성과 커널 함수를 이용하는 Label Distribution smoothing 방법론과 Feature distribution smoothing 방법론이 있다.
이번 세미나를 통해서 불균형 데이터를 어떻게 처리하는지에 대해 잘 알 수 있게 되었다. 특히 흥미로운 논문 소개와 regression task에서 불균형 문제 해결에 대해서는 재미있게 들을 수 있었다.
배진수
금일 세미나는 하은이가 불균형 데이터 분석에 도움되는 몇 가지 사실들을 종합하여 진행해주었다. 불균형 데이터가 무엇이고, 어떤 문제점(불균형 데이터에 편향된 모델로 학습될 가능성이 커 일반화 성능이 떨어짐)을 일으키는지 설명해주는 장표와 설명이 정갈하고 이해하기 쉬웠다. 인상 깊었던 부분은 회귀 태스크에서의 불균형 문제 원인과 해결법이였다. (분류 문제에 있어서 불균형 해결 방법은 이미 알려진 연구 결과들이 많았기 때문이다. 물론 본 세미나에서도 다루어졌다.) 두 가지 최신 논문 결과를 바탕하여 어떠한 불균형 요인들이 회귀 문제에 중점적으로 영향을 주는지 알아볼 수 있었다. (실험적으로 사후 분석하는 내용들이 많았는데, 이러한 결과들도 논문으로 잘 정리될 수 있고 출간될 수 있구나 생각했다.) 논문의 핵심 가정은 회귀에 있어 Y값이 인접한 값을 가질수록 유사성이 높다라는 것이였다. (연속성이 중요.) 이를 또 다시 두 가지 관점(레이블과 특징 벡터)으로 나누어 문제점을 사후 분석하고 해결책을 내놓은 논문이였다. 커널 함수를 활용하여 레이블 관점에선 데이터 유사성을 유지하려 노력했고, 특징 벡터 관점에선 유사한 레이블 값을 가진 데이터들의 특징 벡터들이 유사해지도록 커널 함수로 교정하였다. 좋은 세미나를 준비해 준 하은이에게 감사의 말씀을 전하여 세미나 후기를 마치도록 한다.
김창현
불균형 데이터는 데이터의 비율이 균일하지 않고 한쪽으로 치우친 데이터를 의미한다. 또한 불균형 데이터는 이상치에 편향된 분류 경계선이 학습된다는 문제점과 모델 성능에 대한 왜곡이 존재한다는 단점이 있다.
이번 세미나에서는 불균형 데이터의 이러한 문제를 해결하기 위한 알고리즘을 분류와 예측 태스크로 나누어 설명했다. 분류 태스크에서는 크게 data-level과 algorithm level이 존재한다. 우선 data-level의 방법에는 random resampling과 synthetic sample 이 존재하고, algorithm-level에는 cost-sensitive learning과 two stage training 방법이 존재한다.
예측 태스크에서는 연속형 데이터와 관련한 방법론의 소개가 특히 인상 깊었다. 불균형 연속형 데이터는 불균형 범주형 데이터와는 달리 클래스 경계가 존재하지 않고, 타겟값끼리 연속성 및 유사성을 가지고 있고 특정 대상값에 대한 데이터가 아예 없을 수 있다는 특징이 존재한다. 따라서 resampling이나 reweighting의 방법을 사용하면 모델의 성능이 떨어진다. 본 세미나를 통해 불균형 연속형 데이터의 특성에 적합한 LDS, FDS 방법을 공부할 수 있었다.
기본적인 불균형 데이터 처리에 사용되는 SMOTE나 resampling 기법 이외에도 다양한 방법론을 알 수 있는 세미나였다. 특히 불균형 연속형 데이터에 활용가능한 LDS, FDS는 이번 세미나를 통해 처음 접했는데, 실제 데이터 분석에서도 활용하면 좋은 결과를 도출할 수 있을 것 같다. 좋은 세미나를 준비해준 하은에게 감사의 말씀을 전하며 후기를 마친다.
조한샘
이번 세미나는 "Handling imbalanced datasets"라는 주제로 진행됐다. 불균형 데이터는 다수 클래스에 대해서 모델이 많이 학습하기 때문에 소수 클래스에 대한 정보를 정확히 학습하지 못하는 문제가 발생하게 된다. 따라서 클래스 불균형 문제를 해결하기 위해서 다양한 방법들이 제안되어 왔다. 대표적인 방법론으로 SMOTE는 소수 클래스 데이터의 convex combination을 통해 새로운 소수 클래스 데이터를 생성하게 된다. 최근에는 GAN을 활용해 새로운 데이터를 생성하는 방식으로 클래스 불균형 문제를 해결하기도 한다. 다른 연구 방향으로는 손실함수의 가중치를 조정하는 reweighting 방식의 연구들도 진행되고 있다. 소수 클래스에 대해 가중치를 높게 주거나 잘 학습되지 않은 데이터에 대해 가중치를 높게 주는 등의 방식이 연구되어 왔다. 또한 모델을 특징 추출기와 분류기를 별도로 학습시키는 two-stage로 학습시키면 클래스 불균형 문제를 해소할 수 있다는 연구도 소개되었다. 세미나의 후반부에서는 회귀 문제의 불균형을 해소하는 기법에 관해서 소개되었다. 회귀 문제에서는 레이블이 연속형 변수라는 특징을 활용해 커널밀도추정을 통해 레이블 분포를 추정하게 된다. 추정된 레이블 분포를 기반으로 손실함수에 가중치를 부여하는 형태로 학습을 진행하면 회귀 문제에서 불균형 문제를 해소할 수 있게 된다. 이번 세미나를 통해 회귀 문제의 불균형 데이터를 처리하는 기법에 대해 새롭게 알게 되어 의미 있는 세미나였다. 세미나를 위해 고생해준 하은이에게 감사의 뜻을 전한다.
고은지
금일 세미나는 불균형 데이터를 handling하는 방법을 주제로 진행되었다. 불균형 데이터는 데이터의 비율이 균일하지 않고 특정 class로 치우친 데이터를 의미한다. 불균형 데이터를 사용하여 모델을 학습하는 경우 이상적인 분류 경계선이 아닌 소수 class로 편향된 분류 경계선을 찾는 문제가 발생한다. 또한 사용하는 성능 지표에 따라 모델 성능을 왜곡할 수 있다. 왜곡을 야기할 수 있다. Classification 문제에서 데이터 불균형 문제를 해결하기 위한 방법론은 크게 데이터 level의 방법과 알고리즘 level의 방법으로 나눌 수 있다. 데이터 level 방법에는 resampling, synthetic sample이 있다. Resampling은 소수 class의 데이터를 임의로 복제하는 over sampling이나 다수 클래스의 데이터를 임의로 sampling하는 under sampling을 일컫는다. Synthetic sample은 소수 class에서 가상의 데이터를 생성하는 방법이다. 알고리즘 level 방법에는 cost sensitive learning, two stage training이 있다. Cost sensitive learning은 class의 개수를 반영하여 목적 함수에 가중치를 부여하는 방식이다. Two stage training은 end-to-end 모델을 학습시킨 후 classifier 부분만 재학습하는 방식이다. 해당 방법의 가장 큰 특징은 classifier를 잘 학습시키는 것에 초점을 맞춘다는 점이다. Regression 문제에서의 불균형 데이터는 class의 경계가 존재하지 않고, 타겟값끼리 연속적이며, 특정 대상값에 대한 데이터가 없는 경우가 있다는 특징이 있다. 따라서 classification 문제에서는 적용할 수 있었던 방법론 사용에 한계가 있다. Regression 문제에서의 데이터 불균형 문제는 커널 함수 사용을 통해 해결할 수 있다. 대표적으로 label distribution smoothing, feature distribution smothing이 있다. 기존에 활용해본 데이터 불균형 문제 해결 방안 이외에도 다른 방법들을 알게 되어 매우 유익한 세미나였다.