- 2023년 6월 30일 오전 9:49
- 조회수: 13244
INFORMATION
- 2023년 6월 30일
- 오후 1시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
요약: 불균형데이터는 클래스 간 샘플 수의 불균형을 가진 데이터 셋으로 실제 세계에서 다양한 분야(암 진단 이나 사기 탐지 등등)에서 불균형 데이터를 흔히 관찰할 수 있다. 이러한 불균형 데이터는 Machine learning 또는 Deep learning의 성능을 저하 시키는 주요 원인으로 작용한다. 불균형 데이터 문제를 해결하기 위한 여러가지 방법들이 제안 되었다. 그 중에서 Generative Adversarial Network(GAN)을 통한 소수 클래스 데이터 생성은 데이터 증강에 큰 성과를 보여주고 있는 방법론이다. 하지만 대부분의 GAN 모델은 균형적인 데이터를 입력으로 데이터를 증강하고 있다. 본 세미나에서는 불균형 데이터가 입력으로 사용될 때 소수 클래스의 데이터 샘플을 생성하는 GAN 모델에 대하여 살펴본다.
참고문헌:
[1] Mariani, Giovanni, et al. "Bagan: Data augmentation with balancing gan." arXiv preprint arXiv:1803.09655 (2018).
[2] Yang, Hao, and Yun Zhou. "Ida-gan: A novel imbalanced data augmentation gan." 2020 25th International Conference on Pattern Recognition (ICPR). IEEE, 2021.
[3] Huang, Gaofeng, and Amir Hossein Jafari. "Enhanced balancing GAN: Minority-class image generation." Neural computing and applications 35.7 (2023): 5145-5154.
청취자 후기

이번 세미나는 불균형 데이터에서 GAN의 활용에 대하여 진행되었다. 불균형 데이터의 문제점을 언급하며 세미나를 시작하였고 기존의 불균형을 해결하기 위한 방법론인 SMOTH, ADASYN와 딥러닝 방법론인 GAN의 구조에 대해 간략하게 설명하였다. GAN을 통해서 하고자 하는 것은 데이터가 부족한 클래스를 늘리고자 함인데 GAN을 제대로 학습하기 위해서는 해당 클래스의 데이터가 많아야하는 아이러니가 존재한다. 따라서 늘리고자 하는 해당 클래스의 데이터 뿐만 아니라 다수를 차지하는 클래스의 데이터도 함께 학습이 진행되어야 하며 Label을 생성시 추가해주는 방법론으로 ACGAN을 설명하였다. 하지만 ACGAN과 같은 경우 부족한 클래스의 데이터가 다수의 데이터의 특징을 포함하게 생성되는 문제가 있기 때문에 이를 해결한 BAGAN을 소개하였다. BAGAN은 Discriminator가 생성하고자 하는 클래스를 잘 생성했는지만 판단하며 생성된 클래스가 본래의 이미지인지 생성된 이미지인지를 판별하지는 않는다. 따라서 ACGAN이 소수 클래스를 대표하지 않는 이미지를 그려도 그럴싸하게 그리면 Generator가 보상을 받을 수 있었던 단점을 해결하였다. 해당 방법론의 성능을 평가할때 단순히 잘 생성하였는지 눈으로 확인하는 것이 아니라 다양한 평가척도를 통하여 성능을 검증한 것이 인상깊었다. 두번째로 IDA-GAN 방법론을 설명하였다. 앞서 BAGAN은 오토인코더 구조를 활용하는데 이때 입력 데이터가 약간만 달라져도 출력이 달라질 수 있으며 Generator와 Discriminator가 동시에 최적점을 달성하기는 쉽지 않다는 단점을 극복하기 위하여 제안되었다. 오토인코더 대신 VAE(Variational Autoencoder)를 사용하였고 Latent Vector의 분포를 학습하기 때문에 보다 더 특징을 잘 파악한다고 할 수 있다. 마지막으로 Enhanced balancing GAN 방법론을 설명하였다. 클래스 간 차이점이 크지 않은 경우 BAGAN은 제대로 된 이미지를 생성하지 못하는데 오토인코더를 사용하여 생성한 클래스의 Latent Vector의 분포에 중첩이 있을 수 있기 때문이라고 한다. 또한 GAN 훈련시 Labeled Latent Vector의 분포가 더 이상 업데이트 되지 않기 때문에 이를 개선하기 위하여 Embedding 레이어도 학습하게 설계하였다. 그리고 Discriminator에는 cWGAN-GP와 유사한 구조를 모델의 안정성을 위하여 도입하였다고 한다. 이를 통해 BAGAN보다 나은 성능을 냄을 확인할 수 있었다. 불균형 데이터셋에서의 성능 향상을 위하여 개인 연구를 진행했었기 때문에 많은 도움이 되는 세미나였다. 유익한 세미나를 준비한 백민재 연구원에게 감사의 인사를 전하며 이상으로 세미나 후기를 마친다.

이번 세미나는 불균형 데이터를 위한 딥러닝 방법론들에 대해 민재형께서 진행해주었다. 기존 SMOTE와 같은 머신러닝 방법론들이 있지만 데이터 양 자체가 많아지는 상황 속에서 딥러닝 기반의 불균형 처리 기법들이 많이 연구되고 있다. 본 세미나에서는 GAN 기반의 불균형 처리 기법인 BAGAN, IDA-GAN, BAGAN-GP 이렇게 세 가지 방법론들에 대해 소개되었다.
먼저 BAGAN은 전체 데이터를 AutoEncoder(AE)로 재구축 오차가 최소가 되도록 학습 후, generator(G)는 decoder, discriminator(D)는 encoder의 가중치로 초기화 시킨다. 그 후 class conditional latent vector generator를 통해 각 클래스의 특성을 잘 반영할 수 있도록 한다. D는 가짜인지 혹은 진짜이면 어떤 클래스인지 잘 분류하도록 학습되고 G는 가짜 이미지를 생성할 때 사용된 label과 D가 분류한 label이 일치하도록 학습된다.
IDA-GAN은 BAGAN의 한계점을 지적하면서 AE가 아닌 VAE를 통해 데이터의 특징을 더 잘 반영하고 강건한 학습을 하도록 한다. D 이후의 layer은 ACGAN과 유사한 구조를 가진다. 이 방법론은 BAGAN보다 더 고품질의 이미지를 생성한다는 것을 실험적으로 입증하였다.
BAGAN-GP는 BAGAN과 같이 AE를 사용하지만 지도 학습 방식으로 학습을 진행한다.즉, label 정보를 포함하기 위해 latent vector와 label을 함께 embedding하는 작업이 encoder와 decoder 사이에 추가된다. 이 Embedding layer와 decoder가 g 역할을 수행하고 d는 cWGAN-GP와 유사하게 학습을 진행한다. 이는 모델의 안정성을 개선할 수 있다고 한다. D는 validy score를 통해 이 확률값이 1에 가까울수록 실제 데이터라고 판단한다. 이 방법론은 유사한 클래스의 데이터 생성에 있던 한계점을 극복하였고 정보를 직접 학습하는 embedding을 추가하여 class간 분산을 안정화 시켰다.
GAN을 통해서도 불균형 데이터를 처리한다는 사실은 알고 있었지만 그 방법론들에 대해 자세히는 알지 못했었다. 본 세미나를 통해 그런 방법론들에 대해 접할 수 있었고 기존의 한계점을 극복할 수 있도록 하는 논리적인 가설과 그에 알맞은 모델 구조가 인상적이었다. 프로젝트나 추후 개인 연구에서 불균형 데이터를 접했을 때 시도해보면 좋을 것 같다는 생각이 들었다. 좋은 세미나 자료를 준비해주신 민재형께 감사드리며 본 세미나 후기를 마친다.

이번 세미나는 데이터가 불균형한 상황에서 GAN을 활용한 데이터 증강기법에 대해 진행되었다. 최근 인공지능 모델에서 데이터 증강은 필수적인 요소가 되었다. 준지도/자기지도학습은 물론이고, 일반적인 Fully-supervised Learning도 데이터 증강은 무조건적으로 포함하는 추세이다. 일반적인 데이터 증강은 색깔/기하학적 변형 등 일반적인 변형기법을 활용하거나, SMOTE 등 알고리즘을 활용하는 경우도 존재한다. 이러한 기법 외에 본 세미나에서는 대표적인 생성모델인 GAN을 활용한 데이터 증강 연구 3가지를 소개한다.
1) BAGAN: Discriminator의 출력을 Fake/Class 출력으로 변경하여 모델링을 진행한다. 이를 통해 Class Label과 일치하지 않는 이미지를 생성하면, 보상을 받지 못하도록 설계하였다. 학습은 먼저 AutoEncoder 및 GAN으로 가중치를 초기화한 후, 최종 모델을 학습하는 방식으로 구성된다. (3-phase)
2) IDA-GAN: BAGAN에서 가중치를 초기화할 때, Generator와 Discriminator는 동시에 초기화할 수 없다는 것에서 출발하여 진행된다. 따라서 일반적인 AutoEncoder 대신에, Variational AutoEncoder를 활용한다.
3) BAGAN-GP: BAGAN은 유사한 Class가 많은 경우, 잘 생성하지 못한다는 한계를 갖는다. 즉, 유사한 Class는 중첩되는 분포를 야기할 수 있는데, 이 때문에 BAGAN의 생성능력이 낮다고 논문은 주장한다. 이를 개선하기 위해 Embedding과정을 추가하여 Latent Vector의 분표를 정교하게 함으로써 모델을 개선하고자 한다. 추가적으로, Gradient Penalty를 부여하여 학습을 개선한다. 실제 이미지와 생성된 이미지 사이의 중간 지점에서 Gradient를 계산함으로써, Weight가 극단적으로 Update 되는 것을 극복할 수 있었다.
본 세미나를 통해 데이터가 불균형한 상황에서 GAN 기반 데이터 증강 방법론들을 살펴볼 수 있었다. 잘 학습된 GAN을 활용한다면, 일반적인 변형 수준에서 그치는 기존의 데이터 증강보다 고품질의 데이터를 얻을 수 있을 것으로 기대된다. 하지만, 현대 인공지능에서는 데이터 증강이 굉장히 가벼운 개념이었기에 GAN과 같은 인공지능 모델을 활용한다는 것은 다소 새롭게 다가왔다. 이는 기존 인공지능 모델을 위해 하나의 모델을 추가적으로 도입하는 것인데, 이러한 경우 발생하는 학습 Cost는 괜찮을지 궁금증이 생긴다. 유익한 세미나를 준비해준 백민재 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.

불균형 데이터 해소를 위한 GAN 연구 세미나를 청취하였다. 데이터의 불균형을 해소하기 위해 데이터 생성 모델인 GAN을 활용하는 것으로, 소수 데이터를 GAN 모델로 생성하여 데이터 불균형을 해소한다. 그러나, 데이터 불균형은 GAN 학습 과정에서도 부정적인 영향을 끼치기 때문에 GAN 역시 소수 데이터를 정상적으로 생성하지 못하는 경우가 있어, 불균형 해소가 어려울 수 있다. 본 세미나에서는 소수 데이터를 정상적으로 잘 생성하는데 특화된 여러 가지 GAN 기법(BAGAN, IDA-GAN, and BAGAN-GP)들을 소개하였으며, 이 GAN 기법들이 소수 데이터를 정상적으로 잘 생성하여 불균형을 효과적으로 개선하는지 확인하기 위한 흥미로운 평가 프로토콜들도 함께 소개되어 있다. 2023 최신 연도에 개발된 알고리즘까지 소개하느라 고생 많으셨을 민재형에게 감사의 말씀을 전하며 세미나 후기를 마치도록 한다.

이번 세미나는 Generative Adversarial Network for Imbalanced data을 주제로 진행되었다. 불균형 데이터를 해결하기 위해 많은 방법들이 제시되었으며, 해당 세미나는 GAN을 이용하여 Generator와 discriminator를 경쟁 시켜 유사한 샘플을 생성하여 데이터를 증강 하는 방법론에 대해 소개되었다.
첫 번째 논문은 BAGAN으로 다수 클래스에 초점이 맞춰서 소수클래스를 잘 분류하지 못하는 ACGAN의 문제를 해결하기 위해 제시되었으며, 오토인코더(AE)를 훈련한 뒤 AE의 가중치로 GAN을 초기화하고 최종적으로 GAN을 훈련시키는 구조를 가지고 있다. 두 번째 논문은 BAGAN이 AE의 입력이 조금이라도 바뀌면 출력이 바뀌는 등의 한계점을 개선하기 위해 제안 된 ID-GAN으로 초기 가중치를 위해 AE 대신 VAE를 사용되었다. 세 번째 논문은 BAGAN이 유사한 클래스 데이터 생성에 한계점이 존재하는 점을 개선하기 위해 제안 된 BAGAN-GP로 AE를 supervised AE로 변경하였다.
현실에서 데이터 불균형은 매우 쉽게 접할 수 있는 문제로 이러한 불균형을 해결함을 통해 모델의 성능이 많이 개선됨을 알 수 있다. 불균형 이미지를 해결하기 위한 GAN 기법들이 기존에 한계점을 어떻게 극복하며 발전되어 왔는지 요약하게 설명되게 쉽게 청취할 수 있었다. 유익한 세미나를 해준 백민재 연구원에게 수고했다는 얘기를 전하며 세미나 후기를 마친다.