고려대학교 DMQA 연구실

2017 대한산업공학회 추계학술대회 - 이한규

2017년 11월 6일 오전 11:46
조회수: 1486

Reviewed by

이한규

이번 추계학술대회는 대전-카이스트에서 진행 되었다. 개인적으로 생각하기에 이번 학회는 하루라는
짧은 시간에도 불구하고 주제가 다양하다는 것이 인상 깊었다. 학회를 들으면서 발표한 내용과 더불어 청취한
내용에 대해 느낀점을 정리 하였다.

1.
발표 요약

“Sequence oversampling technique using generative adversarial net”이라는 주제를
발표하였다. Imbalance time series classification 문제를 풀기위해서는 일반적인 imbalance 문제 해결방법과 비슷하게 크게 2가지로 나눌 수
있다. (1) 알고리즘 외부에서의 접근법, 즉 샘플링 기법을
통해 데이터의 불균형을 해결, (2) 불균형 문제를 반영할 수 있도록 알고리즘 자체를 수정하는 접근법이다. 이 중 (1)에 해당하는 접근법으로써 categorical generative adversarial network (CatGAN) 을 활용하였다. 기존의 제안된 샘플링 기법은 다변량 데이터를 기반으로 샘플링을 수행하는 방법으로써, time series의 고유한 특징 (고차원, 변수간 상관관계 등)을 반영할 수 없다는 단점이 있다. 따라서 이미지와 같은 고차원 데이터를 생성하는데 좋은 성능을 보였던 CatGAN을
time series 데이터를 생성하는데 사용하였다. 이
과정에서 (1) 원하는 클래스의 데이터를 생성할 수 있어야 되는 점,
(2) 오버샘플링을 위해 생성되는 샘플이 다른 클래스에 겹치지 않고 생성되야 한다는 점의 2가지를
반영하여 기존의 CatGAN을 개선한 Supervised CatGAN(SCatGAN)을
제안하였다. 실험을 통해 제안방법으로 생성된 샘플이 다른 샘플링 방법
(SMOTE, Bl-SMOTE, 등)을 통해 생성한 샘플보다 양질의 샘플을 생성함을 분류
결과가 향상됨을 통해 입증하였다. 추후 연구로써 multi-class
또는 multi-modality의 특정을 갖는 데이터 및 실제 현실문제에 적용함으로써 본
제안방법의 장점을 더욱 부각 시킬 수

있을 것으로 생각된다.

2.
Q&A

발표와 관련하여 2개의 질문을 받았으며 답변을 요약하면 아래와 같다

(1)
time series 내에서
차원이 다른 경우의 적용이 가능한가?

차원이 다르다는 것은 수집의
시점이 다르다, 즉 1번 시그널은 매일수집이 되고, 2번 시그널은 일주일에 한번씩 수집이 되는 것과 같은 상황을 의미하는 것으로 생각된다. 본 연구에서는 이러한 상황을 고려하지 않았으나, 실제 현실문제에서
충분히 발생가능한 문제로써, 이를 고려하는 것도 필요할 것이라 생각한다.

(2)
생성된 샘플이 좋은
샘플이라는 보장은 어떻게 하는가?

샘플링(특히 오버샘플링)의 목적은 샘플을 point
by point 하나하나 잘 생성하는 것도 의미가 있지만 그것보다 더 중요한 의미는 decision
boundary를 잘 만들기 위한 하나의 수단이라 생각한다. 또한 좋은 샘플이라는 것에
대한 정량적인 측정방법은 없는 것으로 알고 있다. 따라서 생성된 샘플을 좋고 나쁨을 판단하기 위해서는
간접적으로 샘플링 이후 모델을 구축하고 구축된 decision boundary를 통해 예측을 수행함으로써
파악할 수 있다고 생각한다.

3.
청취 후기

*클래스 불균형 데이터 분류를 위한 군집화
기반 언더샘플링 기법

언더샘플링은 불균형 문제를 해결하기 위한
하나의 방법으로, 데이터를 삭제하기 때문에 정보가 손실되는 문제가 있으나, 다수 클래스에서 샘플을 “잘” 선택해서
샘플링을 할 수 있다면 오히려 시간을 절약하면서 효율적인 모델링이 가능하다는 장점이 있다. 본 연구의
목적인 언더샘플링을 수행하는데 있어 다수 클래스에서 샘플을 “잘” 선택하는
것에 그 목적이 있다. 다수 클래스를 k-medoids를
통해 k개(소수클래스 개수만큼)의 군집화를 수행한다. 이후 각 군집의 대푯값으로부터 소수 클래스까지의
거리를 계산하고 거리의 역수만큼 가중치를 부여한다. 소수클래스와 가까울수록 높은 가중치를 받게 되며, 중요한 샘플로 고려된다. 랜덤하게 대푯값을 선택하는데 이때 중요하다고
고려되는 샘플이 더 높은 확률로 선택될 수 있도록 한다. 이후 boosting
기법을 사용함으로써, 최종적인 decision
boundary를 구성한다. 오버샘플링 기법에서 SMOTE를
기반으로 한 Adaptive synthetic sampling기법이 있는데 이와 유사하지만 반대로 접근하는
방법이란 생각이 들었다. 상당히 간단하지만 좋은 아이디어란 생각이 들었으며, 단 한가지 문제가 되는 점은 극심한 불균형 상황에서는 삭제되는 다수 클래스의 개수가 많아 지기 때문에 그때
발생하는 정보의 손실을 보완하는 추가적인 연구가 더 되면 좋을 것이라 생각하였다.

Conference