이번 추계학술대회는 서울-한양대에서 진행 되었다. 대부분의 연구가 딥러닝을 기반으로 진행된만큼, 이젠 필수적인 분야가
된것 같았다. 딥러닝을 적용분야가 다양한 만큼 흥미로운 연구이자 필요한 부분이라고는 생각한다. 그러나 기존의 제안된 다양한 머신러닝 알고리즘에 대한 연구는 거의 없이 아쉬운 생각도 들었다.



 



1. 발표 요약



현재 연구중인 Boundary-focused GAN이라는 주제로 발표를
하였다. 본 연구는 multimodality를 가지는 imbalance time-series 데이터를 대상으로 불균형을 해결하기위해 변형된 GAN을 통해 oversampling을 하는 것을 목표로 한다. 따라서 불균형 데이터 문제와 시계열 데이터의 특성을 모두 고려해야하는 특징을 가지고 있다. 우선 시계열 데이터의 경우 실제 측정되는 환경에서 다양한 외부적인 요인으로 인해 misalignment와 같은 현상이 발생하고 이는 데이터 상에서
multimodality
와 같은 특징으로 나타난다. 또한
sequence
데이터의 특성상 전체적인 패턴을 고려함과 동시에 부분적인 패턴 또한 고려가 필요하다.
이러한 시계열데이터에 불균형 문제가 동시에 발생하게 되면 (실제로도 현실에서는 충분히 발생될
수 있는 문제이기도 하다.) 이를 해결하기 위해 사용할 수 있는 방법은 매우 한정적이다. 따라서 본 연구에서는 최근 이미지 생성분야에서 우수한 성능을 보이고 있는
Generative adversarial network
를 기반으로한 oversampling 방법론을
개발하였다. Multimodality를 반영하기 위해 데이터의 군집을 인지할 수 있는 Categorical GAN (CatGAN)을 개선한한 GAN을 제안으로써
시계열데이터의 특징을 반영한 새로운 가상의 샘플을 생성이 가능하다. 또한 classification에 용이하도록 boundary 주변에 샘플을
생성하기 위해 importance label 개념을 개발 및 제안하고 이를 GAN input을 사용함으로써,
데이터의 위치정보를 반영한 가장 샘플 생성을 가능케 하였다. 실제 본 제안방법을 통해 생성된
샘플을 타 oversampling 기법과 시각적으로 비교하였으며, 동일
분류모델을 적용하고 분류 성능을 통해 본 제안방법으로 생성된 샘플이 Time-series
classification
에 유리한 샘플을 생성시킴을 확인하였다. 본 제안방법은 multivariate time series에도 확장 적용이 가능한 장점이 있기 때문에 추후연구로써, 본 방법의 적정성을 평가하고자 한다.



 



2. Q&A



Q: 극단적인 imbalance 상황 (예를 들어 100,000 : 1)과 같은 상황에서도 적용이 가능한가?



A: 본 제안방법은 GAN
기반으로한다. GAN은 원래의 데이터의 분포를 학습하고 학습된 분포를 기반으로 새로운 샘플을 생성한다. 그렇기 때문에 적어도 어느정도 (*클래스의 분포를 학습할 할수 있는
정도)의 샘플을 최소한으로 필요하다. 본 실험에서는 최소 60개의 샘플이 있어야 학습이 가능하였다. 그러나 이는 time-series time-step이 작은 경우로 time step이 길면 길수록 분포를 학습하기 위한 샘플의 개수도 늘어나게 된다. 실제 현업에서 사용하는 wafer image time-series 보다 좀더 고차원의 데이터 이므로
본 방법을 사용하기 위해서는 복잡도에 맞춰 충분히 nerwork가 학습하기 위한 적정수의 샘플을 필요하다.



 



3. 청취 후기



GAN을 통한 비지도학습을 이용한 새로운 링크 예측 알고리즘



Link prediction은 네트워크 분석에 있어 매우 어려운 부분이다. network의 구조가 변할때마다 이를 반영해야 함은 물론이고,
network
를 구성하고 있는 node의 특징을 어떻게 정의하느냐에 따라 결과가 달라지기
때문이다. 따라서 link prediction은 이러한 network의 특성을 반영해야 하기 때문에 매우 어려운 분야로 알려져 있다.
일반적으로 network를 정의할때 다양한 link
score
를 사용한다. 이러한 link score
각 노드의 관점에서 네트워크를 부분적으로 해석한 점수로써, 전체적인 패턴보다는 부분적인 패턴에 대한
정보를 담고 있다. 본 연구에서는 link prediction
위해 network의 각 노드에서 얻어진 link score
데이터로 하여 GAN을 학습하고 적절한 학습된 generator
통해 새로운 link를 생성하는 연구를 하였다. 우선, 기존의 GAN 연구와 달리 GAN network에 적용한 점에서는 매우 흥미로운 연구라고 생각한다. 그러나
한가지 아쉬운점으로는 다양한 link score를 사용하여 GAN
학습하였다는 점이다. link score 자체가 network
부분적인 정보만을 담고 있는 것으로, 엄밀히 말하면 네트워크 간의 연결정보는 포함되어 있지 않는 단점이
있다. (여기서 말하는 연결정보라는 것은 각 노드의 인덱스를 의미한다).
network
에서 각 노드의 특징을 학습하는 것도 매우 중요하지만 새로운 link를 생성하기
위해서는 현재 네트워크내에서 노드간의 연결정보까지 학습하는 것이 필요할 것이라는 생각이 들었다.