관악산의 단풍잎이 예쁘게 물든 서울대학교에서 열린 2019 추계 대한산업공학회에 다녀왔다. 해가 거듭될수록 기계학습/인공지능 연구의 발표 비중이 눈에 띄게 많아지는 같다. 여긴 학회 특성상 산업 분야에의 응용연구가 주를 이루는데 재밌는 연구들이 여럿 있었다. 사석에서 따로 만나기 어려운 분들도 여럿 만나 바깥 세상 돌아가는 이야기도 들을 있었다. 이번으로 대한산업공학회에서 하는 여섯번째 발표를 마쳤다. 앞으로 번의 발표를 하게 될지 모르지만 세션장을 가득 채운 많은 사람들이 나의 이야기를 들어주는 것은 언제나 설레는 일이다.

 

[발표후기] Missing Data Imputation with Adversarial Autoencoders

 

Adversarial Autoencoder (AAE) 구조를 사용하여 결측치 대체 수행하는 개인 연구 결과에 대해 발표하였다. 분석하고자 하는 데이터에 결측치가 있다면 언제나 골치 아프다. 결측된 자체를 예측/복원하는 작업은 자체로 매우 유의미하며, 이어질 분류와 회귀를 위해서도 (?) 해내야 한다. 최근 들어 딥러닝을 활용한 결측치 대체 방법론이 많이 등장하고 있는데 나의 연구는 2018년도 ICML에서 발표된 있는 Generative Adversarial Imputation Net (GAIN) 개선한 연구이다. GAIN 컨셉은 다음과 같다. Generator(G) 결측된 값을 예측하는 반면 Discriminator(D) 실제값과 G 예측한 값을 분별하도록 학습한다. 처음 알고리즘을 접하고 직접 실험을 해보았을 G 성능이 굉장히 불안정하다는 것을 느꼈고 GAN 연구 중에서 G 안정성을 높이는 연구들에 대해서 찾아보다가 AAE 구조를 차용해보자는 생각이 들었다. AAE 오토인코더의 latent hidden vector 사용자가 정의한 임의의 확률 분포의 파라미터를 학습하도록 하여 latent space 연속확률분포를 갖도록 해준다. 이에 대한 장점과 필요성을 묻는 질문이 있었는데, G 안정적으로 학습이 되는 것도 있지만 latent space 샘플링 가능한 연속확률분포를 갖게 되면 Multiple Imputation (MI)으로의 확장이 자연스럽게 이루어질 있다. 사실 처음 방법론을 생각할 당시 MI까지 고려하진 못했는데 실험을 통해 성능 개선을 보일 있으면 좋은 연구가 같다.