고려대학교 DMQA 연구실

2019 한국데이터마이닝학회 추계학술대회 - 이지윤

2019년 12월 2일 오후 1:59
조회수: 810

Reviewed by

이지윤

11월 29일 고려대학교 하나스퀘어에서 2019 한국데이터마이닝학회를 진행하였다. 처음으로 고려대학교에서 개최되는 학회여서 편안하게 학회장을 찾을 수 있었다. 데이터마이닝학회는 대한산업공학회와는 달리 데이터분석에 초점을 맞추어 진행하기 때문에 좀더 관심있는 발표들을 많이 접할 수 있었고, 한편으로는 세션시간이 겹쳐 못듣는 연구들에 대한 아쉬움도 남는 시간이었다. 이번학기에 좋은 기회로 여러 학회를 참여할 수 있었고, 뒤돌아보았을 때 여러 관점에서 motivation을 얻을 수 있어 수확이 많았던 한 학기를 보낸 것 같다. 또한 데이터마이닝 학회를 통해 국내 데이터 분석 연구들이 빠르게 고도화되고 있다는 것을 체감할 수 있었고, 나 또한 활발하고 좋은 연구로 많은 청중에게 기억에 남는 연구원으로 자리매김 하고 싶은 욕심이 생기었다.

[학회 후기]

불균형데이터의 분류모형 구축을 위한 GAN기법 적용

불균형 데이터의 경우, minority class와 majority class사이 decision boundary를 구축하는 과정에서 majority class에 overfitting되는 고질적인 문제가 있다. 따라서 이러한 문제를 해결하기 위해 모델 아키텍쳐를 조정하는 경우, 데이터 자체를 핸들링하는 경우 등 다양한 연구들이 제안되어오고있다. 대표적으로 데이터를 오버/언더 샘플링하는 연구들 중 딥러닝이 각광받기 시작하면서 GAN을 사용하여 데이터를 오버 샘플링하고자하는 시도들이 활발하다. 하지만 GAN에서 minority class를 생성하기 위해 학습시키는 과정에서 minority class의 개수가 확연이 적다면 GAN의 학습자체에 어려움이 발생하고, 이 과정에서 GAN의 고질적인 mode collapse문제가 발생할 가능성이 크다. 해당 연구는 범주별로 모델을 구축하되, knowledge share를 위해 각 class별 multitask learning을 통해 latent variable을 추출하고, mode collapse문제를 완화하기 위해 VAE를 사용하여 latent variable을 다시 추출하여 GAN의 입력 값으로 사용한다. 불균형 데이터 문제는 도메인과 무관하게 중요하고, 어려운 문제라고 생각한다. 나 또한 한규오빠와의 리비전을 통해 해당 주제에 대해 관심이 있어왔는데, 부지런히 follow up해야겠다고 생각했다.

Attention based Geographical Risk Analysis

해당 연구는 지역별 자동차 사고의 위험도 분석을 수행하고자 하였다. geographical이라는 주제에서 내가 지금 속해있는 치안연 과제와 유사하다고 판단되어 찾아들은 연구였다. 인구통계적, 지리적 정보를 수급하여 사용하고 발표자의 말처럼 전처리에 상당한 시간을 할애했다는 것을 보고 우리 프로젝트와 실제로 유사하다는 것을 확인할 수 있었다. 결과적으로 기대했던 attention mechanism이 아직 적용되어있지 않아 아쉬움이 있었지만, 전반적으로 연구의 흐름을 캐치하기에는 좋은 기회였던 것 같다. 해당 연구는 미국 교통사고 데이터를 활용하였다고 했는데, 연구의 목적과 별개로 실제로 국내에 도입하는 과정에서는 어려움이 있을 것 같다는 생각이 들었다. 우리도 공공데이터를 수집하기 위해 많은 노력을 해왔지만 데이터 수집 및 공급 단위가 매우 크다는 점이 한계라고 생각한다. 유용한 연구들이 활발히 이루어질 수 있도록 국가적으로 데이터 공유가 확산되었으면 하는 바람이다.

Meta Learning을 이용한 multitask learning

해당 연구는 최근 연구실 세미나에서 다뤘던 meta learning과 multitask learning를 접목시켜 이전 대한산업공학회에서부터 들어보고 싶었는데 내 발표와 세션이 겹쳐 듣지못해 아쉬웠었으나 이번 데이터마이닝 학회에서 다시 들을 기회가 생겨 찾아 들은 연구이다. Meta learning는 궁금했지만 아직 무엇인지 잘 모르겠는 그러한 영역의 연구였는데, 해당 연구에서 literature review를 잘 정리해주어 conceptual하게 다시 정리해볼 수 있는 좋은 기회였다. 궁극적으로 multitask learning을 하고자할 때 loss function을 단순하게 정의하는데에서 오는 학습의 문제점을 meta learnig을 통해 해소하고자 하는 연구였다. 실제로 meta learnig을 통한 효용성을 입증하는 실험이 있어 궁금증이 있었지만, 최근 데이터 분석 분야에서 뜨거운 감자로 떠오르는 방법론들을 잘 접목시켰다는 점에서 흥미있게 들을 수 있었다.

Conference