고려대학교 DMQA 연구실

2018 BI Conference - 도형록

2018년 4월 13일 오후 5:45
조회수: 1138

Reviewed by

도형록

2018년 BI 데이터마이닝 학회 춘계학술대회는 서울 코엑스에서 진행되었다. 다양한 주제의 세션들이 준비되어 최근 산업계와 학계에서 시도되고 있는 데이터 분석 사례 또는 연구에 대해 알 수 있는 기회가 되었다.

- Prospective customer prediction of card-loan using machine learning

금융사에서 대출상품을 판매할 때, 대출 희망자가 대출금을 장기연체 할지 또는 그렇지 않을지를 기계학습 방법론을 사용하여 예측한 사례에 대한 발표였다. 이 발표에서는 장기카드대출 상품에 기계학습을 적용하였는데, 타 대출상품에 비해 카드사용내역 등의 데이터를 확보하는 데 수월하기 때문이었다고 한다. 부실 고객은 정상 고객에 비해 그 수가 매우 적기 때문에 클래스 불균형 문제가 있으며, 신규 고객의 경우에는 정확한 레이블을 알 수 없다는 문제도 있다고 한다. 이를 해결하기 위해 random sampling과 semi-supervised learning 기법을 적절하게 활용하였다. 용한 방법론이나 모델이 새롭거나 복잡한 것은 아니었지만, 이를 적용한 결과가 상당히 놀라웠다. 부도 비율을 기존 1.8%에서 0.3%로 1.5%p나 줄인 것이다. 크게 차이가 나지 않아 보일 수 있지만 상품 이용 금액의 규모를 생각했을 때 상당한 수익을 만들어낸 사례인 것이다. 학회나 논문에서 어렵지 않게 유사한 연구사례를 찾아볼 수 있는 주제였지만, 현실에 적용되어 큰 이익을 만들어냈다는 것이 놀라웠다. 이런 사례들을 바탕으로 기계학습이 현실 문제 해결에 더 적극적으로 사용되기를 바란다.

- Emotion recognition from text using deep neural networks

일반적으로 텍스트마이닝 분야에서 sentiment analysis는 긍정 또는 부정의 binary classification를 목적으로 한다. 제안하는 연구에서는 이를 보다 세분화하여 총 7가지 감정을 분류해내는 multi-class sentiment analysis 문제를 정의하고 풀려고 시도하였다. Multi-class sentiment analysis는 긍정/부정의 binary classification에 비해 어려운 문제인데, 단순히 class의 개수만 늘어나는 것이 아니라, 감정들이 서로 완전히 exclusive한 관계에 있지 않기 때문이기도 하다. 반면, 긍정과 부정은 확실하게 구분될 수 있다. 이 연구에서는 이런 감정 간 관계를 반영하기 위하여 cross entropy loss에 적절한 weight를 부여하는 방식을 사용하였다. 추가로, 각 감정 간 유사도를 잘 측정하기 위하여 latent semantic analysis를 사용하였다고 한다. Multi-class sentiment analysis라는 간단하지만 재미있는 문제를 정의하고 풀어낸 의미있는 연구인 것 같다. 이 연구의 결과는 챗봇 개발에 이용될 수 있을 것이라고 한다.