고려대학교 DMQA 연구실

2018 BI Conference - 성유연

2018년 4월 12일 오후 12:22
조회수: 1655

Reviewed by

성유연

[학회
후기]

2018년 BI Conference는
“AI로 진화하는 BI의 미래”라는 주제로 서울 코엑스 컨벤션 센터에서 열렸다. 학회의 시작은 이영섭
회장님의 “AI의 진화”에 대해 소개하면서 이루어졌다. 이후에 많은 기업들의 발표를 통해 금융, 의료, 헬스케어 분야에서 막대한 영향력을 미치고 있는 인공지능의 힘에 대해 들을 수 있었다. 기계 학습의 잠재력은 자동화를 통해 가치를 창출하는 것인데, 기술의
발전으로 인해 수많은 기업의 의사결정과 경제의 흐름에 변화를 주고 있음을 느꼈다. 이렇게 급속도로 발전하는 기술에
발 맞추어 효과적이고 산업에 도움이 되는 분석을 하는 것이 가치 창출의 핵심이라고 생각한다. 이러한
분석은 기술에 데이터 관리나 분석이 따라가는 것이 아니라 인공지능의 취지와 걸맞게 분석 그 자체가 기술이 되게끔 하는 주도권이 중요하다. 여러 산업에서 각광 받고 있는 만큼 데이터 과학자가 갖추어야 할 자세에 대해 주의 깊게 고찰해 볼 수 있는
기회였다.

[청취
후기]

Prospective
Customer Prediction of Card-Loan Using Machine Learning

금융 회사들은 보통 수익-비용의 값으로 이익을 산출한다. 이 과정에서 비용을 줄이는 방법이 수익을 높이는 방법보다 더욱 현실적인 것으로 알려져 있는데 비용 절감에서도
부실률 감소가 결정적인 수익 창출의 원인이라고 볼 수 있다. 부실률이란 대출 상환을 90일 이내에 하지 못한 고객의 수의 비율을 말하는데, 금융 회사 차원에서는
부실 가능성이 있는 고객들을 제외하고 대출을 실행한다면 수익을 높일 수 있다. 따라서 본 연구에서는
부실 가능성이 있는 고객과 신용 등급 대비 우량한 고객을 분류할 수 있는 SVM(Support Vector
Machine) 알고리즘을 적용했다. 이 때, 정상
고객과 연체 고객 간에는 클래스 불균형 문제가 일어나는데, 이는 support
vectors에 해당하는 고객들, random sampling을 한 정상 고객들, 모든 연체 고객들을 sampling 하는 방법으로 해결했다. 분류 기준점에 있는 support vector 고객들을 선택함으로써
데이터 레이블 불균형을 10대 1 수준으로 줄일 수 있었다. 또한, 신규 고객의 레이블은 Graph
Based Semi-Supervised Learning을 통해 레이블을 예측할 수 있게 했다. 3년
간 실제 사업에 적용한 결과 부실률은 1/4로 감소했다. 매우
간단한 알고리즘임에도 불구하고 현업에서 사용되었을 때 큰 효과를 보인 것을 확인할 수 있었다.

기계학습을 통한 감성 사전 구축 및 고객
평가 분석

마케팅 분야에서 고객 평가 분석은 제품의 상품성 증대를 위해 필수적이다. 하지만
레이블 되어 있지 않는 고객 불만이나 줄글 형태의 리뷰들과 같은 비정형 데이터에는 기존의 감성 분석의 사용이 제한된다. 따라서, 본 연구에서는
pre-labeled 되어 있지 않은 텍스트에 대한 새로운 감성 사전을 구축하고 감성 지표로서 중요도와 만연도를 제안한다. 새로운 감성 사전의 구축을 위해서는 데이터를 단어 단위로 임베딩한 후에, 연관성을 추출해 내어 단어들을 graph화 시킨다. 이후에 Graph
Based Semi-Supervised Learning를 통해 pre-labeled 되어있는
단어들과 새로운 단어들을 연결 시킨다. 또한, 대상의 전체적인
부정적인 평가를 위한 ‘중요도’와 다수에 걸쳐 형성되어 있는
부정적 평가 정도를 위한 ‘만연도’를 간단한 수식으로 제안했다. 결과적으로 AUC(Area Under the Curve)가 0.98로 매우 높음을 확인했다. 하지만, 우리나라 언어의 특성 상 합성어나 부정문이 존재할 때 띄어 쓰여진 앞 뒤 단어들이 의미적으로 중요하다. 제안된 방법론은 단순히 단어 단위로 레이블링을 진행했기 때문에 정확한 감성분석에는 한계가 있을 것이라는 생각이
들었다. 영어의 bigram이나 trigram과 같이 띄어쓰기, 혹은 문장 별로 분석이 이루어졌을 때
예측력이 증가할 것으로 예상한다. 본 발표에서는 새로운 방법론을 제안하지는 않았지만 이미 있는 방법론의 새로운 지표를 만들어
새로운 인사이트를 창출할 수 있다는 점에서 흥미로웠다.

Emotion
Recognition from Text using Deep Neural Networks

최근까지 감성 분석에서는 ‘Positive’과 ‘Negative’를 분류하는 Binary Sentiment Analysis가
대표적이었다. 본 발표는 기존 감성 분석에서 더 나아가 Anger,
Disgust, Fear, Guilt, Joy, Sadness, Shame과 같이 text마다
여러 감성을 분류할 수 있는 Multi-class Sentiment Analysis를 시도했다. 이를 위해 사용한 알고리즘은 Multi layered Perceptron Neural Network, Convolutional Neural Network, Recurrent Neural Network (Long
short-term memory), 그리고 Latent Semantic Analysis이다. 이 중에 첫 번째 세 가지의 알고리즘은
classification 모델로서 익숙했지만, 마지막 소개한
LSA는 감성 간의 거리를 계산해준다는 점에서 의문이 들었다. 예를
들어 한 단어의 감성 분류가 이루어지려면 ‘Guilt’와 ‘Shame’의
거리와 ‘Guilt’와 ‘Anger’과의 거리 중 어떤 관계가
더욱 멀다가 가정이 되어야 한다. 하지만, 세 가지 감성은
한 단어가 충분히 의미적으로 공유할 수 있는 감정이기 때문에 어떤 거리가 더 멀다라는 것이 확인이 된 후에도 분류의 척도가 매우 불분명할 것이라는
생각이 들었다. 또한, 결과에서 “Guilt”로 예측한 단어가 실제로 “Joy”였다는 점에서 단어 별로
감성을 레이블링하는 하는 과정에서 분류 모델이 감성의 의미를 올바르게 학습하지 못할 수 있을 것이란 생각이 들었다. 주관성이 많이 개입되어 있는 감성 분석을 기계학습으로 진행하는 것의 어려움을 인지하여 개인 연구에서도 감성
분류의 세부적인 기준을 세밀하게 검토하는 태도가 필요하겠다.