- 2018년 4월 12일 오후 1:35
- 조회수: 1778
김영훈
[학회 후기]
2018년 춘계 BI데이터마이닝 학회에 참석하고 돌아왔다. 올해는 'AI로 진화하는 BI의 미래'라는 큰 주제를 가지고서 행사가 진행되었다. 기존에 다양한 산업에서 사용되어온 Business Intelligence 기술들을 Artificial Intellignece 방법론들을 사용해서 좀 더 향상시킬 수 있는 방법들에 대해서 산업계와 학계의 발표를 들을 수 있었다. 산업계에서 관련 업체 분들이 발표하시는 내용을 들어보면 기존의 Data Mining 기술들에 Deep Learning 기술들을 추가해서 솔루션이나 서비스의 품질을 향상시키고 있었다. Business Intelligence 분야에서는 알고리즘의 성능 뿐만 아니라 결과에 대한 해석도 중요한데, Deep Learning 모델들의 결과를 해석하는 방법도 적용되고 있는 것 같아서 흥미로웠다. 오후에 있었던 학술 세션에서는 오전보다 좀 더 다양한 인공지능 기술들이 사용되는 결과들을 볼 수 있었다. 특히 기업들의 발표에서는 볼 수 없었던 강화 학습을 이용한 의사결정이나 추천 시스템 연구들이 흥미로웠다. 그리고 Semi-supervised learning을 이용해서 대출의 부도를 예측하고, 감성 단어 사전을 만드는 연구들도 산업계 사례에서는 볼 수 없었던 Advanced한 방법들이 사용된 흥미로운 연구들이었다. 산업계에서도 학계의 발전에 발맞춰서 좀 더 Advanced한 방법들이 적용되리라 생각되는데 어떠한 형태들로 구현되고 서비스가 될지 기대된다.
[청취 후기]
데이터로 가는 통찰
성균관대학교 물리학과 김범준 교수님의 데이터를 이용한 과학적 현상들의 이해에 대한 강연을 들을 수 있었다. 김범준 교수님은 크게 메르스 환자수 예측, 지진의 강도와 발생 빈도, 사람의 키와 체질량 지수의 연관성에 대해서 어떻게 하면 데이터를 이용해서 흥미로운 결과를 도출할 수 있는지 설명하셨다. 이 발표 내용의 경우 기존의 우리가 많은 데이터를 이용해서 모델을 학습하고 예측 또는 분류를 하는 방식과는 조금 다른 방식으로 데이터 분석을 접근하고 있었다. 메르스 환자수 예측의 경우 환자수 증감을 시계열 그래프로 보고 질병이 확산되는 확률 모형을 만든 후에 이를 실제 결과와 비교해서 검증했다. 이 확률 모형의 경우 어려운 물리 모델은 아니고 환자를 만난 사람들이 확률적으로 질병을 얻게 된다는 간단한 가정에 기반해서 세운 모델이었는데, 결과가 생각보다 정확해서 놀라웠다. 지진의 강도와 발생 빈도 간의 상관관계도 발생빈도를 로그 스케일로 보았을 때 정확한 선형 패턴을 보였다. 지진의 강도가 셀 수로 해당 지진이 발생하는 주기는 지수적으로 증가한다는 것이다. 이 또한 간단한 데이터 수집만으로 찾아낸 결과라고 설명해 주셨다. 마지막으로 사람의 체질량 지수가 키의 제곱에 비례한다는 과학적 사실을 데이터를 이용해서 증명하고 그 과학적 근거를 찾아낸 연구 결과를 보여주셨는데 굉장히 흥미로웠다. 결과적으로 사람이 직립 보행을 하면서 체질량 지수가 키의 제곱에 비례한다고 하셨는데, 사람이 두 발로 걷기 전인 아기 때에는 세제곱에 비례하다가 두 발로 걷기 시작하면서부터 변화한다고 한다. 아주 간단한 사실인 것 같지만 데이터를 이용해서 흥미로운 사실들을 밝혀낼 수 있다는 점이 신선했다. 이러한 접근법은 인공지능 연구에도 시사하는 바가 있다고 본다. 사람들은 인공지능 모델을 만들면 스스로 모든 것을 알아서 해결할 것이라 생각한다. 하지만 실제로는 해당 인공지능의 최종 목적 함수를 사람이 어떻게 설정해주는가에 따라 다양한 결과가 나타나게 된다. 사람이 문제 상황을 바라보는 관점, 데이터를 바라보는 관점들이 반영된다는 것인데 어떻게 하면 좀 더 창의적이고 좋은 관점을 가지고서 인공지능을 설계할 수 있을지 고민하게 만드는 좋은 강연이었다.
행렬 분해를 활용하는 협업 필터링 모델의 학습 최적화를 위한 데이터 선별 관점에서의 메타러닝
행렬 분해 기법은 협업 필터링 모델에서 굉장히 널리 사용되고 있는 방법이다. 사용자의 상품에 대한 이력을 정리한 행렬을 SVD를 이용해 분해한 후 다시 재복원시켜서 그 전에 값이 없었던 사용자의 상품에 대한 만족도를 추정하게 된다. 이 방법은 굉장히 효과적이어서 이를 기반으로 변형된 형태의 행렬 분해 기법들이 실제 Neflix와 같은 회사에서 사용되고 있는 것으로 알려져 있다. 그런데 이와 같은 행렬을 구성하고 분해하는 과정에서 굉장히 많은 관측치가 사용되는데 모든 관측치가 다 중요한 것은 아니다. 예를 들면 어떤 사람은 Neflix에서 영화를 1 편밖에 보지 않아서 다른 영화 평점을 추정하는 데 있어 유의미한 정보를 제공하지 못할 수 있다. 이런 상황에서는 적절하게 이런 관측치를 제거하고 행렬 분해를 하는 것이 좋다. 하지만 이런 의사결정을 일일히 사람이 모두 할 수 없기 때문에 발표자는 강화학습을 이용해서 이렇게 무의미한 관측치들을 제거하고 유의미한 관측치들만 모은 후 행렬 분해를 하는 방법을 제안했다. 강화학습을 이용해서 데이터 배치 안에서 무의미한 관측치를 제거하는 모델을 학습시키고 이를 이용해 실제 테스팅 상황에 적용하였다. 기존에는 게임이 강화학습을 적용하기 좋기 때문에 주로 게임을 대상으로 연구가 이뤄졌었는데, 이와 같이 관측치를 선택하는 문제에도 응용될 수 있는 점이 흥미로웠다. 강화학습도 최근 많은 관심을 받고 있는 흥미로운 방법론인 만큼 관련해서 공부를 하고 새로운 응용분야들에 대해 생각해볼 필요가 있을 것 같다.
Prospective customer Prediction of Card-Loan Using Machine Learning
은행의 주요 비즈니스 모델은 사람들에게 예금을 받아서 대출을 해주고 예대마진을 남기는 형태이다. 이 상황에서 대출을 해준 사람이 대출금을 갚지 못한다고 하면 은행으로서는 큰 손실이 남게 된다. 예대마진율이 2%인 상황에서 100 사람에게 1억씩 100억을 빌려주었을 때 2 사람에게만 대출금을 돌려받지 못해도 은행은 손실을 입게 되는 상황이 발생한다. 예대마진율은 법으로 정해진 수준 이하로만 설정할 수 있기 때문에 최대한 대출 부도가 발생하지 않게끔 사전에 대출 심사를 잘 하는 것이 중요하다. 제안 연구에서는 Semi-Supervised Learning 기법을 이용해서 레이블이 있는 과거 데이터로 현재 대출 심사자의 부도를 예측하는 모델을 만들었다. 실제 적용 결과가 굉장히 인상깊었다. 제안한 모델을 사용해서 대출자를 심사한 이후 부도 비율이 1.8%에서 0.3% 때로 감소했다. 1%가 크지 않은 것 같지만 엄청난 액수를 운용하는 은행 입장에서는 굉장히 큰 수익이 왔다갔다 하는 비율이라고 한다. 최근 인공지능 응용 연구 내용들을 본 것 중에서 가장 인상깊었던 발표였다. 방법론이 아주 어렵고 고차원적이진 않았지만 실제로 모델을 현장에 적용해서 큰 성과를 냈다는 결과가 굉장히 고무적이라 생각된다. 인공지능 기술들이 다양한 산업에서 활용되고 있지만 아직 이렇다할 가시적인 성과들이 나오고 있지는 않은 것 같다. 인공지능 기술이 지속적으로 관심을 받고 발전하기 위해서 이와 같은 연구 성과들이 많이 나오면 좋을 것 같다.