- 2014년 11월 30일 오후 4:58
- 조회수: 1101
도형록
2014 BI데이터마이닝 학회 추계 학술대회는 데이터 사이언티스트와
데이터마이닝이라는 주제로 부산 BEXCO에서 개최되었다. 한
주 전에 있었던 산업공학회 추계 학술대회보다 흥미로운 연구 주제가 많았으며, 산업공학회와 마찬가지로
최근 헬스케어 및 의료 분야에서 발생한 데이터를 분석하는 연구가 활발하게 진행됨을 확인할 수 있었다.
학술대회 중 관심 있게 들었던 연구주제에 대해 다음과 같이 정리한다.
Bayesian
Recommendation
Bayesian recommendation이라는 주제로 POSTECH의 최승준 교수님이 강연을 진행하셨다. 강연은 Bayesian을 이용한 추천시스템에 대해 설명을 위주로 진행되었으며, 특히
추천시스템 중에서도 matrix factorization에 초점을 두고 진행되었다.
Bayesian statistics을 이용하여 실제 문제를 formulation하고 푸는 과정을 수식과 graphical
representation을 통해 어렵지 않게 이해할 수 있었으며, lower bound
maximization을 통해 posterior inference를 시행하는 variational method에 대해서도 알게 되었다.
Variataional method를 이용하여 posterior inference를 진행할 경우, MCMC를 이용하여 approximate 하는 것 보다 정확도는 떨어질 수 있지만 MCMC보다는
낮은 계산 비용을 요구하므로, 상황에 따라서는 MCMC 대신
사용하기에 적합한 알고리즘이라고 할 수 있다.
평소 Bayesian statistics에 대해 많은 관심을 갖고
있었는데, 이를 실제 문제에 적용하는 상세한 과정을 접하는 좋은 기회가 되었다.
Using
Deep-Learning Technique on Dimension Reduction for Efficient Churn Prediction
최근 이슈가 되고 있는 deep learning 기법을 이용한 unsupervised feature extraction을 이용하여 이탈 고객을 분류하는 연구에 대한 발표였다. 이탈 고객을 분류하고 원인을 찾아내는 문제는 마케팅에 있어 아주 중요한 연구이다. 하지만 본 연구에서는 unsupervised feature
extraction 기법을 사용함으로써 몇 가지 한계점을 드러냈다.
우선 이탈과 비이탈 고객의 class label이 있음에도 불구하고 unsupervised 접근을 사용했다는 점, 그리고 feature selection이 아닌 extraction을 시행함으로써
선택된 변수들을 통해 고객 이탈의 원인을 분석하는 것이 어렵다는 점이다. 하지만 deep learning 기법에 대한 관심이 커지고 있음을 알 수 있는 발표였다.
현재 deep learning에서는
RBM을 사용하고 있는데, RBM을 학습할 때 Gibbs
sampling을 이용하기 때문에 학습에 많은 시간이 필요하다고 알고 있다. Gibbs
sampler을 대체할 수 있는 stochastic approximation이나 variational method를 통한 RBM 학습 방법에 대한 연구를
진행하는 것도 좋을 것 같다.
그래프 모델을 이용한 당뇨환자 이력 분석
환자-환자 네트워크를 이용하여 당뇨환자의 이력을 분석한 연구였다. 지난 산업공학회 추계 학술대회에서도 확인할 수 있었지만 최근 헬스케어와 의료 분야에 데이터마이닝 알고리즘을
접목하는 연구가 활발하게 진행되고 있다. 발표에서 추후 연구 과제로 남겨둔 LDA나 HMM을 통한 환자 유사도 계산이 가장 기억에 남았다.
현재 건강검진 데이터를 분석하는 연구를 진행하고 있는데, 환자 간
유사도를 정의하는데 LDA나 HMM 또는 CRF를 사용할 수 있을 것이라는 아이디어를 얻었다.
지난 추계 산업공학회와 이번 추계 BI데이터마이닝 학회에서 우리 연구실
인원들이 많은 발표를 하고 경진대회에서 수상하는 것을 보고 많은 자극을 받았다. 이번 겨울 연구에 집중하여
내년 춘계 학술대회에서는 좋은 결과물을 발표할 수 있게 준비해야겠다.