학회 후기



2018 BI Conference “AI로 진화하는 BI의 미래라는
주제로 진행 되었다. 지난 주 다녀왔던 산업공학회와는 조금 다른 분위기 였지만 최근 많은 영역에서 AI 적용 영역이 확장 됨을 알 수 있었다. 산업계에서 사용하고 있는
AI 방법론들에 대한 발표를 통하여 보다 쉽게 Data
관리하고 분석할 수 있는 방법들을 소개 하였고, 실제 적용하여 개선된 사례들을 소개함으로써 데이터 환경에
대한 이해와 분석 효율성의 중요성에 대하여 생각해 볼 수 있는 좋은 기회였다. 오후 학술 세션에서는
예측 모델의 성능 개선을 위한 방법론이 주로 소개되었다. 게임, 의료, 금융 등 많은 분야에서 활발히 연구가 진행되고 있지만 아직 예측이 어려운 분야도 많았다. 실제 적용 사례를 바탕으로 개선점과 한계점을 토론하면서 어떤 방법으로 이런 문제들을 개선을 시킬 수 있을지
고민하게 되는 좋은 기회였다.



 



청취 후기



-. 행렬 분해를 활용하는 협업 필터링 모델의 학습 최적화를 위한
데이터 선별 관점에서의 메타러닝



보통의 추천시스템 데이터는 평점 데이터 개수의 분포가 유저 혹은 아이템에 대해 롱테일(long-tail) 분포를 가지는 경우가 많은데 이런 경우 데이터의 개수 불균형 문제가 발생하게 된다. 단순히 많은 데이터로 학습을 진행 할 경우 분포 특성으로 인한 수렴 속도와 수렴점에 차이가 생기므로 데이터의
특성으로 고려하여 학습 전략을 수립해야 하는데 이런 문제점을 개선하기 위한 방법으로 본 발표에서는 MFDF(Matrix
Factorization Data Filtering)
이라는 모델을 제안했다. 추천 시스템은
기본적으로 사람에 의한 Bias 가 큰데 이 모델을 통하여 의미 없는 데이터들을 제거 하게 되고 학습된
결과를 바탕으로 유저의 특성도 반영하게 되어 좀 더 정확한 예측을 할 수 있다는 내용이었다. 이런 문제가
꼭 추천시스템에서만 나타나지는 않는다고 생각을 했다. 반도체 공정 Data
중에 Random 하게 발생하는 문제들이 training
data
에 포함 되어 있다면 이 Random Data 로 인하여 모델의 정확도가 떨어지게
되는데 이를 효과적으로 제거할 수 있는 방법으로도 해석할 수 있을 것 같았다. Data 선별의 중요성에
대해 생각해 볼 수 있는 좋은 발표 였다.




-. Prosepctive customer Prediction of Card-Loan Using Machin Learning



은행의 수익 개선을 위한 방법에는 여러가지가 있으나 그중 간단하게 할 수 있는 방법이 부실률을 낮추는 것이다. 부실률은 연체율과 유사한 개념으로 은행 입장에서 빌려 준 돈을 회수 하지 못하여 손해가 나는 상황을 이야기
한다. 부실률을 낮추는 방법으로 부실 가능성이 있는 고객들을 사전에 예측하여 제외시키는 것이 좋은 방법이며
본 연구에서는 어떤 방법으로 예측 정확도를 높였는지에 대한 방법론을 소개 하였다. 이 예측이 어려운
이유는 정상 고객대비 부실고객의 수가 매우 적어서 데이터 레이블의 불균형 문제에 있다. 이를 해결하기
위하여 SVM(Support Vector Machine)Graph
based Semi supervised learning
을 이용하였다. 부실고객의 데이터는
모두 사용하고 정상고객은 support Vector 와 남은 영역의 Random
Sampling
으로 데이터 불균형 문제를 해결 하였고, 고객들의 대표변수 특징을 이용하여
신규 고객의 레이블을 확인 할 수 있는 방식으로 설계하였다. 이 모델을 적용한 후 결과 확인 시 높은
신용 등급의 고객에서는 기존 모델 대비 큰 개선은 없었으나, 실제 부실률이 높은 낮은 신용등급의 고객에서는
기존 모델 대비 많은 개선이 있음을 확인 하였다. 실제 이런 불균형이 있는 데이터를 분석하기는 쉽지가
않다. 제조업의 불량률이 ppm 수준임을 감안한다면 데이터
불균형의 해소는 반드시 처리되어야 할 문제라고 생각한다. 이번 발표 에서도 Data 선별의 중요성을 다시 한번 생각하게 되었다.