- 2018년 12월 6일 오후 7:55
- 조회수: 956
채선율
[학회 후기]
이번 데이터 마이닝 학회는 서울대학교에서 진행되었다. 모든 세션이
세 강의실에서만 진행되어 많은 강의실을 쓸 때보다 덜 산만했지만 한 강의실에 많은 사람들이 몰려 답답할 때가 있었다. 하지만 공간적 제약과는 별개로 전반적으로 발표의 수준이 높고 흥미로운 주제들이 많았기에 앞으로가 더 기대되었다.
[청취 후기]
학회에서 들었던 발표들 중 흥미롭게 들었던 것들은 다음과 같다.
1. 스캐너 데이터의 온라인 모니터링을 통한 이상점 탐지
스캐너 데이터는 제품에 부착된 바코드가 판매 시점에 스캐너에 의해 읽혀진 데이터로 물가 지수를 산정할 때 활용된다. 발표자는 물가 지수 산정 시 신뢰할만한 데이터만을 사용하기 위하여 거래 가격 변화율을 모니터링하면서 갑작스러운
할인 또는 상승이 있는 시점의 거래 가격을 이상 가격으로 가정하고 이를 탐지하는 연구를 하였다. 이를
위해 모니터링 기법을 도입하여 관리 한계선을 설정하고 이를 기준으로 이상 가격을 탐지하는 방법을 제안하였다. Quartile
method, Tukey algorithm 등과 같은 기존 방법론들과 비교했을 때, 제안하는
방법론은 거래 가격과 수량 정보 모두를 고려한 이상점 탐지 기법이라는 점에서 의의가 있다. 다만, 발표자가 제안 방법론을 설명하면서 거래 가격이 낮아도 판매 수량이 많으면 할인을 많이 해서 많이 팔린 것이기
때문에 정상 거래로 취급하는 것이 타당하다는 식으로 설명을 하였는데 이 설명에는 의문이 든다. 왜냐하면
현실에서는 미끼 상품으로 특정 제품만 비정상적으로 할인하여 다른 제품까지 함께 구매하도록 유도하는 경우가 많기 때문이다. 미끼 상품의 경우 할인을 많이 했기 때문에 제품이 많이 팔리는 것은 당연한 결과이고, 이 경우 판매량이 높은 것과 해당 거래에서 제품의 가격을 정상 범위로 볼 수 있는가는 또다른 문제라고 생각한다. 또한 해당 연구에서 다루는 데이터나 문제 상황은 흥미롭지만, 전체적으로
봤을 때 이 연구는 이상치 탐지보다는 데이터 전처리에 가까운 느낌이었다. 커널 회귀 모형보다 더 문제상황에
적합한 방법론을 찾아 적용시킨다면 보다 의미 있는 결론을 얻을 수 있을 것 같다.
2. 예측 알고리즘 프로핏을 활용한 CDN 환경에서의 콘텐츠 캐싱 기법 연구
콘텐츠 딜리버리 네트워크 (CDN)는 콘텐츠를 효율적으로 전달하기
위해 여러 노드를 가진 네트워크에 저장하여 제공하는 시스템을 말한다. 요즘 콘텐츠를 실시간으로, 또한 대량으로 소비하는 트렌드에 따라 콘텐츠를 제공하는 공급자들도 콘텐츠의 효율적인 공급에 대해 관심을 가지고
있다. 발표자는 상위 20%의 콘텐츠만이 대부분의 소비자들에게
소비되고, 나머지 80%의 콘텐츠는 일부 소비자들에게 소비되거나
혹은 외면된다는 사실에 주목하였다. 따라서 콘텐츠의 viewcount를
예측하여 예측값을 기반으로 hot 컨텐츠 혹은 cold 컨텐츠로
구분하여 서버에 할당하는 방법론을 제안하였다. 실험 결과를 보았을 때 전통적인 예측 방법론인 이동 평균법과
Facebook에서 개발한 예측 알고리즘인 프로핏을 함께 사용했을 때 우수한 결과를 보였다. 개인적으로는 hot/cold 이진 분류가 아닌 여러 단계로 구분하여
멀티클래스 분류를 했을 때 어떤지가 궁금했다. 멀티클래스 분류를 했을 때 활용도 측면에서 더 나을 거라고
생각한다. 또한 이 발표는 예측 단계를 설명하였다. 앞으로
이를 통해서 어떻게 서버에 할당하는지 할당 문제를 푸는 것이 진짜 재미있을 것 같아 기대가 된다.