고려대학교 DMQA 연구실

2016 한국 BI 데이터마이닝 학회 추계학술대회 - 손지은

2016년 11월 21일 오후 6:56
조회수: 2088

Reviewed by

손지은

-발표자 후기-

1.발표준비과정
Collaboratibe filtering은 학문적으로 우수한 성능이 입증되었지만 실제문제에서 여러가지 제약으로 인해 활용이 어렵거나 추천성능이 좋지 않은 경우가 있다. Content-Based filtering은 실링어택, 데이터수집의 어려움, Cold start 등의 문제가 발생하지 않는 반면 아이템의 속성을 정의하기가 어려워 연구가 미흡한 현실이다. 아이템의 속성을 잘 반영한 콘텐츠 기반 개인화 추천시스템을 개발하기 위해 Egocentric networks을 적용한 기법을 제안하였다. 제안하는 알고리즘의 이해를 돕기위해 단계를 명확히 구분지어 PPT를 구성하였으며 결과 비교에서 핵심을 강조하였다.

2. 질문 및 대답

질문 : Cold start 문제는 일어나지 않는가? 새로운 아이템은 어떻게 추천되는가?
대답 : 새로운 아이템은 기존 cluster와의 유사도 측정을 통해 특정 cluster로 속하게 되며, 아이템 속성만을 기준으로 추천이 이루어지기 때문에 Cold start 문제를 해결할 수 있다.

3.발표 시 아쉬웠던 점과 개선방향
발표를 할때에는 제안하는 알고리즘을 상세히 이해시킬수는 없더라도, 문제 제기(Motivation)와 제안하는 알고리즘의 핵심, 그리고 본 연구가 기여하는바에 대해서 강조하려고 노력하였다. 내가 발표하는 내용에 대해서 청중이 잘 이해하고 있는지 파악하기 위해 상호소통이 잘 되야하는데 이부분이 아직 미흡한것같다. 내가 발표하고자 하는 내용을 더 완벽히 전달하기 위해 더 많이 노력하고 연습하여 실제 발표현장에서는 상호소통을 자연스럽게 할 수 있도록 해야겠다.

-청취자 후기-

[신약재창출을 위한 기계학습 네트워크 알고리즘]
고비용 저효율의 기존 신약재창출 방법의 문제점을 해결하고자 기계학습 네트워크기반의 신약재창출 기법을 제안하였다. 두 질병이 서로 유사할 때 한 질병에 사용되는 약이 다른 질병의 치료에도 사용될 수 있다는 가정하에 고안되었으며, 질병-단백질 네트워크, 질병-약물 네트워크를 각각 구성하였다. 두개의 네트워크를 Mirroring하여 네트워크 연결이 상이한 부분이 신약재창출의 기회가 있다고 판단하는 접근방식이다. 네트워크에서 연결상태의 차이를 정량적으로 비교하기위해 Kullback-Leibler divergence를 사용하였다. 기존에는 두개의 네트워크가 아니라 두개의 매트릭스를 구성하고 상호정보량 유사도를 계산하는 방법이 있는데 제안하는 방법에서는 네트워크를 사용한것이다. 기존의 방법과 성능 비교가 필요하겠으며, 단순 약물 조합 유사도 뿐 아니라 화학성분 및 부작용 측면에서의 관계도 함께 고려되어져야 하겠다.

[Detection of emerging hot topics by using keyword extraction]
특정기간동안 자주 등장하는 단어들을 파악하는것을 핫토픽 감지라하며, 대표적인 기법으로는 TF-PDF(Term Frequency Proportional Document Frequency) 혹은 시간주기에 따른 등장빈도 변동성 측정 함수가 있다. 발표자는 주기적으로 발표되는 텍스트 스트림 데이터에 대해 기계학습 알고리즘을 적용하여 핫토픽 감지를 하고자 하였으며 핫토픽 감지 방법론을 응용한 교사학습 분류모델을 제안하였다. 기존의 키워드 추출 방법과의 가장 큰 차이점은 모든 단어에 대해 사용자가 키워드 라벨링을 하지 않고 time window 방식에 따른 구분만으로 모델을 학습하는 접근방식이다. 제안하는 알고리즘의 성능 입증이 미흡한 점이 아쉬웠다.

Conference