고려대학교 DMQA 연구실

2014 대한산업공학회 추계 학술대회 - 손지은

2014년 11월 24일 오전 10:29
조회수: 1536

Reviewed by

손지은

-발표자 후기-

[발표주제 및 요약]

인용 네트워크를 활용한 논문 추천시스템

기존의 논문 추천은 텍스트 기반으로 유사논문을 선정하여 추천하거나 정보필터링 방법을 사용하여 추천을 진행하였다.

그러나 이러한 방법은 논문 추천의 정확도 측면에서 다양한 한계점이 존재하기 때문에 본 연구에서는 이러한 한계점을

극복할 수 있는 방법을 제안하였다.

제안하는 방법은 논문들의 인용정보를 바탕으로 네트워크를 생성하여 중요한 논문을 사용자에게 추천하는 것이다.

논문 추천시스템의 정의는 "사용자의 흥미분야가 주어지면, 그것과 관련된 논문을 찾아준다" 이며

관련된 논문을 찾기 위해 인용정보를 사용하였고 관련된 논문중에서 중요 논문을 선택하기 위해 네트워크의 중요도를 사용하였다.

3개의 논문에대해 PageRank와 Text similarity, 그리고 제안하는 기법을 적용하여 15명의 연구자를 대상으로

만족도를 평가하였으며, 그 결과 기존의 알고리즘보다 우수한 성능을 나타냄을 입증하였다.

[발표 후 질문]

1.

질문:계산량이 많지 않은가?

대답:인용과 피인용의 관계가 인덱스화 되어있다면 네트워크를 생성하고 유사도와 중심도를 계산하는 과정에서는

계산량이 많지 않다는 것을 실험을 통해 확인하였다.

대답에 대한 의견:실험 시 계산량이 문제가 된적은 없지만 데이터를 크롤링하고 DB화 시키는 과정에서 시간이 소요되었다.

실제로 논문의 정보가 DB로 잘 정리된 논문검색엔진회사등에서 사용한다면 계산량과 속도는 문제가 되지 않을것이다.

2.

질문: 피인용 건수가 없는 최신 논문의 경우 Closeness centrality와 Betweenness centrality만을 통해

신규 논문이 실질적으로 잘 추천되는가?

대답: 실험을 통해 실제로 피인용 건수가 없는 최신논문이 Closeness centrality와 Betweenness centrality 관점에서

높은 중심도를 갖게되어 추천목록에 포함되었다.

대답에 대한 의견:In-degree centrality와 PageRank는 피인용 횟수에 영향을 받지만

Closeness centrality와 Betweenness centrality는 피인용 되지 않은 관계에서도 중심도가 높을 수 있다.

기존 알고리즘에 비해 제안하는 방법이 추천결과의 신뢰도가 높고 최신논문을 추천한다는 것이 가장 큰 장점이다.

3.

질문: 다른 종류의 중심도를 사용할 수 있는가.

대답: 중심도 계산방법은 다양하다. 향후 이러한 중심도들이 논문의 인용 네트워크에서 어떠한 의미를 갖고 있는지

파악하여 적용한다면 추천성능을 향상시킬 수 있을것으로 예상한다.

4.

질문: 분야에 따라 추천의 성격이 다를 것 같다. 예를들어, 수학분야는 오래되고 피인용이 많이 된 논문이 중요할 것이고

IT분야는 최신기술을 연구한 최근 논문이 추천되어져야 할 것 같다.

대답: 중심도를 평가할 때, 각각의 중심도는 파라미터 조정을 통해 가중치를 다르게 할 수 있다.

추천받고자 하는 사용자의 목적에 따라 추천결과를 조정 할 수 있다.

-청취자 후기-

[기술경영]

"스마트폰 모바일 앱 서비스의 확산 패턴분석"과 "국내 온라인 게임 산업 생태계 구저 실증분석"에서

시장 경쟁형태를 분류하기 위해 허핀달계수를 사용하였다.

이를 통해 카테고리를 분류하고 각각의 카테고리에서 파라미터를 도출한 뒤 차이를 비교하여 확산패턴의 특성을 파악하였다.
전반적으로 통계기법이나 데이터마이닝 기법을 통해 정교화 할 수 있는 가능성이 충분하다고 생각되었다.

[네트워크 분석]

"사회연결망분석을 활용한 대기업집단 계열사들의 효율성 분석"은 네트워크를 이용하여 재벌기업의 특성 및 효율성을 분석하였다.

매입과 매출을 통해 방향성 네트워크를 사용한 흥미로운 연구였지만 효율성을 판단하기에는 정보가 부족했다.

"Mining 'Followees' in a Mobile Network"는 기존에는 통신사에서 고객의 통화 네트워크 분석시

발신이 많은 고객에게 초점이 맞춰져왔는데 연구자는 수신이 많은 고객에게 초점을 맞추었다.

트위터에서 팔로워의 수가 많은 사람이 중요한 사람이라고 판단하는 개념을 접목시킨것이다.

그러나 통신사의 입장에서 수익에 영향을 미치지 않는 수신자가 고객관리에서 의미가 있을 지 의문이다.

[확률모형 활용]

"Comparison of data pre-processing techniques for relaxing class imbalance" 는

imbalance data를 어떻게 효율적으로 전처리할 수 있는가에 대한 연구로 기존의 다양한 알고리즘을 비교하였고

SMOTE 기법이 우수한 성능을 나타냄을 보여주었다. imbalance data의 전처리 문제에 대해 관심이 많았는데 매우 흥미로웠다.

Conference