고려대학교 DMQA 연구실

2015 IRC-SEMS 학회 - 손지은

2015년 3월 31일 오후 8:55
조회수: 1565

Reviewed by

손지은

-발표자 후기-

[발표 주제: Multiple-level Simultaneous Citation Networks for Academic Paper Recommender System]

1.발표준비과정

추천시스템이 산업이나 학계에서 매우 주목받기 시작하면서 다양한 분야에서 추천기법 개발과 성능향상에 대한 관심이 증가하고 있다.
본 연구에서는 학술논문을 추천하는 방법론을 제안하였으며, 성능평가를 위해 'Google scholar'와 'SCOPUS'의 추천결과와 비교하여 제안하는 방법론의 우수한 성능을 입증하였다.
발표자료 작성시, 기존의 학술DB 웹사이트에서 제공하는 추천시스템의 특징과 한계점에대해 설명하였고, 이러한 기존의 문제점을 해결할 수 있는 방법을 설명하였다. 본 연구가 기여하는 바와 해당 방법론에 대해 자세히 설명하려고 노력 하였으며, 처음 제안하는 기법이니만큼 최대한 청중이 이해하기 쉽도록 에니메이션을 활용하여 장표를 작성하였다. 또한 '연구동기 - 기존의 문제 - 제안하는 방법론과 기여하는바 - 기존의 시스템과의 성능비교' 순서로 흐름을 구성하였다.

2. 질문 및 대답
(1)
Q.각 중심도의 값이 가질 수 있는 범위는 어떻게 되나? 제안하는 방법에서는 'final score' 계산시 각 중심도 값에 대해 가중치를 동일하게 했는데 그 이유가 있는지? 다르게 할 수 있다면 적용해 보았는가?

A.모든 중심도의 결과값 범위는 0에서 1사이이다. 현재는 동일한 가중치를 두었지만 각 중심도가 의미하는 바가 다르기 때문에 가중치는 사용자 파라미터로 설정하여 자유롭게 조정할 수 있다. 현재는 가중치를 조정한 실험은 아직 진행하지 않았다.

대답에 대한 의견: 우선 각 중심도가 가질 수 있는 값의 범위가 같은가를 물어본것은 'final score'에서 동시에 사용되기 때문에 정규화가 필요한건지에 대해 물어본 듯 하다. 애초에 본 연구를 진행할 때, 'final score'에서 가중치를 파라미터로 설정하였다가 다양한 가중치를 적용한 실험은 아직 진행하지 않았기 때문에 동일한 가중치를 부여하는 것으로 변경 하였는데 첫번째 질문으로 나왔다. 보통 가중치를 조정하여 결과가 달라질 경우 파라미터 설정에 따른 결과값을 평가해야 하는데, 본 연구에서는 추천 결과에 대한 정확한 정답이 존재하지 않기때문에 사용자가 만족도 평가를 하고 NDCG와 MRR을 계산하였다. 파라미터를 다르게 조정한다고 해도 MAE와 같은 명확한 기준이 없기 때문에 파라미터 조정과 결과에 대한 해석이 어려울것같다.

(2)
Q.'관련있는 논문(relavant papers)'에 대해서는 다양한 정의가 존재할 수 있겠다. 제안하는 방법론에서는 어떻게 정의를 어떻게 하였는가?

A. 제안하는 방법론의 핵심은 크게 두단계로 나뉜다. 첫번째는 흥미논문과 관련있는 논문을 선택하는 것이고, 두번째는 관련있는 논문들 중에서 중요하고 권위있는 논문(authority papers)를 찾는것이다. 그 중, 관련있는 논문은 사용자의 흥미논문과 유사한 논문을 의미한다. 유사도를 측정하는 방법으로 biblography와 co-citation 기법을 활용하였으며 이때 흥미논문과 타겟논문간의 link 수도 함께 고려해 거리의 정도를 반영하였다. 즉 관련있는 논문을 찾는 단계는 네트워크를 구성하는 논문들 중에서 인용정보를 바탕으로 유사한 논문을 구분짓는 경계선(boundary)을 찾는 단계이다.

대답에 대한 의견:제안하는 방법론에서는 흥미논문을 중심으로 인용정보를 네트워크상에서 무한대 확장한다는것을 가정으로 하고있다는 것을 강조했었어야 했다. 즉, 무한으로 확장한 네트워크상에서, 사용자의 흥미논문과 같은 기술영역 혹은 유사한 논문을 구분짓기 위해 관련있는 논문을 정의한 것이다. 이 단계는 실질적으로 추천이 이루어지는 단계는 아니며 이후에 중심도를 이용하여 권위있는 논문을 찾기 위한 후보논문 선정 단계이다.

(3)
Q.실험에서 사용한 데이터를 어떻게 수집하였으며, 활용한 정보는 무엇인가?

A.데이터 수집은 'SCOPUS'에서 하였다. 같은 논문DB지만 실험에서 보여주는 'SCOPUS'의 추천결과는 제안하는 방법론과 다른 '텍스트 유사도 기반 추천알고리즘'을 통해 나온것이다. 제안하는 방법론에서 사용한 데이터는 오직 인용정보 뿐이며, 이러한 인용정보는 각 논문의 레퍼런스 목록으로부터 얻을 수 있다.

대답에 대한 의견: 인용정보를 가지고 네트워크를 형성하였다고 구두로 계속 말했지만, 논문에서 일컫는 인용정보가 무엇이고 어떠한 특성을 가지고 있는지에 대해 장표에서 따로 언급하지는 않았다. 인용 분석은 기존의 다양한 문제점을 해결할 수 있는 중요한 역할을 하고있으므로 이부분에 대해 자세히 언급하는것이 본 연구이 기여하는 바를 알리기에 좋을 듯 하다.

2.발표 시 아쉬웠던 점과 개선방향

주어진 발표시간은 15분이었는데 학회가기전 연습할 때 시간을 재보니 15분이 초과되어 인용분석과 네트워크분석의 특징 등에 대한 설명의 비중을 줄였다. 좀 더 자세한 설명을 하지 못한것이 아쉽고 짧은시간에 얼마나 내 연구를 청중에게 잘 이해시킬 수 있을지에 대해 고민하는 계기가 되었다. 특히 어플리케이션이 아닌 방법론 제안을 하는경우, 청중들은 이해가 어렵고 쉽게 집중력을 잃을 수 있기때문에 흥미와 관심을 유발하면서 효과적으로 내용을 전달할 수 있는 방법을 생각해 가면 발표를 준비해야겠다.

-청취자 후기-

[1일차]
1.Hybridization of MA, ARIMA and BPNN models in time series forecasting
주식시장에서 주가예측을 하기위한 Hybrid forecasting 방법론을 제안하였다. 이는 기존의 MA, ARIMA와 같은 예측모델을 개별로 썼을때의 문제점을 보완하기 위해 제안되었으며 세 개의 개별모델을 혼합하였다. 특히, 주식데이터는 linear 와 nonlinear 변수로 이루어져있기 때문에 각각의 특성을 잘 반영할 수 있는 개별모델을 혼합하여 예측에러를 최소화 하는것을 연구목적으로 하고있다. 발표자는 MA와 ARIMA, 그리고 BPNN을 혼합하였으며 제안하는 방법론의 성능확인을 위해 Colombo Stock Exchange의 3년간 데이터를 활용하였다. Hybrid모델에서 각 개별 모델에 대한 가중치는 MAE값을 최소로 하는 값으로 설정하였다. 실험을 통해 제안하는 알고리즘의 우수성을 입증하는데 사용된 평가척도는 MAE, RMSE, MAPE 였으며 또한 주가 예측에서 중요시 되는 '하락' 혹은 '상승' 여부도 평가하였다. 실험에서 정의한 주가 하락과 상승을 판단하는 기준(기간)에 대해서는 언급하지 안았는데, 주식에 대한 전문지식이 부족하여 기간에 따라 어떤의미를 가지는지는 이해하기 어려웠다. Hybridization에 있어 발표자는 Combining method와 Hybrid model을 위한 가중치 선택방법이 중요하다 생각하였고, 이와 관련된 다양한 기존의 연구를 소개하였다. 비록 Preliminary 파트여서 자세한 알고리즘 설명은 없었지만 몰랐던 최신 기법을 알 수 있는 기회였고, 언급된 기법들을 레퍼런스를 통해 논문을 확인해 봐야겠다.

2.Assessing a Novel K-NN Imputation Strategy on Cart-based Software Effort Estimation
결측치가 존재하는 데이터를 다루기 위한 Imputation 기법을 소개하였다. 우선, Listwise deletion method가 널리 사용되고 있지만 이는 표본의 크기가 줄어들기 때문에 발표자는 Data imputation techniques 를 연구하였으며 그 중, K-NN Imputation의 문제점을 해결할 수 있는 방법을 제안하였다. K-NN imputation은 각 결측치 보정에 있어 parameter값을 지정해야 하는데 기존 연구에서는 예측성능을 최대화 시키는 Parameter값 선정 방법에 대한 연구가 없었다. 해당 연구에서는 CART를 사용하여 각 Context 별 파라미터값을 설정하는 방법을 제안하였으며, MRE와 MRE를 통해 우수한 성능을 입증하였다.

3.Improving Cyber Security of SCADA Systems by Complete Visibility Data Auditing
SCADA(Supervisory Control And Data Acquisition)은 흔히 일컫는 산업제어 시스템으로 산업 공정이나 기반시설을 바탕으로 한 작업공정을 감시하고 제어하는 컴퓨터 시스템이다. 수많은 센서로부터 데이터가 수집되고, 이를 바탕으로 의사결정 및 제어가 이루어지며 이는 다시 공정에 반영된다. 이러한 SCADA 시스템이 사이버공격을 받을 경우, 개인이나 기업 혹은 국가적으로 큰 손실을 야기시킬 수 있으므로 SCADA보안의 중요성이 대두되고 있다. 과거에는 단지 외부에대한 노출을 최소화 시키는 방법을 적용하였고 이후에는 worms나 DDoS와 같은 다양한 보안 툴이 외부공격을 막고있지만 여전히 내부적 접근에 의한 공격이 지속되고 있다. 따라서 발표자는 단순히 보안이라는 개념이 공격을 막는것이 아니라 'End to end visibility'를 통해 데이터를 감시해야 한다고 주장 하였다. 전반적으로 방법론을 설명하기보다는 문제를 정의하고 홍콩의 몇몇 사례를 중심으로 'End to end visibility' 개념을 소개하였다. 발표자는 발표에 앞서 본 발표가 학술적 의미보다는 실제 산업에서 무엇이 중요하고 어떻게 적용되어야 하는지를 중심으로 발표를 진행하겠다고 했는데, 나중에 알고보니 'Data transaction'을 기반으로 보안 소프트웨어를 개발하는 회사에 소속되어있는 박사과정 학생이었다.

[2일차]

1.A Systematic Review of Predictin Approaches for Patient Arrivals in the Emergency Department
Emergency Department(ED)는 병원에서 응급치료를 진행하기 위한 Frontline 부서이다. 본 발표는 응급부서에서 이슈화되는 Demand forecasting, Days-off scheduling, Shift scheduingLine-of work construction, Task assignment, Staff assignment 분야에서 진행된 연구를 정리하고 리뷰하였다. 그중에서, ED patients' arrival에 대해 초점을 두고 각 알고리즘의 특징과 장단점을 소개하였다. 전반적으로 의료분야에서 산업공학의 역할이 왜 중요한지 잘 나타내었고, 청중의 입장에서 헬스케어의 흐름을 잘 이해할 수 있었다.

2.Study on the User Requirements for Elderly Day Care Center in HonKong
헬스케어 세션의 반 이상은 자국의 실제 환경과 경험을 바탕으로 진행 된 연구가 많았으며 해당 발표 역시 홍콩에 있는 'elderly day care center' 의 현재 상황을 리뷰하였다. 다양한 통계적 분석과 조사를 실시하였고, 이를 바탕으로 'elderly care'의 성능을 향상시키는 것을 연구목적으로 하였다. 문제를 올바르게 인식하고, 적절한 분석기법을 적용하는것에 대한 중요성을 새삼 깨달았다.

Conference