고려대학교 DMQA 연구실

2018 대한산업공학회 추계학술대회 - 성유연

2018년 11월 12일 오후 7:01
조회수: 788

Reviewed by

성유연

[발표 후기]

제목: Development of Concept Graph Network via Topic Modeling Methodology

본 연구에서는 대량의 문서 집합을 단어 단위로 요약할 수 있는 과제를 해결하는 것을 목표로, 토픽 모델링과 네트워크 지표를 사용하여 대표 단어를 추출하는 것을 제안한다. 기존 방법론은 대표 단어를 토픽 모델링의 군집화 기능을 사용하여 토픽 별로 추출하지만, 그 수가 너무 많고 정확도 또한 떨어진다는 점에서 한계점을 보인다. 이러한 한계점을 극복하기 위해 대표 단어 중 불필요한 단어들을 제거하여 보다 의미적으로 효과적인 단어 추출 방법론을 제안한다. 제안 방법론의 핵심은 기존에 추출된 대표 단어들을 상하위 관계로 분리한 후 각종 Network Measure들을 사용하여 순서대로 나열한다. 나열이 성공적이었다면 상위에 있는 단어들이 각종 토픽을 잘 대표할 수 있다고 할 수 있게 된다. 실험을 통해서 기존 방법론에서 추출한 단어들과 정확도를 비교하여 보다 의미 있는 대표 단어들을 뽑을 수 있다는 것을 확인하였다. 향후에 Precision을 통한 accuracy만을 뽑는 것이 아니라, Recall 에 대한 수치 또한 결과로 보여주면 보다 객관적인 검증이 될 것이라는 생각이 들었다.

질문 1. 정답 요약어는 어떻게 뽑았나?

답변. 정답 요약어는 기존 제안방법론의 토픽 모델링을 이용한 문서 군집화를 먼저 시행하였고 각 문서 군집에 있는 논문들의 제목을 사용하였다. 제목의 명사구를 추출하여 토픽 별 정답 요약어를 추출할 수 있었다

질문 2. 정확도가 Precision 개념만을 포함하고 있어 모델의 대표 단어가 정답 요약어와 모두 일치하더라도 기존 제안 방법론에는 불리할 것 같다

답변. 맞는 말씀이다. 향후 실험에서 보다 더 객관적인 검증을 하기 위해 Precision 뿐만 아니라 Recall 값까지 구해볼 예정이다. 또한, 기존 방법론은 Sorting이라는 개념이 녹아있지 않음을 반영하여 Random Sampling 을 하여 상위어와 대조군이 되도록 실험을 계획하고 있다.

질문 3. 왜 대표 단어를 명사구만을 뽑았나. 동사는 안되나.

답변. 보통 동사는 감성분석에서 많이 쓰이는데, 이 이유는 동사나 형용사에 사람의 감정, 태도, 자세 등이 포함되어 있다고 보기 때문이다. 반대로, 명사와 같은 품사는 어떤 주제나 내용을 축약적으로 표현한다는 것을 가정하고 있기 때문에 명사구가 토픽 모델링이나 내용 요약 분야에 많이 쓰인다.

[청취 후기]

제목: Markov Decision Process를 적용한 환자의 질병 예측 및 의료 행위 추천 모델: 의료 빅데이터를 중심으로

본 연구는 전자건강기록이라는 의료 정보 시스템을 사용하여 환자의 정보를 바탕으로 의사결정을 지원해주는 수학적 모델로, 강화학습을 사용하여 환자의 질병 발병 가능성에 대한 예측과 가능한 약제 처방을 추천해준다. 의학 전문가들과 의사들도 환자의 히스토리나 검사 진행상황을 고려하여 진단을 내리지만 아주 정확한 진단을 내리기에는 한계가 있다. 따라서 강화학습 등으로 어떤 증상을 보였을 때 어떤 약효가 효과적이었는지, 혹은 어떤 증상이 있을 때 어떤 종류의 질병이 생겼는지 등을 고려하여 모델을 학습할 수 있다면 종합적으로 진단과 치료가 보다 더 원활히 이루어질 수 있을 것 같다. 의료 분야에서 최근 머신러닝의 활용도가 높아지고 있다고 알고 있는데, 생명을 다루는 것인 만큼 실제 적용할 때에는 많은 실험과 근거가 뒷받침되어야 할 것 같다. 또한, 의료 분야에서 기계가 제공하는 예측도가 사람에게 이로울 수 있는 만큼 해악이 될 수 있는 점에 대해서도 고심하여 연구 윤리에 맞게 연구가 진행될 수 있으면 좋겠다.

Conference