고려대학교 DMQA 연구실

2014 대한산업공학회 추계 학술대회 - 조수곤

2014년 11월 23일 오후 10:36
조회수: 1840

Reviewed by

조수곤

40주년을 맞는 2014 대한산업공학회 추계 학술대회는 '산업혁신 3.0을 위한 산업공학의 역할'이라는 주제 아래, 경기대학교 수원캠퍼스에게 개최되었다. 비오는 토요일 아침에 도착한 캠퍼스에는, 이른시간임에도 불구하고 참석자들로 로비가 가득했다. 저마다의 주제로 성심성의껏 발표를 준비한 발표자와 그 내용을 경청하려는 많은 사람들로 학회의 열기는 뜨거웠다. 이중, 관심을 끌었던 연구주제와 내가 발표한 내용에 대하여 아래와 같이 정리한다.

"스마트카드 빅데이터를 활용한 서울시 대중교통 편의성 지표 개발"은 버스와 지하철 이용객의 정보를 교통카드 결제 정보로부터 수집하여, 각 지역별 이동량에 대한 지표의 설계하고 발표하였다. 항상 관심은 있었으나 쉽게 접할 수 없는 데이터를 엿볼 수 있는 기회였다. 또한 대중교통 이용자의 출발지, 도착지 정보를 코드화하고 이동 시간과 총 이동량을 활용한 지역별 편의성 지표를 제안한 점은 독창적이라고 할 수 있겠다. 다만, 버스와 지하철 또는 도로의 형태 등과 같은 상황별 차이점을 분석에 포함시킨다면 매우 좋은 연구결과가 기대되는 발표였다. 또한 이와 같은 데이터가 공공에게 열람되고 분석가능하도록 제공되기를 희망하게 되었다. 그 누구에도 해를 끼치지 않을 수 있는 공공 데이터는 개방되고 분석되고 활용되어야 한다.

"제 2형 당뇨병 환자의 진단 및 처방 정보를 이용한 지식 발견 모델 구축" 라는 제목의 발표는 당뇨병 환자에 대한 처방 데이터와 그 결과의 관찰 데이터를 활용하여 숨겨진 규칙을 찾기 위한 연구였다. 일반적으로 의료데이터의 형태는 많은 양의 전처리가 요구되는 것처럼, 이 연구도 많은 양의 전처리를 거쳐 환자의 인구통계학적 정보와 약제처방, 검사 결과를 정형화된 형태로 생성했다. 이를 활용한 연구 결과는 아직 아쉬운 점이 많았다. 아마도, 제 2형 당뇨를 하나의 영역으로 설정한 것이 그 원인으로 생각된다. 발표자도 이에 동의했다. 2형 당뇨가 모두 같은 증상을 보이지 않고 더욱이 환자의 상황(성별, 나이, 합병증 등)이 다른 경우가 많기 때문에 질병을 세분화해야 좋은 결과가 있을 것같다는 공감대를 형성했다. 연구의 한계를 지적하는 질문에 매우 적절한 대응이었다고 생각된다.

<발표내용>

이번 학회에서 나의 발표주제는 "분류알고리즘 기반의 텍스트 유사도 측정" 이었다. 텍스트의 유사도 측정은 텍스트와 텍스트 사이의 의미적 유사성을 점수화 하는 과정이며, 최근 다양한 분야에서의 활용도가 매우 높다. 따라서 발표된 연구내용은 텍스트의 비교 및 평가 연구에 초석이 되는 기대효과가 있다. 제안된 방법은 주어진 두개의 문서에서의 출현 단어와 문장으로 분해하여 관찰정도를 기록하고, 분류정확도를 구함하여 구현한다. 이때 분류의 정확도는 문서의 유사도와 반비례 관계를 갖는다. 따라서 분류 정확도가 높은 두개의 문서는 서로 다른 문서로, 그리고 분류 정확도가 낮은 문서들은 유사한 문서로 정의된다. 이와같은 이론을 실제 데이터를 활용하여 기존의 방법과 비교하여 우수함을 보였다.

<질문 목록과 답변>

1. 문서의 유사도 측정 방법중, 토픽 모델링도 문서의 출현 단어의 빈도에 따라 유사도를 측정하는 방법으로 알고 있는데, 현재의 방법과 토픽모델링과의 차이점을 설명하자면?

맞다. 토픽모델링(Topic Modeling)을 활용하는 방법 또한 문서에서 출현한 단어를 활용한다는 점에서 제안한 연구와 유사하다. 하지만, 토픽모델링은 주어진 두 문서에서 추출된 단어를 별도로 정리된 문서집합(corpus) 에서 출현한 단어들과의 비교를 해야 한다. 다시말해, 문서내 출현 단어의 분포에 따라 그 주제가 정해진 정답을 활용하여 문서의 유사도를 측정한다. 그러나 오늘 제안한 방법은 다른 주어진 두 문서만을 활용한다. 따라서 새로운 토픽모델링을 사용했을때의 가장 큰 단점 즉, 문서 주제에 따른 준비된 정답이 없는 경우에도 자유롭게 활용할 수 있다는 장점을 가진다.

2. 제안된 방법이 속도면에서 기존의 방법에 비하여 우월하다고 설명했는데, 그 이유를 다시한번 설명 해 달라.

기존 문서 유사도 측정 방법은 각각 문서에서 출현한 모든 단어쌍과의 유사도를 모두 측정해야 한다. 예를 들어 하나의 문서에서 출현하는 단어가 각 50개 라면, 그 계산량은 2,500회가 된다는 얘기다. 만약 한권의 책과 또다른 한권의 책의 유사도를 측정하려 한다면 계산량은 매우 클 것이다. 하지만, 제안하는 방법은 두 문서간 단어사이의 유사도 측정을 하지 않고, 분류 정확도(classification accuracy) 측정을 위한 분류기(classifier)를 사용한다는 특징을 가지로 있다. 실제로 실험에서 활용된 문서의 집합 2,550번의 유사도 측정에서 기존의 방법은, 다소 차이는 존지하지만, 약 3~4시간이 소요되고, 제안된 알고리즘은 3~5분이 걸렸다. 구체적 계산량이 명시되지는 않았으나, 속도면에서 확실히 우월하다.

Conference