고려대학교 DMQA 연구실

2015 IEA/AIE 학회 - 조수곤

2015년 6월 14일 오후 10:36
조회수: 1787

Reviewed by

조수곤

올해 개최된 IEA/AIE는 제 28회 The International Conference on Industrial, Engineering & Other Applications of Applied Intelligent Systems로 서울에서 개최되었다. 한국 내 메르스(MERS)의 발병으로 인하여 학회 자체가 무산되는 것은 아닌지 하는 우려가 있었으나, 공식 일정 그대로 진행 되었다. 다만, 메르스의 영향을 우려한 여러 발표자들이 참석하지 않아 몇몇 발표를 청취할 수 없어 아쉬움이 남았다. 그 중 City University of Hong Kong의 Tsui 교수님의 Keynote 발표가 취소되어 가장 아쉬웠다. 하지만 저마다의 주제로 성의껏 발표를 준비한 발표자들과 그 내용을 경청하는 많은 청취자들로 학회의 열기는 뜨거웠다. 이중, 관심을 끌었던 연구주제와 내가 발표한 내용에 대하여 아래와 같이 정리한다.

서울대학교 김선 교수님께서 발표하는 keynote의 주제는 “Network biology”였다. 인간의 게놈지도가 연구되며, Bioinformatics의 지평을 열었다. 이때 DNA, RNA 및 Protein의 분석은 epigenetic event의 측정으로 이뤄진다. 전통적으로 생물학의 영역은 다음과 같이 명칭이 바뀌며 진화한다. Biology -> Bioinformatics -> Bioinformatics and computational biology. 이와 같은 변화의 근본적 원인은 수많은 데이터가 수집되고 분석 가능하다는 것 즉, 데이터 기반 시스템 생물학(data-driven system biology)의 시작으로 대표될 수 있다. 이때 데이터마이닝(data mining)의 역할은 매우 컸다. 현재는 많은 약품들이 bioinformatics를 활용하여 개발 되고 있으며, genomic health, predictive health care로 발전하고 있다. 이후는 personalized medicine의 영역으로 그 영향을 점차 확대할 것으로 판단된다. 또한 bioinformatics는 현상과 원인들의 관계를 파악하기 위하여 “network biology”로의 연구적 전환이 시작되었으며 특히, network mining 이 매우 중요할 것으로 판단된다는 의견을 들었다. 하나의 학문이 데이터의 수집과 분석의 방법의 발전함에 따라 그 영역을 확장해 과는 과정을 살펴보면서, 연구란 무엇인지 생각해보게 된다. 때로는 혼자의 힘으로 해결할 수 없는 문제가, 좋은 시대를 만나 그 전환점을 얻을 수 있다는 점은 어쩌면 축복받은 시대의 연구자일 것이라는 생각을 먼저 했다. 그러나, 잠시 생각을 달리 해 보면 좋은 시대에 축복을 받을 수 있는 수많은 연구자들 중에서, 극 소수만이 그 열매를 맛볼 수 있다는 점을 주목해야 할 것이다. 늘 준비된 사람, 그 필요성을 늘 갈구했던 사람들에게만 시대의 혜택을 받아왔다는 점에서 항상 결핍(문제를 해결할 수 없는 상황이나 능력에 대한) 속에서 늘 깨어있는 상태로 꾸준히 연구하는 사람들에게만 그 축복의 문이 보일 것으로 생각된다.

<발표내용>

이번 학회에서 나의 발표주제는 “Summarization of Document by Finding Key Sentences Based on Social Network Analysis” 였다. 문서의 요약을 위하여 주요 문장을 추출하기 위한 방법을 제안함에 있어, 사용되는 여러 방법 중 사회연결망분석(social network analysis)을 활용한다. 이때 사회연결망에서의 중심 노드(node)를 찾기 위한 centrality degree, closeness centrality degree의 장점과 단점을 확인하고 weighted closeness centrality degree를 제안했다. 이의 적용가능성을 확인하기 위하여 Martin Luther King의 연설문 “I have a dream”을 활용하여 문서의 요약 과정 및 비교를 수행하였다. 비교를 위한 방법들을 활용한 최상위 4개의 핵심 문장은 다른 중심성에 비하여 제안한 방법이 보다 합리적으로 믿어지며, 향후 연구를 통하여 정량적 우수성을 보여야 한다.

<질문 목록과 답변>

1. 어떤 Tool 들을 사용하여 문제를 해결했는지 구체적으로 설명해 달라.

텍스트마이닝과 사회연결망분석을 활용한 문서요약은 하나의 소프트웨어를 활용하여 문제를 풀 수 없는 것이 일반적이다. 따라서, 각 부분에 대한 필요에 따라 사용되는 툴이 다르다. 먼저, 문서단위로 문장을 분해하고, 주요어를 추출하기 위해서는 프로그래밍 언어 Python에 포함되어 있는 NLTK(Natural Language ToolKit)을 활용하였다. 또한 데이터의 저장을 위해서는 Microsoft SQL(MSSQ)을 사용하고, 때에 따라서는 Excel의 Pivot을 실행했다. 그리고 사회연결망분석은 NetMiner 4.0 을 활용했다.

2. 영어에 대한 사례를 보여주었는데, 한국어나 독일어 등 다른 언어에 대한 적용이 가능할 것으로 보이는가?

사실, 오늘 분석 결과로 제시한 영어 연설문뿐만 아니라, 한국 대통령의 취임연설문 또한 분석하여 그 결과를 확인했다. 이때 결과는 납득할 만한 수준의 요약문이 제시되었으며, 독일어와 같은 타 언어에의 적용이 가능할지에 대해서는 발표자가 그 언어에 대해 잘 알지 못하므로 답하기 어렵다. 다만, 문서를 문장으로 분해하고, 핵심어를 찾아 사회연결망내의 핵심 노드를 찾는다는 과정을 통하여 문서를 요약하는 방법은 일반적으로 활용이 가능할 것으로 생각된다.

3. 주제어 선정 방법에 대하여 보다 자세하게 설명 해 달라.

오늘 발표에서 많은 내용을 다 설명할 수 없어 간단히 생략했으나, 그 방법은 다음과 같다. 먼저 형태소분석(morpheme analysis)을 통하여 명사를 추출하고, 동의어 분석을 통하여 같은 의미어 단어들은 대표어로 지정한다. 이후 TF-IDF(term frequency-Inverse document frequency)를 활용하여 각 모든 단어의 TF-IDF score의 분포를 확인하고, Elbow point를 기준값으로 설정하여 16개 단어를 선정하였다.

4. 그렇다면 단어와 단어사이의 유사도를 구하는 방법은 어떻게 구현하는가?

단어와 단어의 유사도(word-to-word similarity)는 이미 여러 방법으로 구현되어 활용할 수 있도록 준비되어 있으며, 그 내용은 앞서 설명한 NLTK in Python에서 확인할 수 있다. 이 방법들은 주로 단어의 구조망에서 단어간의 거리를 측정하는 방법이며, 그 외에 방법들에 대해서는 추가 확인이 필요할 것으로 생각된다.