The International Conference On Big Data and Smart Computing (BigComp 2014, http://www.bigcomputing.org/) 는 KIISE(Korean Institute of Information Scientists and Engineers)의 추최로 이루어진 국제학술대회다. 총 3일간 발표된 논문은 70여편으로, Big Data의 설계 및 활용에 대한 유익하고 수준높은 주제를 다수 포함하고 있었다. 이중 몇몇 세션에 대한 후기를 작성하고자 한다.



1. Visualization

데이터 및 분석결과의 시각화는 이미지(image), 도표(diagram) 및  동영상(animation) 등을 활용하여 메시지를 보다 쉽게 설명해 주는  주요한 수단으로, 내용의 요약과 구체화를 통한 의사소통에 그 목표를 두고 있다. 발표된 논문중 “Visualization in financial news”는 시계열에 따른 금융뉴스의 Keyword visualization 에 촛점을 맞추고 있었다. 이는 Time series word cloud 와 correlated keyword group으로 정의 될 수 있으며 색상으로 구분된 현상의 원인 또는 영향(impact) 를 한눈에 살펴 볼 수 있게되는 아주 흥미로운 방법이었다. 하지만 Visualization을 뛰어넘는 의사결정을 위한(투자자의 투자여부에 대한) 알고리즘의 개발이 필요할 것으로 보이며,  표시될 keywords 선정과 opinion algorithm 의 선정이 중요한 과제로 대두될 것으로 보인다. 또한 “Visual Analytics of Massive Complex Networks”는 대형 네트워크 데이터에 촛점을 맞추고 있었다. 이는 Big data의 scale, complexity problem of networks 의 문제 해결에 집중하면서, 구조의 이해(understand the structure), 새로운 지식(new knowledge/insight), 데이터 패턴(regular/abnormal patterns/behavior) 을 찾기 위해 자체 개발한 Tool(GEOMI-Geometry for Maximum Insight, http://sydney.edu.au/engineering/it/~visual/valacon/geomi/)을 제안하고 결과를 제시했다. 위 두 논문의 발표를 통해서 살펴보면, 텍스트 등 비정형과 대용량 데이터의 시각화의 좋은 결과를 제시하고 있으나, 결과의 활용을 위한 의사결정 또는 예측의 연구가 이루어지지 않은것을 확인할 수 있다. 데이터마이닝 연구자들은 위와같은 시각화의 결과에 대한 적극적인 활용과 함께, 일반적인 결과를 뛰어넘는 연구를 할 수 있을 것으로 기대한다.



2. Bio-Informatics

Bio-Informatics 세션에서는 총 5개의 논문이 발표되었다. 물론 생물학 데이터를 활용한 여러 사례와 기법들을 포함하고 있었는데, 병(cancer)에 작용하는 약물의  조합(combination)의 복잡도(complexity)가 매우 높기 때문에 밝히기 어려운 약물의 효능을 검증을 위한 논문,   microRNA-mRNA의 상호작용(interactions)과 multiclass RNA sequence 의 예측과 규명이 주의를 끌었다. 생물학에 대한 사전지식이 충분하지 않아 많은 내용들을 이해하기 어려움이 있었다. 하지만 주목해야 할 점은, 여러 데이터마이닝 알고리즘들이 활용되고 있었다는 점이었다.  약물과 효능 데이터를 사회연결망(Social network)으로 구성하거나, 앙상블(Ensemble)과 멀티클래스(Multi Classification) 문제로 치환하여 문제를 해결하려는 노력이 돋보였다. 이 점에서 데이터마이너들의 또다른 역할이 두드러질 수 있을 것으로 보이는데,  새로운 데이터나 영역의 진출이 활발하게 이루어질 때 가능할 것이다. 인간의 본성은 위험을 감수하는 새로운 도전에 소극적일 수 밖에 없다.  하지만, 연구자들에게 새로운 영역의 개척은 본인의 노력여하에 따라 인류의 진보에 도움이 될 수 있는 공익적 사명이 먼저 고려되어야 할 것이다. 



3. Collaborative Filtering and Recommendation

추천시스템은 과거 다수 사용자들의 패턴과 현재 사용자(추천의 대상이되는)의 패턴을 고찰하여 사용자별 맞춤 추천을 하는데 목표를 두고 있다. 본 세션에서는 사용자가 선호하는 최적의 아이템을 필더링하기 위한 여러 알고리즘의 예시를 살펴 볼 수 있었다. 전통적으로 구매자의 신상정보와 구매패턴을 활용하는 아마존(Amazon.com)의 시스템을 예를 들 수 있겠으나,  사용자 위치 정보를 활용하는 뉴스 제공 시스템과 사용자 열람정보(user’s viewing history)를 이용한 의미군집(Semantic Clusters)의 추천시스템이 흥미를 끌었다. 이들은 모두 텍스트의 분석이 수반되어야 가능한 것으로써 현재의 나의 연구주제와 밀접한 연관을 띈다. 텍스트에 대한 보다 진보된 추천을 위해서는 정보의 의미적 특징 추출과 함께, 문서간 의미적 유사성에 대한 연구가 큰 힘을 보탤 수 있을 것이라는 생각이 동시에 든다.  예를 들어 사용자가 특정 제품에 대한 후기(review)를 작성하고 난 직후, 시스템이 유사한 후기와 상이한 후기를 동시에 제시한다면 본인의 생각이 어느정도 일반의 생각과 일치하는지를 가늠할 수 있을 것이다.



4. WILLIS Workshop

우리 연구실에서 KISTI(한국과학기술정보원)과 공동으로 진행한 법무부 iLaw system (http://www.ilaw.go.kr/)에 대한 지능형 법령정보 시스템에 대한 워크샵이다. 이 세션에서는 지능형 법률정보시스템의 필요성과 함께 해외 법령정보의 열람을 위한 자동 번역기술 그리고 차세대 정보전략(Information strategy planning for the next generation iLaw system)의 발표와 질의 및 토의가 이어졌다. 많은 내용을 사전에 숙지하고 있었기 때문에 가벼운 마음으로 발표를 듣던중, 분석을 위한 텍스트 데이터의 중요 용어(Terms)를 구성하기 위해 사전(dictionary)를 구성하는 과정을 청취하게 되었다. 이는1)기본적인 용어(term)의 집합구성 2)기계적인 활용을 위한 필터링 3)현재 존재하는 시소러스(thesaurus)와 외부 자원(external resources)을 활용 4)법률 전문가를 통한 검증(evaluation data by legal experts) 의 4단계로 구성된다. 내가 주목한 점은 첫번째 단계의 기본용어의 구성인데, 통상 책의 뒷쪽에 작성된 인덱스(Index)를 활용한다는 점이다. 이는 텍스트마이닝의 기초 단계인 주제어 추출(Keyword Extraction)과 매우 유사한 것으로 판단되는데, 인덱스를 활용하는데에서 이를 생성하는 방법을 찾는 것으로 발상을 전환할 수 있겠다.  이 연구는 도서를 출판할 때 인덱스의 생성을 돕는 기능과 함께, 저자가 선정한 핵심 키워드의 검증을 동시에 할 수 있는 장점을 가질 것으로 보인다.


 


학술대회는 많은 연구자들이 본인들의 연구영역에서 각고의 노력끝에 도출한 진보된 결과를 대중에게 보이고 검증받는 시간이다. 짧은 시간안에 함축된 내용을 발표하는 것이니만큼, 청취자도 많은 노력을 해야만 그 노력의 정수를 받아 들일 수 있게 된다. 나는 항상 컴퓨터에 발표내용을 기록하고, 필요하면(물론 허락된다면) 촬영도 한다. 그 기록은 추후 나의 연구에 많은 도움이 된다는 점은 특별히 언급할 필요가 없겠다. 또한 발표 중에 모르는 용어나 개념은 가급적 빠른 검색을 통해 이해를 하려고 노력을 하는것도 중요한 포인트가 될 수 있을 것이다. 마지막으로 다른 이들의 발표를 감사하게 그리고 비판적으로 바라보고 나의 연구로 연결시킬 수 있는 열린마음, 열린 눈을 항상 유지하는 것이 필요하겠다.