- 2014년 4월 16일 오후 11:40
- 조회수: 1470
조수곤
BI 데이터마이닝 컨퍼런스 후기
4월 15일 오전에 개최된 춘계 BI 컨퍼런스는, "Big Data 시대에 BI의 길을 묻는다"는 제목아래 개최되었다. 정원 1,800여명의 코엑스 그랜드볼룸에는 보조좌석이 배치될 정도로 많은 참가자들이 BIG DATA 에 대한 뜨거운 관심을 쏟아내고 있었다. 오전에 준비된 KEYNOTE 시간에는 세계적인 기업인 ORACLE, SAS, EMC 의 BIG DATA에 대한 주제 발표가 이어졌다. IN-MEMORY 등을 활용하는 분석장비에 대한 발표가 주를 이뤘던 작년과는 다르게, 올해는 보다 구체화된 다양한 사례와 함께 분석을 위한 종합 시스템 등 모두 BIG DATA의 시대를 맞은 우리시대의 고민과 해결방안을 꼼꼼하게 짚고, 정리하며, 설명했다. 업체발표의 특성상 자사의 홍보자료가 포함되는 것이 어쩌면 당연하겠지만, 나에게는 다소 그 광고 상황에 대한 불편함이 있었다. 하지만 이 ‘분석의 시대’를 대표하는 기업들의 결과물 또한 좋은 지식이 된다는 점은 간과해서는 안될 가치일 것이다.
발표 중 가장 기억에 남는 내용은 SAS코리아의 “BIG DATA 분석을 주도하는 데이터 과학자(DATA SCIENTIST)의 역할”이었다. 길지 않은 분량의 내용이었지만, 아무리 훌륭한 하드웨어 또는 소프트웨어가 개발된다고 해도 그 분석을 가능하게 하는 ‘사람’ 의 중요성을 강조한 것인데, 이점에 많은 부분 동의하게 된다. ‘명필은 붓을 탓하지 않는다’는 속담을 예를 들지 않더라도, 최첨단 장비와 프로그램은 지식을 찾아내는 지원 수단이며, 결국은 사람의 가치에 초점을 맞추어야 한다는 내용이었다.
또한 EMC KOREA 의 ‘빅데이터의 분석을 위한 7가지 추진 포인트’는 비단 BIG DATA의 분석뿐만 아니라, 일반적인 데이터의 탐구과정에서 신중하게 고려해 볼만한 가치가 있어 그 내용을 소개한다. (보다 자세한 내용은 학회참석자에게 요청)
* 빅데이터 혁신의 7가지 추진 포인트
1. 주제를 선정하라
2. 데이터를 준비하라
3. 현상과 변화를 감지하라
4. 변화의 원인을 찾아라
5. 예측/최적화 모델로 진화시켜라
6. 데이터 과학자를 지향하라
7. 제대로 된 솔루션을 준비하라
컨퍼런스의 오후에는 산업세션과 학술세션으로 구성되었다. 아쉽게도 발표를 앞두고 있어, 산업세션에는 참석하지 못했지만 자료를 통하여 살펴본 산업세션의 주제가 매우 세분화 되고 있다는 점이 흥미롭다. 건강보험심사평가원의 공공데이터터 개방, 사물인터넷 그리고 실시간 마케팅 등이 그 예가 될 것이다.
또한 학술 세션에서도 다양한 주제의 발표가 150여명의 참석자들과 함께 이어졌다. 역시 BIG DATA 시대의 일등 공신인 모바일/스마트디바이스 기반 데이터에 대한 분석 및 응용, 신재생 에너지 그리고 데이터에 기반한 감정평가시스템에 대한 창의적 주제의 학술 주제의 발표가 이어졌다. 데이터가 있는 곳에 분석이 있다는 말을 실감하게 된다.
학술 세션의 마지막에는 연세대 이원석 교수님의 초청강연도 있었는데, ‘빅데이터와 개인정보보호’라는 주제였다. 최근 금융권 개인정보 유출사태를 통하여, 자칫 위축될 수 있는 데이터분석 영역의 현황과 해결방안을 청취할 수 있는 좋은 시간이었다. 나는 인터넷에서 수집 가능한 개인식별정보의 활용 및 분석의 수준에 대한 고민을 질문 했다. 교수님께서는 인터넷에서 공개가 된 자료라고 할지라도 법적, 윤리적 측면에서 매우 신중해야 한다는 의견을 주셨는데, 이 점은 앞으로 연구에 좋은 지침이 될 것으로 생각한다.
발표 준비 과정
약 3개월전 그 동안의 아이디어를 구체화하고, 예비 실험을 통하여 Classification-based similarity measure 에 대한 연구를 시작하였다. 기존의 similarity 와는 다르게 많은 과정이 생략되어 그리 어려운 과정은 아닐 것으로 생각했었으나, 역시 세상에 쉬운 일은 없었다. 약 1,200여개의 문서쌍에 대한 유사도 측정을 위한 프로그래밍 과정과 그 측정 결과에 대한 평가지표의 설정 등 여러 과정을 거치는 과정에서, 나 혼자만의 성과에 도취된 것은 아닌지 하는 고민을 하게 되었다. 그래서 BI 데이터마이닝 학회에서 연구 과정과 결과를 많은 분들에게 발표하고, 질문과 조언을 통하여 보다 향상된 연구 결과를 얻기로 결심하고 발표신청을 했다.
그러나 정작 발표를 하기도 전에 발표자료를 구성하고 정리하며 청중의 입장을 고려하는 과정, 즉 스스로 제3자가 되어 질문하고 확인하는 과정에서 보다 객관적인 시각을 조금이나마 가질 수 있게 되었다. 이 경험은 앞으로의 연구에서도 연구의 방향을 잡는데 중요한 수단이 될 수 있을 것으로 생각하게 되었다.
질문 목록과 답변
1. 실험에서 텍스트 유사도(Text Similarity)를 구하기 위하여 사용된 분류 알고리즘(Classification algorithm) 과 그 이유는 무엇인가?
본 연구에서 활용된 Classification algorithm 은 Decision Tree (C4.5)을 활용함. 사전의 예비실험에서 다른 classification algorithm 들 중 가장 낮은 정확도(분류 성능)를 보였기 때문에, decision tree 가 효과적인 수단으로 증명된다면 추가 확장이 가능할 것으로 판단 했기 때문. 또한 decision tree 를 통한 if-then rule 의 도출을 통하여 서로 다른(유사도가 낮은) 문서로 분류의 원인이 되는 term(word)와 그 출현 정도를 확인하기 위함. 추후 연구에서 알고리즘을 확대하여 비교연구할 예정.
2. 한글에 대한 분석은 수행 되었는가? 혹시 하지 않았다면, 그 결과를 어떻게 예상하는가?
한글에 대한 분석은 수행되지 않음. 하지만, 한글에서도 본 연구에서 제안한 알고리즘이 효과적일 것으로 예상하고 있음. 이후 연구 주제로 한글 데이터를 활용할 수 있도록 고려할 예정.
3. Text similarity 에 대한 활용 예를 설명한다면?
문서의 유사도는 다양한 분야에서 활용 될 수 있음. 예를 들어 문서의 요약본이 다수 존재한다면, 원본과의 유사도를 각각 측정하여 가장 잘 요약된 문서를 선정할 수 있음. 비슷하게 한 사람이 작성한 문서가 다수 존재할 때, 그 문서들의 일관성을 측정할 수도 있을 것.
또한 한 저널에서 발행하는 모든 논문들의 유사도의 종합결과는, 그 저널의 연구주제에 대한 다양성 등을 판단하는데 주요한 수단이 될 수도 있을 것.