2014 한국BI데이터마이닝학회 추계 학술대회 - 조수곤
- 2014년 12월 1일 오후 2:50
- 조회수: 1153
Reviewed by
조수곤
조수곤
2014 한국 BI 데이터마이닝 학회는 "데이터 사이언티스트와 데이터마이닝" 이라는 주제로 부산 벡스코에서 개최되었다. 발표자들이 성심성의껏 준비한 연구 주제중에 관심을 끌었던 내용을 아래와 같이 정리한다.
"Location, Mobility and Link of the Geotagged Tweets" 는 트위터 데이터 중 지역정보를 활용하여 트위터의 사용성을 한눈에 파악할 수 있도록 연구된 결과였다. 사용자들의 지역정보를 수집하여 위 경도로 재 가공하고, 이를 지도상에 매핑하는 지루하고 힘겨운 작업의 결과가 단 한장의 이미지로 요약하는 과정은 그 자체가 연구대상일 것이다. 특히 언어적, 시간적 관점에서의 시각화는 흥미로운 결과를 엿 볼 수 있었다. 다만, 사용자의 트윗 그 자체에 대한 연구가 추가된다면 보다 많은 지식을 탐구할 수 있을 것으로 생각된다. 텍스트마이닝을 활용한 특정 주제에 대한 탐구는 발표된 연구결과에 보다 완성된 결과를 제공하는 결과를 얻을 수 있을 것으로 생각된다. 추가로, 전임 학회장님이셨던 조재희 교수님께서 직접 연구결과를 발표하시는 모습에서 연구에 대한 자부심과 열정을 확인할 수 있었다.
"딥러닝을 이용한 네트워크상에서 주요변수 추출"은 네트워크 데이터의 주요변수를 추출하는 방법을 딥러닝으로 구현한 연구 결과였다. 네트워크를 특성을 표현하는 변수의 추출은 실제로 많은 분야에서 활용할 수 있는데, 텍스트마이닝 분야에서의 활용이 있을 수 있을 것으로 생각된다. 기본적으로 하나의 텍스트는 단어(term)의 출현 정도를 활용하여 주제어 또는 문장의 관계를 표현하는 네트워크로 표현할 수 있다. 이 네트워크를 구분 또는 분류할 때 할용이 가능할 것으로 생각되며, 데이터를 제공하여 공동 연구가 이루어 질 수 있는 가능성을 엿보았다. 하지만, 계산량 또는 속도의 문제는 충분히 고려되어야 할 또하나의 연구주제가 될것 같다. 추가로, 네트워크들의 노드가 동일해야 하는 점도 또 하나의 중요한 숙제가 될 것으로 생각된다.
"아차사고 데이터베이스를 활용한 산업재해 위험평가 분석 및 모형 개발"은 산업현장에서 활용되는 위험요소 문서와 사고결과 문서를 활용하여 그 현상을 연구하였다. 텍스트마이닝을 활용하여 각각의 문서의 형태소 분석을 하여 명사형 단어를 추출하고, 그 벡터를 구성하여, 단어 벡터간 유사도를 측정하여 위험성 평가를 하였다. 대부분의 데이터마이닝 영역에서는 정형화된 데이터를 기반으로 다양한 응용사례를 확인하고 있으나, 최근 태동되고 있는 텍스트 데이터 자체를 활용한 응용이라는 점에서 그 의의가 있을 것으로 보인다. 하지만, 풀어야 할 숙제도 여전히 존재하는데, 단어를 명사형 단어만 추출했다는 점, 그리고 동의어에 대한 유사도의 측정 방법에 대한 고려가 포함되어야 한다는 점은 보완대상으로 생각된다. 물론, 연구자의 고민 또한 이해한다. 한글 분석에 있어 아직 동의어를 측정하는 방법이 확립되지 않았기 때문일 것이다. 언어학 등에서 보다 활발한 기저 연구가 수행되기를 희망해 본다.
"Location, Mobility and Link of the Geotagged Tweets" 는 트위터 데이터 중 지역정보를 활용하여 트위터의 사용성을 한눈에 파악할 수 있도록 연구된 결과였다. 사용자들의 지역정보를 수집하여 위 경도로 재 가공하고, 이를 지도상에 매핑하는 지루하고 힘겨운 작업의 결과가 단 한장의 이미지로 요약하는 과정은 그 자체가 연구대상일 것이다. 특히 언어적, 시간적 관점에서의 시각화는 흥미로운 결과를 엿 볼 수 있었다. 다만, 사용자의 트윗 그 자체에 대한 연구가 추가된다면 보다 많은 지식을 탐구할 수 있을 것으로 생각된다. 텍스트마이닝을 활용한 특정 주제에 대한 탐구는 발표된 연구결과에 보다 완성된 결과를 제공하는 결과를 얻을 수 있을 것으로 생각된다. 추가로, 전임 학회장님이셨던 조재희 교수님께서 직접 연구결과를 발표하시는 모습에서 연구에 대한 자부심과 열정을 확인할 수 있었다.
"딥러닝을 이용한 네트워크상에서 주요변수 추출"은 네트워크 데이터의 주요변수를 추출하는 방법을 딥러닝으로 구현한 연구 결과였다. 네트워크를 특성을 표현하는 변수의 추출은 실제로 많은 분야에서 활용할 수 있는데, 텍스트마이닝 분야에서의 활용이 있을 수 있을 것으로 생각된다. 기본적으로 하나의 텍스트는 단어(term)의 출현 정도를 활용하여 주제어 또는 문장의 관계를 표현하는 네트워크로 표현할 수 있다. 이 네트워크를 구분 또는 분류할 때 할용이 가능할 것으로 생각되며, 데이터를 제공하여 공동 연구가 이루어 질 수 있는 가능성을 엿보았다. 하지만, 계산량 또는 속도의 문제는 충분히 고려되어야 할 또하나의 연구주제가 될것 같다. 추가로, 네트워크들의 노드가 동일해야 하는 점도 또 하나의 중요한 숙제가 될 것으로 생각된다.
"아차사고 데이터베이스를 활용한 산업재해 위험평가 분석 및 모형 개발"은 산업현장에서 활용되는 위험요소 문서와 사고결과 문서를 활용하여 그 현상을 연구하였다. 텍스트마이닝을 활용하여 각각의 문서의 형태소 분석을 하여 명사형 단어를 추출하고, 그 벡터를 구성하여, 단어 벡터간 유사도를 측정하여 위험성 평가를 하였다. 대부분의 데이터마이닝 영역에서는 정형화된 데이터를 기반으로 다양한 응용사례를 확인하고 있으나, 최근 태동되고 있는 텍스트 데이터 자체를 활용한 응용이라는 점에서 그 의의가 있을 것으로 보인다. 하지만, 풀어야 할 숙제도 여전히 존재하는데, 단어를 명사형 단어만 추출했다는 점, 그리고 동의어에 대한 유사도의 측정 방법에 대한 고려가 포함되어야 한다는 점은 보완대상으로 생각된다. 물론, 연구자의 고민 또한 이해한다. 한글 분석에 있어 아직 동의어를 측정하는 방법이 확립되지 않았기 때문일 것이다. 언어학 등에서 보다 활발한 기저 연구가 수행되기를 희망해 본다.