KDD Conference 후기 (작성자 : 유재홍)
- 2013년 8월 22일 오후 7:20
- 조회수: 2323
Written by
DMQA
DMQA
2013 KDD 학회 후기
1. 참여세션
1) Outlier Detection and Description
이상치 탐지분야에 대한 연구가 활발하게 이루어지고 있다는 것을 알 수 있었다. 이
세션에서는 특히 Outlier Ensemble을 주제로 한 발표가 가장 인상적이었다. 앙상블
기법은 다수의 분류모델을 융합하여 기존의 분류모델의 성능을 향상시키는 분류
알고리즘인데, 이상치 탐지분야에서는 많은 활용이 이루어지고 있지 않다. 하지만,
Bagging이나 Boosting과 같은 앙상블 기법은 데이터를 분할하고 분할된 다수의
데이터 셋에 대해 각각 분류모델을 구성하는 기법인데, 이러한 기법은 데이터에
내재된 다양한 패턴과 형태를 반영할 수 있다. 이러한 앙상블 기법의 특징을 이용하여
이상치를 탐지하는 기법이 Outlier Ensemble기법이다. 앙상블 기법을 활용하여
이상치를 탐지하는 알고리즘은 상당히 흥미로운 부분이었으며, 기회가 된다면 관련된
논문을 읽고 공정의 이상패턴을 탐지하는데 응용해보고 싶다는 생각을 하였다.
2) Graphs Mining and Social Network Analysis
최근 데이터마이닝 분야에서 그래프 이론을 기반으로 한 연구가 화두가 되고
있다는 것을 알 수 있었다. 그래프 이론이 가장 많이 응용되는 부분은 소셜 네트워크
분석분야 인데, 소셜 네트워크 분석이 단순히 데이터를 시각화하고 데이터간의
관계를 확인하는 데만 활용되는 것이 아니라 그 내부에 상당히 복잡한 알고리즘이
숨겨져 있다는 것을 알 수 있었다. 그래프마이닝 및 소셜네트워크 분석과 관련된
세션에서 흥미로웠던 발표는 “The Role of Information Diffusion in the Evolution
of Social Networks” 였는데, 소셜 네트워크 내에서 정보의 전달이 어떻게
이루어지는지를 분석하는 분야에 대한 발표였다. 이 발표에서는 Heat Kernel함수를
이용해서 네트워크 상의 노드간의 관계를 표현하였고 이를 기반으로 구성된 네트워크
상에서 정보의 전달이 어떤방식으로 이루어지는지를 연구한 내용이었다. 사실
소셜네트워크 분석이나 네트워크 마이닝, 웹마이닝 분야가 나의 연구주제가 아니라서
이해하지 못한 내용도 더러 있었지만, 상당히 흥미로운 연구분야라고 생각했다.
특히 정보의 전달에 있어서, 나는 마코프체인을 통해 이러한 현상을 나타낼 수도
있을것이라고 생각하였고 기회가 된다면, 한번 연구해보고 싶다는 생각이 들었다.
3) Text Mining and Opinion Mining
네트워크 분석과 함께 텍스트마이닝 분야도 최근 가장 화두가 되고 있는 연구분야 중
하나라는 것을 느꼈다. 텍스트마이닝 및 오피니언 마이닝 분야에서 가장 중요한 문제
중 하나가 키워드를 추출하는 부분이다. 문서의 키워드나 주제어를 추출하는 방법에는
여러가지 방법이 있지만, 이번 학회에서는 연구자들이 주제어를 선정하는데 주로
LDA(Latent Dirichlet Allocation)를 기법을 이용하였다. 이 기법은 확률모형을 기반으로
주제어를 선택하는 기법인데, 기회가 된다면 한번 공부해보고 싶다는 생각이 들었다.
이 것을 텍스트마이닝이 아니라 변수선택과 같은 분야에도 응용할 수 있지 않을까하는
생각을 해보았다.
2. 학회 중 느낀점
1) 자신의 발표를 준비하는 자세
다른 연구자들의 발표를 통해 느낀 점은 우선 발표 슬라이드가 상당히 논리적으로
구성되어 있다는 점이다. 발표자들의 슬라이드를 보면 연구 분야를 잘 모르더라도
어떠한 주제의 연구를 하고 있고 이 연구가 어떠한 방식으로 수행되었는지에 대한
흐름에 대해서 너무 잘 이해할 수 있도록 구성되어 있었다. 발표 실력이라는 것은
결국 발표 슬라이드를 얼마나 논리적으로 구성하고 발표 슬라이드에 어느정도의
정성을 들이는지에 달려 있다는 것을 느꼈다.
2) 다른 연구자의 발표를 듣는 자세
자신의 연구를 발표하는 것 못지 않게 중요한 것이 다른 연구자들의 연구내용과
결과를 듣는 자세라는 것을 새삼 깨달았다. 특히, 앞으로 다른 학회에 참여할 때에는
듣고 싶은 발표를 정해놓고, 다른 연구자들의 Proceeding논문이나 발표슬라이드를
한번 정도는 사전에 읽어보고 가야겠다고 생각했다. 이러한 자료는 학회 홈페이지나
학회 등록 할 때 받을 수 있는데, 이러한 자료를 미리 읽어본다면 발표내용을 보다
수월하게 이해할 수 있을 것이고 결국에는 이러한 자세가 학회에서 더욱 많은 데
도움이 될 것이라고 생각한다. 뿐만 아니라, 이러한 태도는 관심분야에 관한 발표를
하는 발표자에 대한 예의가 아닐까 생각해보았다.
3) 연구를 대하는 자세에 대한 반성
사실 나는 KDD 학회에 논문을 제출하였지만 Accept되지는 못했다. 그래서 얼마나
대단한 논문들이 발표되는지 보자는 심리도 있었던 것 같다. 하지만, 학회가 끝나고
나서 들었던 생각은 ‘아직 멀었다’는 것이었다. 물론 처음 대학원에 입학했을 때보다는
실력이 늘었다고는 생각되지만, 세계적인 수준의 연구를 하기에는 아직 갈 길이
너무 멀다는 것을 뼈저리게 느꼈다. 그러기 위해서 우선 논문을 많이 읽고 기본에
충실하자는 생각이 들었다. 최근의 화두가 되는 소셜 네트워크 분석, 텍스트마이닝,
빅 데이터 분산처리등에 관한 연구도 매우 흥미롭지만, 결국 저명한 연구도 중요한
것은 기본적인 알고리즘, 통계이론에서 출발한다는 것을 깨달았다.