이번 학회에서는 데이터마이닝 알고리즘과 이를 활용하는 분야에 대한 많은 발표가 있어서 많은 도움이 되었다. 가장 흥미롭게 청취한 발표는 LSH (Locality Sensitve Hashing)을 기반으로 k-NN 탐색을 수행하고 이를 바탕으로 k-NN 그래프를 구성하는 부분에 대한 내용이었다. 사실 나도 데이터를 통해서 그래프를 구성하고 이를 바탕으로 군집화를 수행하거나 밀도를 추정하는 부분에 대한 관심이 많았기때문에 이 발표내용에 많은 관심을 갖게 되었다. 이 발표에서 가장 인상적이었던 부분은 보다 효율적인 탐색을 위해서 Random Projection을 통해서 차원을 줄이고 축소된 차원에서 근접이웃들을 탐색하는 기법이었다. 차원이 축소되면 분명 정보의 손실이 있을 것이고 이러한 손실은 이웃을 탐색하는데 있어서 많은 영향을 줄 것이라고 생각했는데, 그 영향도가 생각보다 크지 않으며, 축소된 데이터에서도 효율적이고 정확하게 이웃을 탐색할 수 있다는 것이 상당히 흥미로웠다. 또한 이 부분은 Sammon's Mapping과 같은 Nonparametric MDS 방법론과 연결되는 부분이 있는 것 같은데 이번 기회를 통해 좀 더 자세하게 공부를 해보고 싶다는 생각이 들었다. 학회가 끝나고 이 발표를 수행한 발표자와 많은 이야기를 나누었는데, 서로 유사한 분야를 연구하는 연구자들간의 교류를 할 수 있다는 측면에서도 학회는 매우 뜻깊은 기회가 될 수 있다는 것을 다시한번 확인할 수 있었다.





<발표내용>


이번 학회에서 나는 "Clustering Validation using Density-based Geodesic distance" 를 주제로 발표를 하였다. 가장 일반적으로 활용되는 거리척도인 유클리디언 거리는 비선형패턴의 데이터 구조를 적절하게 반영할 수 없다. 데이터가 비선형 패턴으로 분포되어 있을 때, 이러한 분포를 반영하기 위해서 제안된 거리척도는 Geodesic distance인데, 이 거리는 데이터의 잡음에 상당히 취약하다는 단점을 갖고있다. 따라서, 본 연구에서는 데이터의 잡음이 많이 내재되어 있는 경우에 데이터의 비선형 구조를 보다 효과적으로 반영하기 위한 거리 척도로써 밀도기반의 Geodesic distance를 제안하고 이 거리 기반의 실루엣 계수를 활용하여 군집화의 성능을 평가하고자 한다. 본 연구에서는 군집 내에서 비교적 밀도가 낮은 부분에 포함된 데이터나 군집 사이에 분포하여 어느 군집에 속하는지를 판단하기가 어려운 관측치를 잡음으로 정의하였는데, 이러한 관측치들은 일반적으로 밀도가 낮은 부분에 위치하게 된다. 따라서, 밀도를 반영하여 Geodesic distance를 계산하게 된다면 군집 간 중첩이 심한 경우에도 군집을 비교적 적절하게 분할 할 수 있다. 실제 실험을 수행한 결과, 다른 거리 척도에 비해 제안하는 척도는 우수한 성능을 보이는 것을 확인할 수 있었는데, 데이터에 비선형 패턴의 군집이 내재되어있는 군집의 개수를 적절하게 찾아낼 뿐만 아니라, 군집의 결과 역시 정확하에 분할하는 것을 확인할 수 있었다.



<질문 목록과 답변>


1. 현재 제안하는 기법은 밀도기반의 Geodesic distance를 제안한 것으로 보이는데, 기존의 밀도기반의 군집화 기법 (DBSCAN, OPTICS 등) 과 어떠한 점에서 다른가.



답변: 본 연구에서 내가 제안한 것은 밀도기반의 거리척도이고, 군집화 방법론은 아니기 때문에, 밀도기반의 군집화 기법과는 다른 관점의 방법론이다. 하지만, 내가 생각하기에 본 연구에서 활용하는 거리척도를 활용하여 밀도기반의 군집화기법을 적용하게되면 보다 우수하고 강건한 성능을 보일 것이라고 생각된다.



2. 제안된 거리는 밀도기반의 거리를 활용하면 원 공간에서도 밀도가 높은 관측치들은 좀 더 가까워지고 밀도가 낮은 관측치들은 좀 더 멀어지게 될텐데, 이렇게 되면 그래프를 재구성하여 Geodeisic distance를 재계산해야 하는 것은 아닌가.



답변: 좋은질문이라고 생각된다. 제안기법은 그래프라는 가상의 공간에서 거리를 재구성하여 군집을 보다 정확하게 분할하는 것이므로 원 공간에서 거리가 재구성되는 것은 고려하지 않아도 된다고 생각된다.