고려대학교 DMQA 연구실

2017 한국BI데이터마이닝 추계학술대회 - 김영훈

2017년 11월 27일 오전 10:55
조회수: 1995

Reviewed by

김영훈

[발표 후기]

Graph에 기반한 Clustering 방법론들은 Local하고 Nonlinear한 패턴의 데이터를 군집화하는 데 널리 사용된다. Similarity를 Euclidean distance에 기반한 Compactness 방법론들과 달리 그래프의 Connectivity를 활용하기 때문에 좀 더 어려운 데이터 구조들도 잘 군집화할 수 있다. Graph 기반의 Clsutering 방법론들 중에는 Spectral Clustering이 가장 대표적인 방법론이다. 이 Spectral Clustering은 Minimum Normalized Cut 문제를 Convex optimization 형태로 Relaxation 시킨 후 해결하는 방법으로 Spectral Theory에 근간을 두고 있다. 데이터 Embedding 관점에서는 Nonlinear 군집 데이터들이 서로 잘 뭉칠 수 있는 새로운 Vector space로 데이터들을 사영시킨 다음 K-means 군집화를 적용한다. 비록 Spectral Clustering이 널리 사용되긴 하지만 Noise에 취약하고 군집의 개수를 사전에 정의해줘야 하는 한계점을 갖는다. 본 연구에서는 이 문제를 해결하기 위해 Noise들을 찾고 제거하여 Clustering을 하는 Outer Points Shaver를 제안한다. 제안 방법은 Sparse Regularization 모델을 Pseudo-density를 재구축하는데 적용하여 밀도가 낮고 군집화에 적은 기여를 하는 Outer Points를 찾아내어 제거한다. 이 과정에서 외부의 점들이 제거되는 모습이 마치 면도를 하는 것 같아 Outer Points Shaver라는 알고리즘명을 붙이게 되었다. 제안 방법은 사전에 군집의 개수를 정의해주지 않아도 된다는 장점 또한 갖는다. 시뮬레이션 데이터를 이용해서 실험을 해본 결과 제안 방법이 Noise에 강건하고 정확한 군집화 결과를 내는 것을 확인할 수 있었다.

세션 질문

Q1. Case Study에서 비교 방법들의 파라미터는 어떻게 설정했는가?

답변: Cluster 개수 파라미터는 실제 Cluster 개수와 같게 설정했고, 그 외에 파라미터는 실제 Cluster 개수와 같게 만드는 파라미터를 찾아서 설정했다.

Q2. Outer Points를 제거하는 것이 Cluster 간에 애매하게 위치하고 있는 관측치들을 Clustering할 때에는 정확도를 떨어뜨릴 수 있을 것이라 생각하는데 어떻게 생각하는가?

답변: 핵심적인 데이터를 먼저 잘 Clustering하는 것이 더 중요하다고 생각했기 때문에 소개한 방법을 제안하게 되었다. 핵심적인 데이터가 잘 Clustering 되고 나면 그 다음 Noisy한 데이터나 Outer Points를 분류하는 것은 어렵지 않다고 생각한다.

후기

세션이 끝나고 들어온 질문 중에서 Outer Points를 없애는 것이 Cluster하기 애매한 관측치들에 대한 Clustering 정확도를 떨어뜨릴 수도 있지 않냐는 질문에 대해서 많은 생각을 하게 되었다. 질문을 하신 분의 관점은 Fuzzy Clustering의 기본적인 관점에서 말씀하신 것 같다. Clustering이 애매한 점들에 대해서도 고려를 하면서 좀 더 정확히 Clustering을 하는 관점이다. 하지만 그러한 관점에서 접근했을 때 실질적으로 Clsutering 결과가 잘 나오지 않았기 때문에 먼저 핵심적인 관측치들을 잘 Clustering해보자는 접근법을 적용했었다. 다음에 발표를 하거나 논문을 작성할 때에는 이 부분이 좀 더 잘 설명될 수 있게 하면 좋겠다고 생각했다.

[청취 후기]

제목: 빅데이터와 개인정보보호

서울대학교 통계학과 임요한 교수님께서 발표하신 초청강연 내용이었다. 최근 빅데이터 분석이 다양한 분야에서 이뤄지고 있는데 개인정보가 담겨있는 의료, 통신 데이터 같은 경우 이것을 저장하고 분석하는 것에 관해 사회적으로 의견 대립이 분분한 상황이다. 개인정보보호 관점에서 보게 되면 이것은 개인의 Privacy 침해로 쉽게 이어질 수 있기 때문에 문제가 될 소지가 있다. 하지만 이러한 데이터들을 잘 활용하게 되면 개인 맞춤형 의료나 통신 서비스와 같은 고부가가치 서비스를 개발하고 제공할 수 있기 때문에 데이터 이용이 원활하게 될 수 있는 환경이 필요한 것도 사실이다. 이 부분에 대해서 사회적으로 합의가 아직은 이뤄지고 있지 않고 법적으로도 확실히 정해진 규칙들이 없다. 이러한 상황에서 데이터 분석을 하기 위해 개인의 Privacy를 지키면서도 데이터를 분석할 수 있는 방법들에 대해 설명을 들을 수 있었다. 실제 데이터에 Noise를 삽입해서 개인을 구별할 수 없게 만드는 방법, 데이터를 이산화해서 실제값을 알 수 없게 할 수 있는 방법 등 다양한 방법들이 있었다. 그 중에서 개인적으로 흥미롭게 보았던 것은 데이터의 분포를 추정하고 이를 바탕으로 새롭게 Generation한 데이터를 사용하는 방법이었다. 이 부분에 최근 많이 관심을 받고 있는 Generative Adversarial Network을 적용해보면 좋겠다는 생각이 들었다. 최근 이와 관련해서 논문도 발표되고 있는데 주의깊게 공부할 필요가 있을 것 같다.

제목: Machine Learning Techniques on Predictive Maintenance

SDS의 강지훈 박사님께서 발표하신 내용이었다. 각종 제조 장비의 설비 예지 보전에 관한 실제 산업 현장 적용 트렌드를 파악하고 실제 문제 상황에서 효과적으로 사용되는 방법이 무엇인지 배울 수 있는 발표였다. 흥미로웠던 부분은 실제 문제 해결에서 False Alarm을 제어하기 위해 Poisson Distribution을 사용해 추가적인 분석을 진행한 것이었다. 일반적인 Control Chart나 One Class Classification 기반의 방법론을 사용하게 되면 False Alarm이 생기게 된다. 이것은 이론적으로 당연한 것이지만 실제 문제 상황에서는 엔지니어들에게 많은 어려움을 준다. 장비에 문제가 생기지 않았지만 예지보전을 위해 검사를 해야 하기 때문이다. 이러한 상황을 해결하기 위해 False Alarm이 발생하는 주기를 계속 모니터링한다. 특정 시간 내에 일정한 False Alarm이 생기는 것은 이론적으로 발생할 수밖에 없는 상황이기 때문에 정상 상태로 가정한다. 하지만 동일 시간 내에 False Alarm이 생기는 주기가 증가한다면 이것은 기계에 문제가 있는 것이다. 따라서 이때 예지 보전을 실시하면 더 큰 문제를 사전에 예방할 수 있게 된다. 간단한 방법이지만 실제 문제 상황에 대한 깊이 있는 이해가 반영된 분석 방법이라고 생각되었다. 실제 문제를 해결할 때 어떠한 방법론을 사용할 수 있을지 아는 것도 중요하지만 문제의 핵심적인 포인트를 잘 이해하는 것이 문제 해결의 지름길이 된다는 것을 배울 수 있었다.

Conference