고려대학교 DMQA 연구실

2017 대한산업공학회 추계학술대회 - 김영훈

2017년 11월 6일 오후 5:17
조회수: 2010

Reviewed by

김영훈

[발표 후기]

발표 Summary

Graph에 기반한 Clustering 방법론들은 Local하고 Nonlinear한 패턴의 데이터를 군집화하는 데 널리 사용된다. Similarity를 Euclidean distance에 기반한 Compactness 방법론들과 달리 그래프의 Connectivity를 활용하기 때문에 좀 더 어려운 데이터 구조들도 잘 군집화할 수 있다. Graph 기반의 Clsutering 방법론들 중에는 Spectral Clustering이 가장 대표적인 방법론이다. 이 Spectral Clustering은 Minimum Normalized Cut 문제를 Convex optimization 형태로 Relaxation 시킨 후 해결하는 방법으로 Spectral Theory에 근간을 두고 있다. 데이터 Embedding 관점에서는 Nonlinear 군집 데이터들이 서로 잘 뭉칠 수 있는 새로운 Vector space로 데이터들을 사영시킨 다음 K-means 군집화를 적용한다. 비록 Spectral Clustering이 널리 사용되긴 하지만 Noise에 취약하고 군집의 개수를 사전에 정의해줘야 하는 한계점을 갖는다. 본 연구에서는 이 문제를 해결하기 위해 Noise들을 찾고 제거하여 Clustering을 하는 Outer Points Shaver를 제안한다. 제안 방법은 Sparse Regularization 모델을 Pseudo-density를 재국축하는데 적용하여 밀도가 낮고 군집화에 적은 기여를 하는 Outer Points를 찾아내어 제거한다. 이 과정에서 외부의 점들이 제거되는 모습이 마치 면도를 하는 것 같아 Outer Points Shaver라는 알고리즘명을 붙이게 되었다. 제안 방법은 사전에 군집의 개수를 정의해주지 않아도 된다는 장점 또한 갖는다. 시뮬레이션 데이터를 이용해서 실험을 해본 결과 제안 방법이 Noise에 강건하고 정확한 군집화 결과를 내는 것을 확인할 수 있었다.

세션 질문

Q1. Fusion Constraint를 사용할 경우 어떠한 효과가 나타날 것인가?

답변: 제안 방법에서 L2 norm을 사용한 것은 Correlation이 높은 관측치들끼리 함께 선택되어 제거되는 현상을 막기 위해 사용했다. Fusion Constraint를 사용할 경우 이러한 효과를 얻기 위해서는 사전에 그룹을 설정해주고 사용해야 될 것으로 생각된다.

Q2. 제거된 Outer Points 데이터를 다시 할당할 때 어떠한 알고리즘이 사용되었는가?

답변: KNN 방법론이 사용되었다. Intrinsic한 Cluster가 잘 찾아진 다음이기 때문에 이것들을 할당하는 문제는 크게 어렵지 않다.

후기

이번 발표는 Outer Points Shaver 연구를 처음으로 발표하는 자리라 긴장이 되었던 것 같다. 최대한 핵심적인 내용들을 전달하려고 노력해서인지, 구체적인 방법론에 대한 질문은 없었던 것 같다. 제안 방법론의 최적화 모형이 원래는 변수 선택을 할 때 사용되는 방법인데 제안 방법에서는 관측치를 선택하는 방법이라는 점을 강조하지 못한 거 같다. 다음에 발표할 기회가 있다면 이 점을 좀 더 강조한다면 듣는 사람의 이해를 높일 수 있을 것 같다.

[청취 후기]

1. Variations in Relevance Vector Machine Regression

신임 교원 세션에서 동국대학교 손영두 교수님께서 발표한 내용이었다. Relevance Vector Machine을 응용해서 어떻게 Active Learning과 Matrix Imputation 문제를 해결했는지에 대해 발표를 들을 수 있었다. Bayesian 통계에 기반한 RVM이 예측 치의 Variance 정보를 준다는 점을 활용해서 Label을 붙였을 때 성능 향상이 큰 데이터를 찾아내었다. 알고리즘이 가지고 있는 고유의 장점을 활용해서 흥미로운 분야에 적용한 좋은 연구라고 생각되었다. 두번째 소개한 내용은 RVM을 이용해서 결측치를 Imputation 하는 방법을 들을 수 있었다. 두 연구 발표를 들으면서 RVM의 특징 중에 Label이 있는 관측치의 Variance가 Local Maximum 값을 갖는다는 가정이 의아했다. 이에 관련해서 질문을 했을 때도 RVM이 가장 많이 공격받는 가정이라고 설명해 주셨다. 하지만 실제 문제 적용시에는 크게 문제가 되지 않는다고 답변을 들었는데 참고문헌을 찾고 공부를 좀 더 해보고 싶어졌다.

2. Efficient Predictive Modeling Under Practical Constraints

위의 발표와 같은 세션에서 성균관대학교 강석호 교수님께서 발표한 내용이었다. 빅데이터 시대에 다양한 현실 제약 조건이 있는 상황에서 효과적으로 예측을 하는 문제들에 대한 연구 결과를 들을 수 있었다. 예측 연구의 경우 정확한 예측을 하는 모델을 만드는 것과 예측된 결과를 적절하게 사용하는 방법에 대한 연구로 나뉠 수 있다. 지금까지 예측을 어떻게 하면 정확히 할 수 있을까에 대해서만 고민했던 것 같은데 예측된 결과를 어떻게 이용할 것인지에 대한 고민도 좋은 연구로 이어질 수 있다는 사실을 알게된 좋은 발표였던 것 같다. 강석호 교수님께서는 기본적인 방법론 연구뿐만 아니라 반도체 가상연구, 헬스케어 관련 응용 연구도 활발하게 하고 계셨다. 개인적으로 많은 자극이 되었던 발표였다.

Conference