고려대학교 DMQA 연구실

2017 INFORMS Conference - 유재홍

2017년 10월 30일 오후 8:51
조회수: 1429

Reviewed by

유재홍

<발표후기>

이번 학회에서는 "Consensus Rate-Based Label Propagation Algorithm"을 주제로 발표하였다. Label Propagation은 가장 대표적인 Semi-supervised Classification 방법론으로, 많은 분야에서 널리 활용되고 있다. Label Propagation은 Label이 주어진 데이터의 Label 정보를 이 데이터들의 인접 이웃들에 대해서 전파를 하는 과정으로 Label이 부여되어있지 않은 관측치들의 Label을 반복적으로 추정해나가는 기법으로, 관측치 간의 유사도를 측정하는 방식이 매우 중요하다. 기존의 Label Propagation 방법론에서는 각 관측치들의 k-인접 이웃구조를 바탕으로 관측치들 간의 유사도를 측정하게 되는데, 최적의 k를 구하는 것은 매우 어려울 뿐만 아니라, 최적의 k가 선택된다고 하더라도, 단일한 k값을 사용하는 경우에는 데이터의 적절한 구조가 반영되지 못한다는 한계점을 가지고 있다. 이를 극복하기 위해 본 연구에서는 Consensus Rate를 활용한 Label Propagation 방법론을 제안하고자 한다. 제안하는 방법론은 Random Subspace Ensemble과 Random-K Ensemble을 융합하여 다수의 Clustering Solution들을 도출하여 이를 Consensus Matrix로 요약하여 이를 바탕으로 Label Propagation을 수행하게 된다. Consensus Rate란, Consensus Matrix의 각 Element들인데, 이 값이 의미하는 것은 각 관측치들이 동일한 군집에 얼마나 동일하게 포함되었는지를 의미하는 값이다. 두 관측치들 간의 유사도가 높을 수록, 두 관측치가 동일한 군집에 포함될 가능성이 높다고 볼 수 있으므로 Consensus Rate는 두 관측치 간의 유사도로 활용될 수 있다. Consensus rate는 데이터의 군집 구조를 바탕으로 관측치들 간의 유사도를 측정하므로, k-인접 이웃 구조를 활용하는 기존 방법론에 비해 데이터의 구조를 보다 효과적으로 반영할 수 있을 뿐만 아니라, 하이퍼파라미터를 설정하는데 있어서도 강건하다는 장점을 가지고 있다. 이번 학회에서는 발표할 자료의 초안은 그동안 교수님과의 연구미팅에서 나온 자료들을 바탕으로 작성하였지만, 정해진 시간내에 청중들에게 핵심을 이해시키기에 많은 어려움이 있는 자료였다. 따라서, 지속적으로 발표 시뮬레이션을 해가면서 자료를 수정하는데 많은 시간을 할애하였다. 특히, 발표 시뮬레이션을 거치면서 핵심적인 내용이 담긴 장표에는 시간을 오래 사용하더라도 핵심을 최대한 명확하게 전달하고, 특정 장표는 쉽게 넘어가도록 하는 연습을 하였다. 시뮬레이션을 하면서 발표 자료를 작성해서 그런지 발표 장표는 매우 만족스럽게 만들어졌다고 생각한다. 또한, 몇번의 연습을 거치면서 핵심이 되는 부분을 잘 전달할 수 있게 되었다. 하지만, 이번 발표에서는 흐름을 외운 것이 아니라, 대본 자체를 외워서 연습을 하였는데, 별로 좋지 않은 습관이라는 생각이 많이 들었다. 그동안은 대본을 계속해서 외워서 발표하는 연습을 하였지만, 언제고 발표 연습을 할 시간이 많은 것은 아니라고 생각한다. 이러한 경우에 대본을 완벽하게 숙지하지 못한다면, 발표가 완전히 엉망이 되어버릴 수도 있겠다는 생각이 들었다. 발표가 끝난 후, 교수님과도 많은 이야기를 나누었는데, 결론은 장표의 흐름을 완벽하게 숙지한 후, 느리게 말하더라도 차분하게 말하는 것이 정답이라는 생각이 들었다. 내가 평소에 가지고 있는 습관은 발표 내용을 잘 전달하기 위해서 말을 너무 급하게 한다는 것이었는데, 이를 극복하기 위해서 많은 노력이 필요할 것이라고 생각이 들었다.

- 질문사항

질문 1. 제안 기법의 Computational Complexity를 비교해보지는 않았는가?

답변: 아직 그 부분에 대한 비교는 진행되지 않았다. 하지만, 이를 반영하여 향후 연구를 진행할 것이며, 매우 흥미로운 연구가 될 것이라고 생각된다.

질문 2. 제안 기법은 Class 간 Overlapped region이 넓어짐에 따라 성능이 저하될 것이라고 생각되는데 어떠한가 ?

답변: 좋은 질문이다. 사실 Class간 Overlapping문제는 Smoothness assumption을 활용하는 기법들에 근본적으로 내재된 문제이다. 물론 이를 해결하기 위한 연구는 향후 연구에서 진행해보도록 하겠다.

<청취후기>

1. Clustering Validity Indices for Uncertain Data Objects

Uncertain Data Objective란 개별 Objective에 다수의 하위단계의 Objective가 숨겨져있는 데이터인데, 대표적으로는 의료 데이터를 들 수 있다. 즉, 개별 환자 Sample이 100명이고, 각 Sample 별로 5회씩 측정했다고 하면 전체 데이터에는 500개 관측치가 존재한다. 하지만, 500개의 데이터를 모두 활용하는 것이 아니라, 각 sample별로 수집된 5개 관측치들의 분포를 추정하게 된다. 즉, 각 sample을 Probability distribution으로 표현하고, 이러한 상황에서 이 Probability Distribution 기반의 거리를 바탕으로 군집 분석을 수행하고 그 결과 형성된 군집을 평가하는 방법론을 제안하였다. 이 발표를 흥미롭게 들어서 Uncertain Data Clustering 방법론에 대해서 자료를 찾아봤는데 상당히 유용하게 활용될 수 있는 기법이라고 생각된다. 보다 자세하게 공부해보고 싶다는 생각이 들었다. 특히, 고차원 데이터에 대해서는 각 Probability Distribution을 추정하는 것이 매우 어려운데, 향후 연구에서는 고차원 데이터에 대한 Uncertain Data Clustering 방법론을 연구해보도록 할 것이다.

2. Group Classification Methods for SAR Imagery Data

앞선 발표와 마찬가지로 역시 Uncertain Data Objective에 대해서 모델을 구축하는 방법론에 대한 발표였다. 이 방법론 역시 각 Sample들에 대한 하위단계 관측치를 바탕으로 Probability Distribution으로 표현하고, 이 Probability Distribution을 바탕으로 분류를 수행하는 것이다. 실제 이러한 데이터들이 실제 현업에서 많이 활용된다고 생각한다. 앞서 언급했던 의료분야 뿐만 아니라, 제조공정에서 lot단위의 반도체가 생성되고, 기지국에서도 일자별로 시간당 전력사용 패턴들이 수집된다. 이러한 데이터에 대해서 상당히 유용하게 적용될 수 있을 것이라고 생각된다. 뿐만 아니라, Multi-Task Learning과도 관련성이 있다고 생각이 들었는데 좀 더 깊게 공부해보면 재미있을 것 같다.

3. 기타발표

이번 INFORMS 학회에서는 Multisensor로 부터 수집되는 데이터에 대해 모니터링을 하거나 다양한 분석을 수행하는 발표가 많았다. 우리 연구실에서도 최근 기업체와 프로젝트에서 Multisensor 데이터를 다양하게 다루고 있는데, 프로젝트 참여 인원들과 좀 더 깊은 대화를 나눠야겠다는 생각이 들었다. 뿐만 아니라, Causual Analysis에 대한 발표역시 다양하게 이루어지고 있음을 확인하였다. Causual analysis에서 가장 대표적으로 활용되는 방법론은 Bayesian Network와 같은 Graphical Model이 있는데, 이 분야에 대해서 평소에 많은 관심을 가지고 있었고 좀 더 깊게 공부해야겠다는 생각이 들었다. 데이터 분석기법과 기계학습 방법론을 가장 활발하게 응용하는 분야는 Health Care라고 할 수 있었다.