고려대학교 DMQA 연구실

2016년 대한산업공학학회 춘계학술대회 - 유재홍

2016년 4월 18일 오후 4:37
조회수: 2043

Reviewed by

유재홍

<발표후기>

이번학회에서 "Randomized Ensemble-based Feature Selection for Clustering"을 주제로 발표하였다. 제안방법론은 Multiple-k Ensemble과 Random Subspace Ensemble을 융합한 방법론으로, 변수들의 다양한 측면을 반영할 수 있을 뿐만 아니라, 다양한 모델을 구축함으로써 변수 중요도 평가 모델 간의 독립성을 증가시키고 고차원데이터에 대한 강건함을 향상시킴으로써 다른 변수선택 방법론에 비해서 우수한 성능을 보임을 확인할 수 있었다. 이번 발표를 준비하면서 청중들에게 발표내용을 좀 더 잘 전달할 수 있도록 발표자료를 효과적으로 구성하는데 시간을 많이 할애하였다. 발표연습을 하면서 지속적으로 발표자료를 수정하고 불필요하거나 흐름상 불필요하다고 생각되는 부분들을 제거하는 등의 과정을 거치면서 중요한 부분이 어디인지 빠르게 넘어갈 수 있는 부분을 어디인지를 계속해서 연습하였다. 다행히 학회에서 할당된 발표시간을 거의 맞추어서 발표할 수 있었고, 생각보다 만족스러운 발표가 된 것 같아서 자신감이 생기기도 하였다. 발표를 하고 몇몇 연구자들과 의미있는 토론을 하면서 연구에 있어서 개선사항이나 추가적인 부분도 많이 확인할 수 있었다. 특히, 발표장표 중 향후 연구계획으로 추가했던 내용 중 제안하는 방법론의 비교에 대한 코멘트를 받았는데, 구체적으로는 Feature Subset 방법론에 해당하는 CEFS와의 비교보다는 다른 방법론과 비교하는 것이 좋을 것이라는 코멘트를 받았다. 나 역시 매우 동의하는 부분으로 다양한 논문을 읽어보면서 다른 Feature Ranking 방법론은 어떠한 기존 방법론들과 어떠한 방식으로 비교를 수행하였는지를 좀 더 자세하게 공부해야겠다는 생각이 들었다. 하지만, 몇 가지 개선해야할 부분도 확인하였다. 우선, 뒤로 갈수록 말이 좀 빨라지고 완급조절이 안된다는 부분이다. 이 부분은 몇 차례 지적을 받았던 부분인데, 좀 더 노력하여서 고치도록 할 것이고, 발표하기에 앞서 지금보다 더 많은 연습을 해야할 것이라는 생각이 들었다. 두 번째로는 나도 모르게 "변수"와 "Feature"라는 용어를 혼용해서 사용했다는 점 이다. 이 부분은 청중들로 하여금 발표내용을 이해하는데 방해가 될 수 있는 부분으로써 좀 더 신경쓰고 많은 연습을 해야겠다는 생각이 들었다.

- 질문사항

질문 1. 발표자는 Random Subspace 방법론을 활용하였고, 각 변수들을 Random으로 샘플링하는 과정에서 복원추출 기법을 적용하였다. 이렇게 되면 다른 변수에 비해서 좀 더 많이 뽑히는 변수가 존재할 수도 있을 것이라 생각되고 이는 정말 중요한 변수보다는 단순히 많이 뽑힌 변수의 Ensemble Importance가 크게 계산되는 경우로 이어질 수도 있을 것이라는 생각이 든다. 발표자는 이에 대해 어떻게 생각하는가?

답변: 그렇지 않다. 제안하는 Ensemble Importance를 계산하는 과정에서는 각 변수가 선택된 횟수로 나누어주기 때문에 단순히 많이 선택된 변수라고 해서 Ensemble Importance가 높게 계산되지는 않는다.

2. Relative Silhouette을 계산하는 과정에서 발표자는 각 변수들을 Random Shuffling한 후 원본 Random Subspace에서의 실루엣 계수와 한 변수가 Random Shuffling된 경우의 실루엣 계수간의 차이를 계산하였다. 이렇게 하지 않고 Backward Elimination과 같이 한 변수를 아예 빼가면서 중요도를 계산할 수도 있을 것 같은데, 이와같이 한 이유는 무엇인가?

답변: 좋은 질문 감사하다. 실루엣 계수라는 척도는 거리기반으로 계산되는 척도로써 차원의 수에 상당히 민감하다. 즉, 질문자께서 말씀해주신대로 각 변수들을 하나씩 제거해보면서 실루엣 계수를 계산하는 것은 많은 무리가 있다. 즉, 실루엣 계수간의 보다 정당한 비교를 위해서는 각 변수들을 하나씩 제거하는 방식이 아닌, 각 변수들을 Random Shuffling하여 의미없는 변수들을 구성해보면서 실루엣 계수간의 차이를 계산하는 것이 적합하다고 생각한다.

<청취후기>

1. 자료포락분석법(DEA)를 활용한 군집타당성분석에 관한 연구

Clustering 결과를 평가하기 위한 척도는 상당히 다양하게 제시되었다. 각 척도마다 특성이 조금씩 다르며, 이로 인해서 군집화 알고리즘의 최적의 파라미터가 각 척도에 따라서 조금씩 다르게 평가될 수 있고, 각 척도에서 최적의 분할로 도출되는 결과역시 다르게 평가된다. 발표자는 이러한 척도들의 특성을 조합하여 보다 다각적이고 효과적인 군집화 평가를 위해서 기존에 제시되었던 척도들을 조합하는 방식을 제안하였다. 보다 자세히는 DEA라는 방법을 활용하여 기존의 척도들을 데이터 특성에 맞게 조합하는 방식을 제안하였고, 이로 인해서 기존 평가 척도들의 다양한 특성을 데이터 특성에 맞게 반영하도록 하는 방법론을 제시하였다. DEA를 통해서 조합하는 방식이 상당히 흥미로웠지만, 기존의 척도들은 유클리디언 거리 기반으로 게산이 되기때문에 고차원의 데이터 군집화결과를 평가하는 척도로써는 활용하기가 어려울 것이라는 생각이 들었다. 고차원 데이터에 이러한 방법론을 적용하기 위해서 좀 더 다른 방식의 접근이 필요할 것이라는 생각이 들었다.

2. Audible range prediction for hearing aids using cascade recurrent neural networks

발표자는 최근 많은 연구자들의 관심을 받고있는 딥러닝 방법론을 적용하여 난청 환자들의 가청 주파수를 예측함으로써 보청기 착용환자들의 보청장치를 어떻게 제작할지에 대한 가이드라인을 제공할 수 있었다. 발표자는 주파수 정보와 청력 데시벨 간의 높은 상관관계를 반영하기 위해서 딥러닝의 다양한 방법론 중, Cascade Neural Network을 활용하였데, 이 방법론이 매우 흥미로웠다. 최근 많은 연구자들이 딥러닝 방법론을 연구하고 다양한 분야에 적용하고 있는데, 연구실에서 이 분야를 연구하는 동료들과 같이 공부하여 좀 더 심화된 공부를 해보고 싶다는 생각이 들었다.

3. Local outlier detection in datasets with mixed attributes

발표자는 혼합형 데이터 (범주형 변수와 연속형 변수를 모두 포함하는 데이터)의 이상치 탐색을 위해 새로운 거리척도를 제안하였고, 이 척도를 활용하여 LOF방법을 적용하는 기법에 대해 발표하였다. 발표자가 제안한 거리척도는 범주형 변수에 대해서는 유사도기반의 거리 (자카드척도 등)를 연속형 변수에 대해서는 유클리디언 거리를 적용하여 변수별로 각각 다른거리 척도를 계산하여 이를 조합하는 방식으로 계산된다. 유클리디언 거리의 경우, 차원이 증가함에 따라서 그 값이 매우 커지게 되는데, 이러한 경우, 최종적인 거리척도는 범주형 변수의 정보는 거의 반영되지 못하고, 연속형변수의 정보에만 편향될 수 있다. 이를 방지하기 위해 발표자는 차원의 수를 반영하여 보정하는 방식으로 거리를 계산하는 방식을 제시하였는데, 매우 유용하고 흥미로웠다. 하지만, 변수들 간의 scale이 다른 경우에 대해서는 어떻게 계산되는지가 궁금했고, 거리계산 방식이 Gower distance를 계산하는 방식과 상당히 유사했는데, 이에 대한 비교연구가 필요할 것이라는 생각이 들었다. 마지막으로, 새로운 거리척도가 지역기반의 이상치 탐색과 어떠한 연관을 가지고 있으며, 어떠한 의미가 있는지에 대해서 제시하면 연구의 기여도가 좀 더 명확하고 잘 드러날 것이라는 생각이 들었다.

4. Network Mirroring for Drug Repositioning

단백질 정보가 유사한 질병은 일반적으로 동일한 의약품이 사용될 것이라는 것이고, 이 특성을 반영하면 보다 효과적인 의약품 개발이 가능할 것이라고 볼 수 있다. 이러한 문제를 해결하기 위해서 발표자는 질병의 특성을 다각적으로 파악하기 위해서 단백질 네트워크와 의약품 네트워크 구조를 구성하고 이 구조 간의 유사도를 파악하여 질병 네트워크와 질병의 단백질 정보 유사도를 반영하는 네트워크와 각 질병을 치료하는 의약품 정보간의 네트워크 미러링을 통해 두 네트워크 간의 차이를 분석하는 모델을 개발하였다. 네트워크 간의 차이는 두 자료간의 분포차이를 나타내는 척도인 KL Divergence (Kullback-Leibler Divergence)를 바탕으로 측정하였는데, 각 노드의 밀도를 degree를 기반으로 계산하고 이를 활용하여 두 노드간의 차이를 나타내는 방법론을 제안하였다. 매우 흥미롭고, 유용한 방법론이라는 생각이 들었고, 특히 두 노드간의 밀도차이를 바탕으로 KL Divergence를 계산하는 방법이 매우 인상깊었다. 이 방법론을 보다 구조적으로 개선하고 다양한 분야에 적용할 수 있을 것이라는 생각이 들었다.

Conference