고려대학교 DMQA 연구실

2016 한국 BI 데이터마이닝 학회 추계학술대회 - 유재홍

2016년 11월 21일 오후 3:31
조회수: 1974

Reviewed by

유재홍

<발표후기>

이번 학회에서는 "An Ensemble Approach for Unsupervised Feature Evaluation"을 주제로 발표하였다. 본 연구에서 제안하는 기법은 앙상블 기법을 활용하여 변수들의 중요도를 평가하고, 이를 바탕으로 중요도가 높은 상위 변수들을 선택하게 된다. 앙상블 기법의 우수한 성능으로 인해서 많은 비교사 학습 알고리즘들은 앙상블 기법을 활용하고 있으며, 특히 종속 변수를 활용할 수 없는 경우에 중요 변수들을 보다 효과적으로 선택하기 위해서 다양한 앙상블 기반의 비교사 변수 중요도 평가 알고리즘들이 개발되고 있었다. 제안 방법론은 다양한 비교사 앙상블 기법들 중 Multiple-k Ensemble과 Random Subspace Ensemble을 혼합하여 변수의 중요도를 평가하게 된다. 앙상블 기법을 활용하게 되면 통해 변수들의 다각적인 평가가 가능한데, 이러한 다각화 전략은 결국 성능의 향상과 연결되므로 제안하는 변수평가 기법은 다른 기법들에 비해 우수한 성능을 보였다. 이번 학회에서는 발표자료를 준비하는데 많은 시간을 할애하였다. 발표 슬라이드를 준비하는데 있어서 연구의 목적과 제안방법론의 핵심이 되는 부분을 보다 선택하고 흐름상 중요하지 않거나 부분을 제거하여서 연구내용을 보다 명확하게 소개하는데 중점을 두었다. 특히, 청중들에게 연구내용을 좀 더 잘 전달할 수 있도록 발표자료를 효과적으로 구성하는데 시간이 소모되었다. 발표연습을 하면서 지속적으로 발표흐름이나 워딩 등을 수정하는 과정을 거쳤다. 하지만, 발표자체는 크게 만족스럽지 못했다. 우선, 발표 앞에서는 비교적 여유있게 발표를 하였으나, 뒤로 갈수록 말이 좀 빨라지고 긴장이 되어서 그런지 버벅거림이 있었다. 이 부분은 좀 더 노력하여서 고치도록 할 것이고, 발표하기에 앞서 지금보다 더 많은 연습을 해야할 것이라는 생각이 들었다.

- 질문사항

질문 1. Multiple-k 앙상블 기법에서 최대 k를 어떻게 정하는가? 정하는 가이드라인이 있는가?

답변: 최대 k는 관측치의 제곱근으로 정할 수 있다. 이에 대해서 연구한 다른 논문들에서 최대 k를 이와같이 정하는 것이 좋다고 알려져 있다.

<청취후기>

1. 반도체 패키지공정 품질관리를 위한 데이터마이닝 기법

발표자는 반도체 패키지공정에서 불량을 효과적으로 탐지하기 위한 방법론을 제안하였다. 일반적으로 공정에서는 Lot별로 특정 유형의 알람이나 이벤트 정보들이 수집되는데, 이러한 정보들은 명목형 변수들인 경우가 많다. 이러한 요소들을 바탕으로 수율을 예측하기 위해서 발표자는 각 알람이나 이벤트들이 발생했는지의 여부에 대해서 연관성 분석을 적용하여 중요한 이벤트나 이벤트들의 선후관계를 파악하여 중요 이벤트 조합을 찾고, 이에 대해서 다양한 분류 알고리즘을 적용하여 불량률을 예측하였다. 하지만, 뷸량의 비율이 정상적인 공정에 비해서 상당히 높은데, 이러한 클래스 간 불균형 문제는 없었는지, 어떻게 해결하였는지에 대해서 궁금했다.

2. 유전자 임상 대사경로 데이터를 활용한 질병간 인과관계 분석방법

발표자는 질병간의 연관성을 파악하기 위해서 유전자간의 유사성이나 대사경로와 같은 정보를 활용하여 네트워크 구조를 구성하고 이를 바탕으로 분석을 수행하였다. 발표자는 질병들의 공유하는 유전자간의 연관성 정보, 질병들의 임상정보, 질병들간의 대사경로와 같은 서로 다른 요소로 부터 수집된 정보를 효과적으로 분석하기 위해서 네트워크를 순차적으로 구성하고 이 네트워크를 바탕으로 질병들의 상호작용 및 원인분석을 수행하였다. 상당히 흥미로운 발표였고, 네트워크 구조를 활용하여 바이오의료 분야 데이터를 분석하는 연구가 매우 활발하게 이루어지고 있음을 다시 한번 확인할 수 있었다.

Conference