<발표후기>

이번 학회에서는 "Ensemble-based Feature Evaluation Algorithm for Clustering Analysis"을 주제로 발표하였다. 비교사 학습 분야에서 중요한 변수들의 중요도를 파악하여 중요변수를 선택하는 것은 매우 중요한 연구임에도 불구하고, 종속 변수를 활용할 수 없다는 점으로 인해서 비교적 어렵다고 알려져 있다. 최근 들어, 앙상블 기법을 적용한 비교사 변수 평가 알고리즘들이 많이 개발되고 있다. 본 연구에서 제안하는 기법은 다양한 비교사 앙상블 기법들 중 Random Subspace Ensemble 및 Multiple-k Ensemble을 활용하여 변수들의 중요도를 평가하고, 이를 바탕으로 중요도가 높은 상위 변수들을 선택하게 된다. 앙상블 기법을 활용함으로써 변수들의 다각적인 평가가 가능한데, 이러한 다각화 전략은 결국 성능의 향상과 연결되므로 제안하는 변수평가 기법은 다른 기법들에 비해 우수한 성능을 보였다. 이번 학회에서는 발표자료를 준비하는데 있어서 발표 슬라이드를 준비하는데 있어서 연구의 목적과 핵심이 되는 부분을 부각하였고, 흐름상 중요하지 않거나 부분을 제거하여서 연구내용을 보다 명확하게 소개하는데 중점을 두었다. 특히, 청중들에게 연구내용을 좀 더 잘 전달할 수 있도록 발표자료를 효과적으로 구성하는데 시간이 소모되었다. 발표연습을 하면서 지속적으로 발표흐름이나 워딩 등을 수정하는 과정을 거치고 발음이 부정확하게 나오거나 힘든부분들을 중점적으로 연습하였다. 이전 학회에서 발표가 마음에 들지 않았는데, 이를 보완하기 위해서 발표 연습을 좀 하여서 자신감있게 발표를 할 수 있었다.

 

- 질문사항

질문 1. Performance curve를 도출하는 과정에서 k-means 알고리즘을 적용할 때, 최종적인 군집의 개수 k는 어떻게 정하였는가?

답변: 변수선택 결과를 검증하는 과정에서는 군집의 개수 k를 벤치마크 데이터에 내재되어 있는 클래스의 개수로 설정하였다.


<청취후기>

1. Support Vector Machines를 위한 마진 예측 기반 학습 패턴 선택 및 품질 예측 응용

SVM 알고리즘은 그 성능이 상당히 우수하지만, 데이터에 포함된 샘플의 갯수가 증가함에 따라서 계산 복잡도 가 상당히 증가한다는 한계점이 있다. 발표자는 알고리즘의 정확도를 일정수준 유지하면서도 계산 복잡도를 감소시킬 수 있도록 유의미한 샘플을 선택하는 방식을 제안하였다. 랜덤 샘플리을 통해 데이터로 부터 관측치들을 샘플링하고 이 샘플들에 대해 SVM알고리즘을 적용하여 각 관측치들에 대한 마진을 계산한다. 각 관측치들에 대한 마진을 계산하는 이 과정을 여러번 반복하여 각 관측치들에 대한 마진의 기대값을 계산한다. 이를 바탕으로 마진의 기대값이 0과 1사이에 존재하는 관측치들을 선택한다. 상당히 흥미로운 발표였고, 슬라이드도 상당히 잘 구성되어있어서 이해하기가 쉬웠다.

 

2. A Comparison of Two-stage Penalized Regression Approaches for Estimating Directed Graphs

Graphical model은 각 변수들의 연관 관계를 시각적으로 분석하기 위해 활용되는 방법으로, 바이오 의료데이터에서 유전자들간의 상호작용을 분석하는데 상당히 유용하게 활용될 수 있다. 이 모델은 변수들간의 영향도에 대해 그래프 구조를 도출하기 위해 edge의 방향성과 가중치를 추정하는 방법론이다. 하지만, 고차원 데이터의 경우 edge의 방향성과 가중치를 추정하는 것은 상당히 어렵다고 알려져있다. 이를 위해서 Two-phase 기반의 추정기법들이 개발되었다.Two-phase 기반의 추정기법에서는 MB, Graphical Lasso, Adaptive Lasso 같은 Penalized regression을 통해서 각 변수들의 이웃 변수들간의 관계를 추정하게 된다. 이를 바탕으로 다양한 Scoring function을 도입하여 최종적인 방향성과 가중치를 추정하게 된다. Graphical model에 대해서 이 발표를 통해 어느정도 개념이 생겼고, 보다 자세하게 공부해보고 싶다는 생각이 들었다. 특히, 최근들어 제조공정에서는 고차원 데이터들이 많이 생성되고 있는데, 이러한 데이터를 시각화하고 분석하는데 있어서 활발하게 쓰일 것이라고 생각된다.