- 2015년 11월 9일 오후 10:34
- 조회수: 1518
유재홍
청취후기
2015년 대한산업공학회 추계학술대회는 연세대학교에서 개최되었다. 이번 학술대회는 통계/ 품질, 생산/물류, 최적화 이론 및 응용과 같은 산업공학의 다양한 방법론 및 응용분야에 관한 세션으로 구성되었다.가장 흥미로웠던 세션은 데이터마이닝 세션 (2), (3)이었는데, 주로 데이터마이닝 방법론을 활용하여 다양한 현실문제를 해결한 것이었다.
1. 데이터마이닝 (2) 세션
확률모형 활용(1)에서는 “비모수적 가우시안 과정 혼합 모델을 위한 추계 변분 추론”과 "딥러닝을 이용한 저널 추천 시스템" 이라는 주제의 발표가 인상 깊었다. 첫 번째 발표인 "비모수적 가우시안 과정 혼합 모델을 위한 추계 변분 추론"에서는 가우시안 프로세스를 활 가우시안 과정은 시간에 따라 변동하는 시스템을 분석하고 시스템의 결과로 부터 얻어지는 시그널 값을 예측하기 위한 방법론으로, 궤도추적이나 순차적으로 변동하는 공정을 분석하는 등 많은 분야에서 활용되고 있다.하지만, 다양한 시스템으로 부터 도출되어 서로 다른 특성을 갖는 시그널의 경우가 혼합된 경우, 어떠한 시스템으로부터 도출되었는지를 파악하는 것은 매우 중요하다. 발표자는 이를 위해서 가우시안 과정과 디리쉴레를 혼합하여 해결하고자 하였다. 사실 발표를 완벽하게 이해하지는 못했지만, 가우시안 과정이 매우 흥미로운 연구주제라는 생각이 들었다. 이전 학회에서도 가우시안 과정을 활용하여 현실문제를 해결하는 발표가 몇 개 있었는데, 이번 학회를 통해서 이 분야에 대해서 좀 더 자세하게 공부하고 싶다는 생각이 들었다. 또한, 이 세션에서 "딥러닝을 이용한 저널 추천 시스템"을 주제로 진행된 발표도 매우 흥미로웠다. 다양한 저널에 게재된 논문들의 초록들을 수집하여 이 초록들로부터 키워드를 추출하여 키워드를 바탕으로 딥러닝을 활용하여 어떤 논문이 사용자가 작성한 논문과 가장 유사한 주제를 갖는지를 추천해줄 수 있다는 것이 매우 흥미로웠다. 즉, 매우 많은 저널논문들의 초록으로 이루어진 학습데이터를 구성하여 특정 사용자가 작성한 논문의 초록을 딥러닝기반의 추천모델에 대입하여 가장 적절한 논문을 추천해주는 방법론을 제안하였다. 이 세션에서 느낀 것은 딥러닝이 최근 많은 연구자들의 관심을 받으면서 활발하게 연구되어 있다는 것이다. 딥 러닝에 대해서 좀 더 자세하게 공부해야겠다고 느꼈다.
2. 데이터마이닝 (3) 세션
이 세션 역시 다양한 데이터마이닝 방법론을 활용하여 현실문제를 해결한 연구에 대한 많은 발표가 이루어졌다. 이 세션에서는 "A Novel Method to Build Logistic Regression Trees for Categorical-Numeric Mixed Type Data Classification"와 "고장 패턴 추출을 위한 Dynamic time segment 기반의 다변량 이산화 기법"라는 주제의 발표가 가장 흥미로웠다. "A Novel Method to Build Logistic Regression Trees for Categorical-Numeric Mixed Type Data Classification"는 의사결정나무와 다른 예측알고리즘을 결합하여 연속형변수와 범주형 변수가 혼합되어 있는 혼합데이터를 분석할 수 있는 방법론을 제안하였다. 의사결정나무 알고리즘은 범주형 변수를 매우 효과적으로 다룰 수 있기 때문에 이 방법을 통해서 범주형 변수를 적절하게 분석하고 의사결정나무의 최종노드에서는 Group lasso와 같은 정규화기반의 방법론을 사용하여 최종 예측을 수행하였는데 정규화기반의 방법론을 사용한 이유는 적은 수의 관측치를 갖는경우에 대해 효과적으로 적용할 수 있을 뿐만 아니라 과적합을 방지할 수 있기 때문이다. 전체적으로 발표가 논리적이어서 이해하기가 어렵지 않았고 방법론도 잘 흥미로웠다. "고장 패턴 추출을 위한 Dynamic time segment 기반의 다변량 이산화 기법"은 시간에 흐름에 따라 수집된 센서데이터를 몇 개의 시간구간으로 분할하여 이 구간의 특징을 평균이나 데이터의 평균 변화율 등으로 요약하여 이 데이터만을 가지고 고장 패턴을 도출한 연구였다. 시구간을 분할하여 구간 별 특징을 추출한다는 것이 매우 흥미로웠지만, 몇 개의 구간으로 분할 할 지, 또 구간 별로 추출할 수 있는 어떠한 특징을 더 추가할 수 있을 지 (ex. 구간의 주기패턴 등)에 대한 추가연구가 이루어지면 좋을 것 같다는 생각이들었다. 또한, 방법론이 시구간으로 분할하여 구간별 특징을 도출한다는 측면에서 Spline 기반의 방법론과 유사한 측면이 보이는데, spline 기반의 방법론도 함께 적용해보면 보다 흥미로운 결과를 얻을 수 있을 것이라는 생각이 들었다.
발표후기
<발표내용>
이번 학회에서 "Multi-class Logistic Lasso for Classification of Mass Spectra from Bacterial Strains" 를 주제로 발표를 하였다. 본 발표에서는 고차원의 질량 스펙트라 데이터를 효과적으로 분석하기 위해서 Multi-class Logistic Lasso을 적용하는 것을 제안하였다. 질량 스펙트라 데이터는 질병 탐지나 병원균의 단백질 분석 등을 효과적으로 분석하기 위해서 매우 중요한 부분이지만, 이러한 데이터는 상당한 고차원의 데이터로, 분석에 앞서 차원의 축소가 반드시 선행되어야 한다. 따라서, 질량 스펙트라 데이터 분석을 위해 많은 차원축소 방법론이 활용되고있지만, 기존에 널리 활용되는 변수 선택 기법은 질량 스펙트라를 분석하는데 많은 한계점을 가지고 있다. 이러한 한계점을 극복하고자 본 연구자는 Multi-class Logistic Lasso을 통해 질량 스펙트라 분석을 보다 효과적으로 수행할 수 있었다. Multi-class Logistic Lasso은 최근 변수선택 분야에서 많은 관심을 받고 있는 정규화 기반의 변수선택 방법으로, 수리 최적화 모델을 바탕으로 학습 데이터의 오류와 과적합의 오류를 동시에 고려함으로써 데이터를 잘 설명하면서도 의미가 없는 대부분의 변수를 제거할 수 있는 우수한 성질을 가지고 있다. 본 연구에서는 박테리아 병원균의 변종을 분류하기 위한 중요 변수를 탐색하기 위해 Multi-class Logistic Lasso 변수선택 기법을 적용하였고, 그 결과 분류 정확도와 변수선택의 안정성 측면에서 우수한 성능을 보임을 확인하였다.
<질문 목록과 답변>
1.발표자는 가장 일반적인 Multi-class Logistic Lasso만을 적용하였는데, Lasso에 바탕을 둔 Elastic net, Group Lasso등과 같은 다양한 방법론이 개발되었다. 이러한 방법론은 적용해보지 않았는가?
답변: Elastic net, Group Lasso과 같은 방법론은 반응변수가 연속형변수인 경우에만 활용가능한 방법론이다. 하지만, 이러한 방법론의 장점을 잘 반영하기 위해서 Multi-class Logistic Lasso에 응용할 수 있을 것이라고 생각한다. 향후연구에는 이러한 방법론을 활용하여 Multi-class Logistic Lasso과 융합된 방법론에 대해서도 연구를 수행해볼 계획이다.
2. Multi-class Logistic Lasso을 적용하여 분류를 수행한 결과 분류성능이 높게 측정되었다고 하였는데, 질량 스펙트라 데이터를 분류하는데 있어서 분류성능이 높고 낮음을 판단할 수 있는 기준이 있는가? 또한, 완벽하게 분류되지 않았는데 이러한 약간의 오류가 발생한 이유는 무엇인가?
답변: 분류성능의 높고 낮음을 판단할 수 있는 기준은 별도로 지정되어있지만, 100%에 가까울 수록 좋다고 할 수 있다. 또한, 오류가 발생한 이유는 아무래도 샘플의 수가 너무 적기때문이라고 생각된다. 일반적으로 질량 스펙트라의 데이터의 경우는 샘플을 얻는데 많은 비용이 소모되기 때문에 차원 수에 비해서 샘플이 너무 작은데, 이러한 경우 100%의 분류성능을 달성하는 것은 쉽지 않다고 생각된다. 보다 추가적인 분석을 통해서 분류성능을 좀 더 높일 수 있는 방안을 연구하는 것은 중요한 향후연구과제가 될 것이라고 생각된다.