고려대학교 DMQA 연구실

2014 대한산업공학회 추계 학술대회 - 유재홍

2014년 11월 24일 오전 11:53
조회수: 1260

Reviewed by

유재홍

2014년 대한산업공학회 추계 공동학술대회는 경기대학교에서 개최되었다. 이번 학술대회는 통계/ 품질, 생산/물류,
최적화 이론 및 응용과 같은 산업공학의 다양한 방법론 및 응용분야에 관한 세션으로 구성되었다.가장 흥미로웠던 세션은 확률모형 활용(1), (2)와 데이터마이닝이었다.

1. 확률모형 활용 (1) 세션

확률모형 활용(1)에서는 “Pearson system을 활용한 공정데이터의 특징추출” 이라는 주제의 발표가 인상 깊었다. 이 발표에서는 주기신호를 가진 공정데이터에 대해서 spline regression과 k차 모멘텀을 활용하여 평균, 분산, 왜도, 첨도와 같은 다양한 통계모수를 주기신호의 특징으로 추출하였다. Spline regression 기법에 대해서 평소에 관심을 가지고 있었기때문에 이 발표를 좀 더 유심히 들었는데, 해당기법과 응용방법론에 대해서 좀 더 이해할 수 있게되었다. 특히, 주기신호에서 시간 영역별로 시간을 x축으로, 주기신호의 값을 y축으로 설정하여 regression을 수행하고, 이로부터 얻어진 회귀계수를 특징변수로 추출하는 부분이 상당히 흥미로운 부분이었다. 하지만, 시간영역을 미세하게 분할함에 따라 전체적인 모델은 정교해질 수 있지만 일반화(generality)관점에서 봤을때는 오히려 악영향을 미친다고 생각한다. 발표자는 이 영역의 분할을 기존논문을 통해 결정했다고 하였으나, 다양한 실험을 통해서 최적의 영역분할을 찾는 것도 하나의 이슈가 될 것이라고 생각한다. spline regression 기법에 대해서 좀 더 자세하게 공부해봐야 겠다는 생각이 들었다.

2. 데이터마이닝 세션

두 번째 세션에서는 데이터마이닝 방법론의 연구에 대한 발표가 주를 이루었는데, “데이터마이닝 알고리즘을 위한 효율적 k-NN Graph 계산”과 "혼합형 데이터의 불순도 측정 방법을 이용한 나무분류 군집화"의 발표가 특히 인상 깊었다. 특히, 첫 번째 발표는 현재 나의 연구 주제 중 하나인 그래프기반의 데이터마이닝 방법론과 직접적으로 연관이 있었기 때문에 좀 더 관심을 가지고 집중해서 듣게 되었다. 이 발표에서는 최근 데이터의 형태가 다양해지고, 데이터의 양이 폭발적으로 증가함에 따라 일반적인 k-인접이웃 탐색기법으로는 적절한 그래프를 그리기가 어려워졌고, 이를 극복하기 위해 효율적인 k-NN 탐색을 수행하여 그래프를 구성하는 방법론을 제안하였다. 좀 더 구체적으로는 한 관측치의 이웃에 속하는 관측치는 이웃관측치들의 이웃에 포함될 확률이 높다는 작은세상 네트워크의 전제와 유클리디언 거리나 코사인 거리와 같은 거리척도에서 가정하는 triangular inequality를 바탕으로 k-인접 이웃간의 거리의 경계값 (bound)를 설정하여 보다 효율적이고 정확한 탐색방법을 수행한 것이 상당히 인상깊었다. 세션이 끝나고 이 발표의 발표자와 좀 더 심도있는 대화와 토론를 나누었고, 기회가 있을때 교류를 하자고 하였는데, 학회를 통해서 비슷한 분야의 연구자를 만나고 토론할 수 있는 기회를 가질 수 있다는 것에 대해서 매우 뿌듯하고 뜻깊었던 세션이었다. "혼합형 데이터의 불순도 측정 방법을 이용한 나무분류 군집화"라는 주제로 진행된 발표역시 관심을 갖고 들었는데, 우리 연구실에서 발표한 "Recursive Partitioning Clustering Tree"논문과 상당히 유사한 기법인 것 같아서 좀 더 이해하기가 쉬웠던 것 같다. 다만, 이 발표 논문에서는 Entropy지수를 계산하기 위해서 연속형 변수까지 범주화를 수행한 과정이 있었는데, 이 부분에 대해서는 몇 가지 의문점이 들었다. Tree 알고리즘 자체가 연속형 변수에 대해서 범주화 하는 과정이 포함되었다고 볼 수 있다고 생각하는데, 단지 entropy지수를 계산하기 위해서 군집화를 수행하는 과정을 포함시킬 필요가 있는지에 대한 의문이 들었다. 또한, 발표자는 계산시간을 줄이기 위해서 연속형 변수를 범주화하는 과정이 필요하다고 하였는데, 연속형 변수를 k-means 알고리즘을 통해서 군집화를 하는과정에서 상당한 계산비용이 소요되며, 실루엣 지수를 통해 k를 찾는과정 역시 비교적 높은 계산비용이 소모되는데, 발표자의 답변과 모순된다는 생각이 들었다.

3. 확률모형 활용 (2) 세션

오후에 진행된 세션인 확률모형 활용 (2) 역시 흥미로운 발표들이 많았다. “Comparison of data preprocessing techniques for relaxing class imbalance”에 관한 연구를 관심 있게 들었다. 이 발표에서는 데이터의 클래스가 상당히 불균형하게 분포되어 있는경우의 전처리 기법들의 성능을 비교한 발표였다. 클래스가 불균형하게 분포되어 있는 경우에 적절하게 전처리 하는과정이 필요하고 많은 기법들이 제안되었는데, 이러한 기법들의 특징과 성능비교를 수행한 것이 많은 도움이 되었다. 이러한 기법들에 대해서 좀 더 공부를 해야할 필요성을 느낀 발표였다.

이번 학회에는 상당히 흥미롭고 연구에 도움이 되는 발표가 많았고 많은 부분을 배울 수 있었다. 또한, 나 역시 좋은 연구를 수행하기 위한 노력을 기울여야겠다는 자극을 받았다. 연구주제가 비슷한 다른 연구자들과의 질의응답, 코멘트, 발표 후의 개인적인 토론과 같은 학술교류를 통해 나의 연구의 수준이 좀 더 높아질 수 있는 기회가 될 수 있다는 것을 깨달았다.

Conference