- 2016년 11월 21일 오후 5:02
- 조회수: 1624
도형록
이번 대한산업공학회는 고려대학교에서 진행되었다. 이전 대한산업공학회들과 비교하여 데이터마이닝 관련 세션의 수와 발표의 수가 점점 늘어나고 있고, 국내에서도 데이터 분석에 대한 관심이 계속해서 증가하고 있다는 것을 확인할 수 있었다.
최근 몇 년간 많은 관심을 받고있는 artificial neural network에 대한 인기는 대한산업공학회에서도 찾아볼 수 있었다. 많은 데이터마이닝 세션의 발표들이 neural network 계열 알고리즘을 다양한 문제에 적용한 연구였으며, deep neural network 또는 stacked autoencoder와 같은 비교적 단순한 구조의 모델에서 벗어나 convolutional neural network, recurrent neural network와 같이 조금 더 복잡한 구조의 neural network를 적용한 연구들이 눈에 띄었다. 또한 텍스트마이닝 관련 발표들이 줄어들고, 다양한 주제의 데이터 분석 연구들이 발표되었다는 점 역시 주목할만한 변화라고 생각했다. Deep neural network 계열의 알고리즘이 텍스트 분석에 있어 압도적인 성능을 나타내기 시작하면서 텍스트마이닝과 관련된 다양한 연구들이 사라진 것이 아닌가하는 생각이 들었다.
- 발표자 후기 -
발표 주제 - 건설장비 시장의 공통 특성을 활용한 Multi-Task Learning 기반 수요예측 방법론
발표 내용 - 건설장비는 다양한 지역에서 판매되며, 다양한 모델이 판매된다. 기존 연구에서는 건설장비의 수요를 예측하기 위해 하나의 지역, 하나의 모델에 대해 각각 다변량 예측 모델을 구축하고 예측을 시행하였다. 하지만, 건설장비 수요예측에 있어 각 지역 간, 모델 간 공통적으로 활용할 수 있는 정보가 있다고 가정할 수 있다. 이를 반영하기 위해 본 연구에서는 multi-task learning을 적용하고, 결과를 확인하였다. Multi-task learning이 single-task learning에 비해 비약적인 성능 향상을 보이지는 않았지만, 관측치가 부족하여 single-task learning으로 예측 모델을 학습할 수 없었던 지역/모델에 대해 예측을 시행할 수 있었다.
질문 및 대답
Q1. 수요예측 문제 정의에 있어, 1개월 후 판매량을 예측하는 모델을 구성한 것 같다. 건설장비 같은 경우에는 1개월 후 판매량 예측이 중요하지 않을 것 같은데 장기 예측을 시행하지 않은 이유는 무엇인가?
A1. 영업부서 실무자의 의견에 따르면, 건설장비 수요예측에 있어 단기 예측과 장기 예측 모두 의미가 있다고 한다. 본 연구에서는 제한된 데이터 내에서 최대한 많은 task의 수를 확보하여 multi-task learning을 적용하기 위해 단기 예측을 시행하였다.
Q2. Multi-task learning에서 각 task 별로 feature set이 정확하게 일치하지 않는 경우에 적용할 수 있는 알고리즘이나 방법론이 있는가?
A2. 본 연구에서는 다변량 데이터셋을 직접 구성하여 분석을 진행하였기 때문에 task간 feature set이 다른 경우에 대해서는 미처 생각해보지 못했다. Regularized linear model에 관해서는 관련 연구가 없는 것으로 안다. 하지만 Multi-task learning 알고리즘에 대한 다양한 연구들이 있기 때문에 다른 알고리즘으로 진행된 연구는 있을 것이라고 생각한다.
Q3. 향후 연구에서 task간 관계를 반영하여 성능을 향상시키기 위한 알고리즘을 적용한다고 하였는데, task간 관계가 알려진 경우와 task간 관계가 알려지지 않은 경우에 적용할 수 있는 multi-task learning 알고리즘이 모두 연구된 것으로 알고 있다. 이 문제는 어느쪽에 해당하는가?
A3. 본 연구에서는 각 지역과 건설장비 델의 조합을 통해 task를 구성하였다. 따라서 일부 task는 같은 지역으로부터 수집된 데이터이며, 일부 task는 같은 건설장비 모델에 대해 수집된 데이터이다. 따라서 어느 정도 task간 관계가 알려져 있기 때문에 task간 관계가 알려진 경우에 사용할 수 있는 multi-task learning 방법론을 적용할 수 있다. 또한, task간 관계가 알려지지 않은 경우에 적용할 수 있는 알고리즘 역시 적용할 수 있다.
- 청취자 후기 -
C6.1 A Comparison of Two-Stage Penalized Regression Approaches for Estimating Directed Graphs
Gene expression 데이터를 기반으로 gene network를 graph 형태로 추정하는 연구에 대한 발표였다. 짧은 시간 내에 모든 내용을 파악하기에는 힘든 연구였지만, graphical Lasso, adaptive Lasso 등을 이용하여 변수들 간 graph structure를 찾아낸다는 점이 흥미로웠다. 현재 진행중인 연구가 사전에 주어진 변수 간 graph structure를 이용하는 연구인데, data로부터 graph structure를 찾아내어 한 번에 학습하는 방법도 고민해볼 가치가 있을 것 같다.
C3.3 Convolutional Autoencoder with Hybrid Learning
Neural network 형태의 알고리즘은 multiple input, multiple output 데이터를 처리하는 데 효과적이며, supervised learning에서는 multi-class classification, unsupervised learning에서는 denosing이나 reconstruction에 사용된다. 발표자는 이런 neural network의 장점을 활용하여 reconstruction과 classification 모두 가능한 network 구조를 제안하였다. Convolutional layer를 도입하여 이를 이미지 데이터를 잘 설명할 수 있는 feature를 extract하는 실험을 진행하였으며, 일반적인 convolutional neural network, convoluational deep autoencoder로 extract 한 feature와의 비교를 통해 제안 방법의 성능을 입증하였다. 알고리즘의 장점을 활용하여 간단한 아이디어만으로 새로운 알고리즘을 제안했다는 부분이 흥미로웠다.
C6.4 A Convolutional Neural Network for Fault Classification and Diagnosis in Semiconductor Manufacturing Processes
공정 데이터의 경우, 하나의 관측치를 설명하기 위해 다변량 데이터가 매 시점마다 수집되는 경우가 있다. 이를 해결하기 위해 시간 축에 대해서 대표값을 이용하는 등의 여러가지 접근 방식이 있는 것으로 알고 있는데, 이 발표에서는 convolutional neural network를 약간 수정하여 분석하는 방법론을 제안하였다. Convolutional neural network의 convolutional layer에서는 receptive field를 이용하여 데이터를 압축한다. 일반적으로 receptive field는 모든 축 방향으로 움직여가며 정보를 추출하는데, 제안 연구에서는 한 방향으로만 움직이도록 설계하였다. 즉, 다변량-시계열 데이터를 이미지와 비슷하게 만들고, receptive field가 변수의 크기만큼, 시간에 대해서는 한 시점만큼의 크기를 갖도록 설계한 것이다. 이런 식으로 구성하게 되면 매 시점마다 변수의 값을 요약하여 다음 layer로 보내게 된다. 다변량-시계열 데이터를 분석하기 위해 당연히 recurrent layer를 도입해야만 한다고 고정관념을 갖고있었는데, 상당히 놀라웠다. 실험 결과에 따르면 분류 성능도 상당히 좋았으며, 학습하는 데 걸리는 시간도 보다 짧다고 했다. 원리는 정확하게 이해할 수 없었지만 이상 원인 분석에 있어서도 유용한 정보를 제공한다고 하는데, 조금 더 알아볼 필요가 있는 연구라고 생각한다.