- 2018년 6월 22일 오전 10:46
- 조회수: 1439
김영훈
대만에서 열린 Informs International 2018에 참석하고 돌아왔다. 이번 Informs의 부제는 A better world through O.R., analytics, and AI였는데 부제가 암시하는 바와 같이 기존의 최적화, 데이터마이닝, 기계학습 기법들을 활용해서 다양한 현실 문제를 해결한 연구 내용들을 소개받을 수 있었다. 인상적이었던 점은 2014년에 Informs에 참석할 때보다 좀 더 많은 연구자들이 기계학습 방법론에 관심을 갖고 이를 현실 문제 해결에 적용해서 좋은 연구 결과들을 내고 있다는 점이었다. 의사결정나무, 회귀분석과 같은 기본적인 분석 방법에서부터 Deep Learning 방법론에 이르기까지 다양한 방법론이 적용되고 있었고, Sequential한 의사결정 문제 해결을 위해서 Reinforcement Learning 방법론이 물류 시스템에서 차량 할당, 병원에서 응급 인력 할당 등의 문제에 적용되고 있었다. 그리고 Deep Learning과 관련한 우리 연구실 연구에 큰 관심을 갖는 연구자들이 많은 것을 보았을 때도 연구자들의 기계학습 관련 관심도가 많이 커진 것을 알 수 있었다. 하지만 아직까지는 기계학습 방법론에 대한 연구들이 주류를 이룰 정도로 많지는 않고 대다수의 연구들은 주로 기존의 OR, 통계 분석에 근간을 두고 있다는 점에서 봤을 때 인공지능 기술에 많은 관심이 집중되고 있는 현실 상황과는 온도차가 느껴졌다. 향후 산업공학적인 관점으로 다양한 인공지능 관련 연구들이 활발히 진행되기를 기대해 본다.
[발표후기]
제목: Collaborative Dual Evolving Network for Graph-free Label Propagation
기존의 Graph에 기반한 Label Propagation 방법론들은 직관적이고 효율적인 방법으로 Semi-supervised Learning을 적용할 수 있다는 점에서 널리 사용되었다. 기본적으로 Transductive Learning 방법론으로 사용이 되어왔는데, Label Propagation의 최적화 문제 Formulation을 응용하여 Manifold Regularization 이란 방법으로 확장하여 Inductive Learning 방법론으로도 많은 연구가 이뤄져 왔다. SVM, Logistic Regression을 비롯해서 다양한 최적화 기반의 Classifier에 응용이 가능해서 다양한 방법론에 확장 적용되어왔다. 하지만 이 방법은 근본적인 한계점이 있다. 먼저, 이 방법은 Similarity를 Distance에 기반해서 계산을 해야하는데 고차원 데이터에 적용을 할 경우에는 차원의 저주 문제 때문에 계산 결과를 신뢰하기 어렵다. 두번째로, 이 방법론은 근본적으로 그래프 정보에 근간을 두고 있기 때문에 Similarity Matrix를 계산하고 저장한 후 이를 활용해 최종 결과를 계산해야 하는데 관측치 수가 증가할 수로 제곱에 비례해서 계산시간, 메모리 사용 공간이 증가한다는 한계점이 있다. 이를 극복하기 위해 본 연구에서는 Convolutional Neural Network에 기반한 새로운 Label Propagation 방법론을 제안했다. 제안 방법은 Propagate Path Net과 Propagate Class Net을 사용해서 Label이 붙어있는 관측치로 학습을 하고 주변 관측치드을 분류해가는 방식으로 Semi-supervised Learning을 진행한다. 제안 방법을 적용했을 경우 기존의 방법론들에 비해서 더 정확한 분류 결과를 얻을 수 있었다. 그리고 추가적으로 흥미로운 발견은 데이터 레이블을 붙여가는 과정을 관찰했을 때 20% 정도의 데이터만 레이블이 붙여지더라도 전체 데이터를 모두 사용했을 때와 유사한 결과가 나오는 것을 확인할 수 있었다. 이 결과는 학습 데이터 전체가 모두 최종 모델의 성능에 큰 영향을 주는 것이 아니라 일부 소수의 데이터가 큰 영향을 준다는 사실에 대한 발견이라 생각된다. 이 부분은 향후 연구에서 좀 더 자세히 연구를 진행할 예정이다. 많은 청중들이 발표를 듣지 않았지만 발표한 내용에 대해 인상적이었다는 평가와 함께 큰 관심을 가져준 교수님이 계셔서 기분 좋게 마무리할 수 있었다. 발표가 끝난 후에 나눴던 얘기도 흥미로웠다. 그 분은 의학 텍스트 분석을 하시는 분인데 텍스트 속의 단어들에 레이블을 붙이는 수작업이 너무 힘들었는데 Semi-supervised Learning 방법론이 유용할 거 같다는 얘기를 하셨다. 향후에 추가적인 연구를 통해 연구 완성도를 높이고 좋은 연구 결과로 마무리 짓고 싶다.
질문 1. 제안 방법론은 현재 이미지 데이터 분석에 적용한 것 같다. 현재 질문자는 텍스트 데이터 분석을 진행중에 있는데 혹시 텍스트 데이터에도 적용이 가능한가?
답변 2. Convolutional Neural Network를 텍스트에 적용한 연구 내용들도 찾아볼 수 있었다. 제안 방법을 바로 텍스트에 적용이 가능하다. 또는 Recurrent Neural Network를 제안 방법과 같이 변형하는 것이 가능하다.
코멘트. 현실 문제 해결에 있어서 Labeling을 다는 작업은 굉장히 많은 수작업이 요구된다. 이러한 상황에서 제안 방법론이 유용하게 사용될 수 있을 것 같다. 다양한 응용 분야에 사용해보면 좋을 것 같다.
[청취후기]
Improving Manufacturing Systems by Understanding Variability
York 대학의 John Buzacott 교수님의 Plenary 세션이었다. 이 세션은 생산 시스템의 효율성과 생산물의 품질을 향상시키는 과정에서 노동자들 간의 Variability가 어떠한 영향을 주는 지에 대한 역사적인 변화 과정을 연구하신 교수님의 통찰력을 엿볼 수 있는 세션이었다. 포드의 컨베이어 벨트 시스템이 발견된 지 100년이 지났다. 그 이후로 Job Shop System, Toyota의 JIT 시스템과 같이 생산성과 효율성을 획기적으로 늘릴 수 있는 시스템들이 제안되어져 왔다. 하지만 아직까지도 이러한 시스템들의 한계점이 있다면 노동자들의 Variability이다. 우리가 생산 시스템을 설계할 때 기계의 변동성 같은 경우에는 어느 정도 계산이 가능하다. 하지만 노동자들의 변동성 특히 노동자들의 상호 작용이 이뤄져야 하는 작업에서의 변동성은 계산하기가 매우 어렵다. 그렇기 때문에 우리는 아직까지 완벽하게 통제되고 효과적인 생산 시스템을 설계하지 못했다. 생산 시스템의 효율성 제고 작업은 계속해서 이뤄질 것이다. 이제 많은 부분이 기계에 의해서 대체되고 있다. 자동화 장비들의 도입으로 많은 부분이 예측 가능해지고 인간의 변동성으로 인한 효율성 감소가 많이 해결되었다. 지금의 자동화 장비들이 생산성 제고 문제를 완벽히 해결할 수 있을 것 같지만 아직도 갈 길이 멀다고 생각이 된다. 현대 생산공정은 굉장히 많은 과정으로 나눠져서 공정이 진행된다. 각각의 자동화 장비들은 해당 생산 영역에 특화되어 운영이된다. 각각의 장비들은 오로지 자신의 작업을 최대한 잘 하도록 설계되어 운영된다. 하지만 개별 작업을 최대한 잘 하더라도 공정의 흐름에 따라 제품 품질에 변동성이 생기게 되고 불량품이 생겨날 수 있다. 차세대 생산시스템은 이러한 자동화 장비 시대의 한계를 뛰어넘을 수 있도록 전체 공정 관점에 제품 품질을 최적화할 수 있어야 되지 않을까 생각이 되었다.
Machine Learning Artificial Intelligence and Optimization: Opportunities for Inter-Disciplinary Innovation
SAS에 계신 Radhika Kulkarni 박사님의 기조연설이었다. 이 분은 원래 산업공학에서 OR을 전공하셨었다. 본인이 가지고 있는 최적화에 대한 전문성을 살려서 현재는 기계학습과 인공지능 분야 연구를 진행하고 계시다고 했다. 개인적으로 산업공학도의 관점에서 인공지능, 기계학습 분야를 선도하고 계시는 분이어서 관심이 많이 갔고, 강연을 들은 후에 관련해서 생각을 많이 하게 된 계기가 된 발표였다. 산업공학도로서 인공지능 시대에 어떻게 사회에 큰 영향을 줄 수 있는 성과들을 만들어낼 지 고민을 해봐야 할 것 같다. 발표 내용은 자세한 알고리즘 설명을 하진 않고 전반적으로 최적화 기술들이 어떻게 인공지능, 기계학습 분야에 응용될 수 있는지 설명하는 방식으로 진행되었다. 발표 내용은 다음과 같다. 기계 학습 및 인공 지능 플랫폼은 현재 활발히 연구되고 있고 많은 분야에 지대한 영향을 주고 있다. 산업. 의료 응용 분야에서부터 금융 응용 분야, 제조 산업에 이르기까지 다양하다. 빅 데이터 및 기계학습 연구를 하는 과정에서는 최적화 기법을 적용 할 수있는 많은 기회가 있다. 인공 지능 플랫폼에서 기계 학습 도구를 대규모로 구현하려면 여러 가지 수준의 자동화가 필요하고 이 과정에서 최적화 방법론들이 사용되게 된다. 최적화 기술은 솔루션을 찾고 성능을 향상시키는 데 중요한 역할을 한다고 한다. 거기에 더해서 다양한 기계학습 방법론들은 최적화 문제로 Formulation되어있다. OR을 전공했던 사람이라면 쉽게 이해할 수 있는 수준의 문제들도 많이 있다. 따라서 OR을 전공한 또는 공부했던 산업공학도라면 인공지능, 기계학습 분야에서 좋은 성과들을 낼 수 있다고 한다.
First-order Methods for Convex Programs based on Inexact Augmented Lagrangian
ALM (Augmented Lagrangian method)은 Constrained Optimization 문제를 해결하기 위해 널리 사용되어왔다. 실질적으로 ALM에서 Primal Variable들을 업데이트하기 위한 하위 문제는 대개 완벽하게 해결되지 못하고 휴리스틱하게 해결할 수 있다. 왜냐하면 이를 완벽하게 푸는 문제 자체도 어려운 최적화 문제이기 때문이다. 이러한 상황에서 하위 문제가 완벽하게 해결될 수 있는 ALM의 수렴성은 광범위하게 연구되었다. 그러나, 하위 문제가 휴리스틱하게 해결되야 하는 ALM의 Convergence rate은 아직 많이 연구가 되지 않고 있다. 이 발표에서 발표자는 이러한 상황에서 이론적인 Convergence Rate을 계산하는 방법을 소개했다. First-order Method는 다양한 Machine Learning 문제에서 사용되고 있는 최적화 방법론이다. 이 방법론의 수렴성을 이론적으로 증명했다는 점에서 참 흥미롭고 좋은 연구라고 생각되었다. 앞으로 이런 부분에 대해서도 관심을 가지고 공부와 연구를 진행해 보고 싶다.