- 2015년 11월 8일 오전 9:53
- 조회수: 1700
이상민
학회명: INFORMS 2015 annual meeting (The Institute for operations Research and the Management Sciences) 기간: 2015/11/1 ~ 4 장소: Philadelphia, US |
n Conference Summary
1. INFORMS는 최적화, 시뮬레이션, 품질관리, 응용수학, 의공학, 데이터 사이언스 등 다양한 산업공학적인 분야를 총 망라하는 세계에서 가장 큰 산업공학 학회이다. 금년에는 미국의 Philadelphia에서 개최되었으며, 그 명성에 걸맞게 다양한 분야의 최고 전문가, 교수님들이 참가하여 산업공학의 다양한 연구분야에 관한 세미나가 진행되었다.
2. 학회는 약 40여 개의 세션이 동시 진행될 만큼 큰 규모였으며 관심 있는 연구 주제를 찾아 들으러 돌아다닌 것도 학회일정의 중요한 부분이었다. 대부분은 실제 현장연구가 아닌 보다 이론적인 알고리즘 연구에 대해 관심이 있었으며, key note speech를 포함해 다양한 연구들이 최적화를 기반으로 하여 제안하는 또는 소개하는 알고리즘을 도해하기도 하였다.
3. 학회 진행 중 Plenary Talk이 중간중간 진행되었으며, 저명한 학자들의 발표가 지속적으로 이어졌다. 특히 위스콘신대의 Stephen J. Wright 교수님의 Optimization Techniques in Data Analysis 주제의 keynote speech가 인상 깊었다. 이 강좌에서는 machine learning 분야의 SVM이나 NN 등을 포함한 다양한 알고리즘에 대해서, 최적화 기반 formulation을 통해 각 알고리즘이 가지는 특성과 이론적 속성을 명시함으로써 개선방향을 규명하는 방식으로 설명을 진행하였다. Classification/Regression/Manifold Learning 등 머신러닝을 포함한 데이터 분석 연구분야의 각 알고리즘이 해결하고자 한 문제의 본질과 알고리즘의 특징을 목적식, 제약식의 구조로 쉽게 풀어서 설명해주신 부분에 있어 인상 깊었다. 추후 연구 시 최적화와 관련된 배경을 좀 더 쌓는다면 또 다른 insight를 받을 수 있으리라 생각이 든다.
4. 기업 부스에도 최적화와 시뮬레이션 솔루션 회사들이 대거 참가하였다. 기존에 생산, 물류에 특화된 기능으로 절대적인 우위를 보여준 시뮬레이션 솔루션인 Applied 사의 AUTOMOD는 불참하였으나, 최근 simulation modeling power와 이산형 시뮬레이션의 agent-based simulating 등으로 두각을 드러내고 있는 Simio와 AnyLogic 등의 업체들이 비중 있게 다루어져서 고무적이었다. 이외 데이터 가시화와 관련하여 web board 전용 회사나 matlab, sas의 plug-in 제품을 소개하는 회사도 있었다.
n Session Summary
Functional Data Analysis에 관한 연구가 흥미로웠으며, 이 중 몇 가지 연구사례를 소개한다. Varying coefficient data에 대해 functional data modeling의 기법을 적용하는 다양한 사례를 보여주었다. 특히, 2014년 노벨상을 받은 주제로 광학현미경으로 나노 단위의 관측물을 현미경할 수 있는가라는 연구가 있었다고 한다. 이 연구의 일환으로 DNA, RNA 등의 protein에 대해서 인지하기 위한 clustering 기법에 대한 연구내용을 발표한 세션이 있었으며, 광학적으로 nano 단위까지 측정하기 위해 4,000장의 snapshot사진을 통한 연구내용을 발표하였다. 개별 protein에 대한 euclidean distance를 기반으로 spatially correlated 되어 있는 특성들을 찾기 위해, noise 제거, partial data, cell blinks, temporal relations 등 다양한 현실적인 제약사항들을 고려하여 흥미로웠다. 완전히 다른 domain knowledge가 필요한 분야지만, 일반적인 clustering application으로 생각되었는데, 특히 제안한 방법론 중 마지막 단계로 각 protein의 개별 disjoint protein signals를 구분하기 위해 Kmeans를 사용한 부분이 눈에 띄었다. 이와 관련해 발표 후 다음과 같이 두 가지를 질문하였다. 많은 clustering algorithm 중 Kmeans를 사용한 사유가 있는가, Kmeans에서 임의 K를 설정해서 실험하는 것보다는 SSE나 shilouette을 기준으로 optimal k를 찾아서 보는 게 어떠한가. 동일한 세션에서 1) 가우시안 프로세스를 활용한 연구, 2) DOE 개념을 활용한 application연구, 3) correlated HDDS(High-dimensional data streams)에 대한 모니터링 연구, 4) 베이지안 계층적 선형 모델링 연구 등 다양한 연구들이 발표되었다.
최적화 기법 기반 시뮬레이션(Simulation optimization) 연구들도 다수 진행되었으며, 선로의 제약적 조건을 반영하여 기차 별 scheduling과 dispatching 에 관한 시뮬레이션 연구와 비행기별 변경되는 일정과 기타 고려사항들을 통계적으로 고려하여 시뮬레이션하고, 이를 최적화의 민감도 분석에 활용하는 분야의 연구 등 현실문제를 폭넓게 다루었다. 추후 제조산업 분야의 특정 설비의 운영 효율성을 재고하는 연구를 추가 수행할 때 참고할만한 approach와 insight를 얻을 수 있었다.
품질분야에서는, Uncertain data에 대해 Knn 등 다양한 기법을 기반으로 우도비를 최대화 하여 분류오류를 최소화 하고자 하는 연구들이 있었으며, 이외 불량탐지를 위한 Relevance Vector machine 등을 활용한 기법 제안이나 시계열 데이터에 대한 supervised/unsupervised learning 기법 적용에 관한 다수의 연구들이 있었다. 특히 시간에 따라 변화하는 autocorrelation data에 대해서 autoregression을 활용한 시계열 모델링으로 분류문제에 대한 다양한 사레연구를 선보이고 unlinear approach에 대한 추가연구 방향까지 보여준 Mustafa 교수의 연구가 인상 깊었다.
재미있는 연구분야들도 다수 소개되었는데, 몇 가지만 소개하고자 한다. 텍스트 마이닝 분야에서 문서의 유사성을 판단하여 분류하는 일반적인 measure로 TF-IDF를 흔히 사용하는데, SNS 상 실시간에 가까운 데이터들에 대해 적용할 경우에는 discourse(담론)에 대한 고려를 해야 한다는 연구가 있었다. 예를 들어, ‘국정화’와 관련된 키워드가 해당 시점에 뜨거운 논쟁거리인 경우 해당 키워드는 TF-IDF 상 좋은 keyword로 취급될 수 없으나, 해당 주제가 같은 논의 거리를 가지고 있음은 명백하므로 발표자는 TF-IDF 공식에 discourse에 해당하는 term을 추가하는 방식으로 보정하였다. 이외에도 facebook 데이터를 활용한 text mining 사례를 다수 발표한 세션이 있었는데, 활용한 기법 자체가 흥미롭지는 않았으나 sentiment analysis 등이 활발히 연구되고 marketing 등에 폭넓게 활용되고 있음을 확인할 수 있어 의미 있었다.
이번 컨퍼런스에 참가하여 무엇보다 관심 있게 들었던 내용은 A Novel Sequence Kernel Graph Transform for Clustering and Visualization 이라는 발표였으며, G대학의 박사과정 학생의 발표였다. 순서의 의미를 갖는 데이터들 간에 상관관계를 찾는 방법은 association rule을 찾는 다수의 알고리즘이 존재한다. 하지만, 기존의 optimal matching 기법으로는 문제 크기에 따라 time complexity가 높아 부적합하며, 일반적인 heuristic algorithm들은 global optimum을 보장하지 않거나 scalable 하지 못한 단점이 있다. 본 발표 내용에서는 순서 데이터를 효과적으로 다루기 위한 scalable algorithm으로, pairwise relation 정보량을 기초로 network 기반의 representation model로 바꾸는 SKG(Sequecne Kernel Graph) 방법을 제안하였다. 즉, alignment-free clustering 문제로 변경하여, 이 network의 유사성을 판단하거나 비유사성을 판단할 수 있는 근거로 활용하는 것이 주요 골자이다. 연구사례로 web log 분석이나 단백질 또는 유전자와 관련된 데이터에 대해서 연구결과를 보여주었다. 네트워크 모델링을 활용한 방식이라 상당히 직관적이라 순서정보를 갖는 데이터의 intrinsic structure 를 보여줄 수 있는 좋은 presentation model이 될 수 있을 것 같으며, 또한 large-volume & high-dimension 데이터에 적합한 분석 방법이라는 생각이 들었다. 또한, 발표자의 의도대로 순서 데이터에 대한 length sensitivity, local similarity와 global similarity를 분리해서 볼 수 있다는 것도 좋은 아이디어 라고 생각한다. 발표자에게 자료를 요청했는데 받는대로 연구실원들과 공유코자 한다.
n Presentation
금년도 다변량 분석기법에 관한 연구내용을 다시 한번 정리하고 많은 학자분들께 공유할 수 있었던 소중한 자리였다. 소속 연구실과 삼성전자 지인분들을 포함하여 많은 Rutgers 대학 출신 분들이 경청해주었고, 소속은 알 수 없으나 품질관리에 관심을 갖는 분들도 다수 참석해주었다.
발표는 비교적 오랜시간 차분히 준비했던 터라 무난하게 진행하였다. 알고리즘의 기법적인 부분이나 적용결과 보다는 현장의 실제문제가 품질관리 측면에서 어떻게 다루어져야 하는지 비교적 많은 시간을 할애하여 설명하였다.
공정관리에서 고품질을 유지하는데 detection을 빠르고 정확하게 하기 위한 연구는 많이 있어왔으나, 이상치(novelty) 탐색 후 해석(decomposition and interpretation)에 대한 연구는 상대적으로 많이 이루어져 있지 않다. 무엇보다 domain knowledge를 어떻게 일반화된 정보로 formulation 할 수 있을까에 대한 고민이 앞서기 때문으로 생각된다. 이상치를 잘 설명할 수 있는 변수를 도출하고 근본원인에 보다 근접한 해석을 하기 위해서 machine learning 기법을 활용하거나 또는 전이학습(transfer learning)을 통해 직관적이고, 정확도가 높으며, 해석력이 풍부한 모델(intuitive, accurate, and abundant interpretation model)을 만들 수 있으면 좋겠다는 생각이 들었다.
발표 중 받은 질문은 다음과 같다.
Q1. 관리도 설계 시 관측 데이터의 자기상관성(Autocorrelated) 속성은 어떻게 고려하였는가?
e 좋은 질문이다. 현 실험은 dataset 30여개 feature로 진행했고, 앞에서 얘기한대로 일부 변수에서 autocorrelation 속성이 존재함을 확인하였다.(correlogram a lag를 확인시켜주는 차트) 이런 자기상관성 속성을 제거하지 않는 경우, 관리도 기법(control chart) 적용에 좋지 못한 결과를 야기한다. (many false alarms) 해결을 위해 자기상관성 속성이 강한 데이터들에 대해서는 time series model(WMA)을 통해서 data transformation 시켜서 해당 속성을 제거 후 관리도에 적용하였다.
Q2. 다변량 관리도에서 상관관계는 어떻게 고려하는가?
e 제안한 방법론의 procedure에서 활용한 Hotelling’s T2 에서는 각 변수들의 선형적 관계성을 covariance matrix을 기반으로 관측 T2를 계산하게 되므로, 개별 관측치들의 variant를 가장 잘 설명할 수 있다.
Q3. Runger’s decomposition 시에 특정 변수들을 추가하거나 빼는 것으로 그 결과에 대한 상대적인 차가 크게 나타난다. 이와 관련된 문제를 접하거나 고민해본 적이 있는가?
e 본 실험에서는 이상치(Novelty)에 높게 기여한 변수를 추출하기 위한 단계(decomposition)에서 MTY 기법을 활용하였다. 단순히 R에서 해당 step을 수행하였으므로, 해당 문제를 고려해본 적은 없다. MTY 이외에도 수 십 가지의 decomposition method 가 존재한다. 문제가 있을 경우 다른 알고리즘을 적용해보는 것을 추천한다. (당시 조금 엉뚱한 답변을 했던 것 같다. Runger’s decomposition에서 특정 변수의 contribution value를 추출하는 방법은, 해당 관측치