- 2018년 6월 24일 오후 10:03
- 조회수: 1154
곽민구
대만에서 개최된 INFORMS International 2018년에 참석하였다. 해외 학회에 첫 번째로 참가할 수 있는 기회였으며, 산업공학에서 가장 큰 학회 중 하나인 INFORMS인 만큼 산업공학 내에서 초점을 맞추고 있는 연구 분야에 대해서 알아보고 느낄 수 있는 기회였다. 4일간 진행된 학회에서 전반적으로 느꼈던 점과 더불어 발표, 청취를 하면서 느낀 점을 후기를 통해 공유한다.
이번 INFORMS International의 프로그램북을 살펴보면서 처음 느꼈던 점은 생각보다 기계학습과 데이터분석에 관련된 세션이 적었다는 것이었다. 물론 공급망관리, 최적화, 통계 등 산업공학에서 연구되고 있는 다양한 분야에 기계학습 모델을 적용하는 연구는 많이 볼 수 있었으나 알고리즘 자체에 대한 연구는 상당히 적었다. Regression, Decision Tree와 같은 기본적인 기계학습 알고리즘부터 시작하여 딥러닝, 강화학습을 생산, 물류, 공급망관리 등 다양한 산업분야의 문제를 해결하기 위해 적용한 연구들을 볼 수 있었다. 기계학습 방법론을 활용한 연구들은 대부분 단순히 방법론을 적용하고 결과를 얻어보는 것에 대한 것들이 많았으며, 최적화 및 통계 분석에 초점이 맞춰진 연구들이 더욱 많았다는 것을 느꼈다. 하지만, 많은 연구자들이 기계학습을 활용하여 현실 문제를 해결하고자 하는 연구에 대해 많은 관심을 갖고 있다는 것을 느낄 수 있었다. 대한산업공학회보다 많은 세션장에서 다양한 발표가 동시간대에 열리기 때문에 자신이 듣고 싶은 발표의 시간, 장소, 내용을 보다 꼼꼼히 확인하는 것이 필요하다. 학회에서 아쉬웠던 점이 한가지 있었는데, 중국과 대만의 산업에 대한 발표가 너무 많았다는 것이었다. 대만에서 열린 학회이기 때문에 관련 산업에 대한 문제를 해결하기 위한 연구와 발표가 주를 이루었다고는 하지만, 테크니컬 세션 중 어플리케이션 연구는 대부분 중국, 대만, 홍콩 등에 관련된 발표였다. 몇몇 발표는 해당 국가가 가지고 있는 특수한 상황에 대하여 알 수 있는 기회였기 때문에 흥미로웠지만, 어플리케이션 연구였던 만큼 그 이상의 것을 얻기에는 힘들었던 것 같았다.
[발표후기]
Convolutional Autoencoder-Based Multichannel Signal Monitoring Method
센서의 발달로 차량에 다양한 종류의 센서가 부착되고, 센서로부터 수집한 시그널 데이터를 기반으로 차량 및 장비에 대한 상태를 모니터링하고자 하는 시도가 이루어지고 있다. 이번에 학회에서 발표한 연구의 전체적인 프레임워크는 다음과 같이 총 3가지 모듈로 구분할 수 있다.
1) 시그널 데이터 재구축 모델
2) 채널별 재구축 오류를 기반으로하는 이상치 탐지 모델
3) 랜덤포레스트와 샘플링을 활용한 이상치 탐지 변수 선택 모델
1번과 2번을 결합하여 건설 장비의 주행상태별 이상 주행을 탐지하는 이상치 탐지 모델을 구축하고, 정상과 이상을 효과적으로 구분할 수 있는 센서를 찾기 위해 랜덤포레스트의 변수중요도 산출기법을 사용하였다. 첫 번째 모듈인 시그널 데이터 재구축 모델은 Convolutional Autoencoder (CAE)를 기본적인 아키텍쳐로 사용하여 구성하였다. 또한, 이미지 복원 연구에서 뛰어난 성능을 입증한 Skip Connections를 사용한 CAE 모델을 사용하여 복잡한 패턴을 보이는 시그널 데이터를 효과적으로 재구축 할 수 있는 모델을 구성하였다. 두 번째 모듈인 이상치 탐지 모델은 Isolation Forest를 활용하여 구축하였다. Input 시그널을 첫 번째 모듈을 사용해 재구축하면 정상 상태에 대해서는 재구축 오류값이 작고, 이상 상태에 대해서는 재구축 오류값이 크게 나온다. 일반적인 이상치 탐지 기법은 이러한 재구축 오류값의 평균을 이용하여 cutoff를 정하는데 이때 정보의 손실이 발생하게 된다. 이러한 한계점을 극복하기 위해서 분포에 대한 가정이 없고, 파라미터 튜닝이 간편한 Isolation Forest 모델을 채널별 재구축 오류값을 input으로 하여 구성하였다. 모델의 성능은 Type I 및 II 오류를 이용해 단순 평균을 사용하는 방법보다 뛰어남을 보였다. 마지막 모듈인 변수선택 알고리즘은 이상치 탐지 모델을 상용화하는 단계에 있어서 비용적인 측면을 극복하기 위해 진행된 연구이다. 실험에 사용한 센서는 총 18개이지만 실질적으로 모든 건설 장비에 부착하여 장비의 상태를 모니터링 하기에는 비용적인 측면에서 현실적으로 힘들다고 한다. 이를 해결하기 위해 정상과 이상을 구분할 수 있는 센서를 선택해야 하지만, Isolation Forest 자체만으로는 변수의 중요도를 산출하기 힘들다. 따라서, Isolation Forest를 통해 얻은 정상, 이상 레이블을 할당하여 이를 기반으로 Random Forest 이진분류 모델을 구축한다. 단, 정상과 이상의 클래스 불균형 문제를 해결하기 위해 정상 데이터를 undersampling하고, 여러 개의 Random Forest를 앙상블하여 최종 변수 중요도를 산출할 수 있다.
이번 발표를 하면서 가장 크게 느꼈던 점은 ‘너무 많은 내용을 담으려고 하면 안 된다’이다. 시그널 데이터에 대한 이상치 탐지 모델에 대한 발표를 여러 번 했었는데, 이번 발표에 가장 많은 내용을 넣었던 것 같다. 앞부분에서 관련 내용을 몇가지 하지 않고 넘어갔음에도 불구하고 3번째 모듈인 변수 선택에 관련한 내용이 추가됨으로써 정해진 시간 내에 전달해야 하는 내용이 너무 많았다고 느껴졌다. 발표자 입장에서는 많은 것을 전달하고 최대한 자세하게 전달하고 싶은 마음이 있을 수 밖에 없지만, 정해진 시간 내에 연구의 핵심을 청중들에게 전달해야한다는 관점에서 ‘가장 핵심적인 것’만 최대 2개 정도 전달하는 것이 가장 이상적인 것 같다.
[청취후기]
Machine Learning, Artificial Intelligence and Optimization: Opportunities for Inter-Disciplinary Innovation
산업공학의 기반을 이루고 있는 최적화가 기계학습과 인공지능 분야에 인용될 수 있는 방안과 가능성에 대해 진행된 기조연설이었다. 기조연설을 해주신 Radhika Kulkarni 박사는 Operation Research를 전공으로 하신 분이시며 최적화를 기반으로 한 인공지능을 현재 연구하고 있다고 한다. 현재 다양한 분야에서 인공지능 및 기계학습은 적용되고 있고 많은 관심을 받고 있으며, 현실 문제를 해결하는데 있어서 실제로 많은 도움을 주고 있다. 의료분야부터 시작해서 금융, 제조 등 다양한 산업분야에 인공지능이 사용되고 있다. 최적화 기술이 인공지능 기술에 기여할 수 있는 기회는 무궁무진하며 이는 기계학습이 가지고 있는 특성 때문이라고 한다. 기계학습 알고리즘을 현실 세계에 적용하기 위해서는 large scale implementation이 필수적이고 이를 위해서는 몇 단계의 자동화를 거쳐야 한다. 전체적인 분석을 진행하는데 있어서 생산성을 향상시켜야 하며 모델의 성능 개선을 위해 자동적으로 모델을 선택할 수 있는 능력 또한 필요하다. 이러한 문제를 해결하는데 있어서 최적화 기법은 해를 찾고 성능을 향상시키는데 중요한 역할을 할 수 있다고 한다. 실제로 우리가 배우는 기계학습 알고리즘의 많은 부분은 최적화와 통계를 기반으로 하고 있다. 문제 상황을 최적화 문제로 Formulation하여 이를 해결하기 위한 기법들을 적용하는 경우도 많으며, 해를 효과적으로 찾기 위해 최적화를 사용하는 경우도 있다. 가장 많은 관심을 받고 있는 딥러닝도 결국 최적화 문제를 효과적으로 해결하는 것이 중요하다. 최적화를 전공한 사람으로서 이야기했기 때문에 100% 공감을 하지는 못했지만, 최적화라는 분야가 인공지능 발전에 있어서 중요한 키임에는 틀림없는 사실이고, 산업공학의 장점을 살리기 위해서는 최적화에 대한 이해가 더욱 필요하다고 느꼈다.
Assessing Railway Track Health via Image Data Analytics
철도의 균열을 탐지하기 위해 2단계로 구성되어 있는 데이터기반 분석 프레임워크를 제안한 연구였다. 첫 번째로 철도에서 균열이 난 위치를 탐지하고, 두 번째 단계에서는 이를 기반으로 균열의 boundary를 탐지하는 모델을 제안하였다. 최근 도로의 균열을 탐지하기 위해 나온 딥러닝 기반 모델과 관련된 연구였기 때문에 관심이 생겨 청취를 하게 되었다. R-CNN과 같이 object detection에 사용되는 딥러닝 모델에 관한 연구일 것이라는 예상과는 달리, 오히려 computer vision 분야에서 연구되었던 object recognition에 관련된 내용이 주를 이루는 연구였다. Computer vision에서 사용되는 이미지 프로세싱, 변수추출 기법들을 기반으로 하여 데이터를 얻어내어 기계학습 알고리즘을 사용하는 프레임워크를 따르고 있었다. Extended Haar-like feature를 기반으로 하여 철도의 균열을 찾기 위해 유의미한 변수를 추출하고 Boosting 기반 분류기를 학습한다. 균열을 찾은 이후 반복적인 aggregation method를 통해 균열의 boundary를 찾아가는 과정을 진행한다. 연구의 전체적인 프레임워크를 보았을 때, R-CNN과 유사한 아이디어를 공유하고 있다는 생각이 들었으며, 아이디어를 풀어내는데 있어서 어떤 기법을 사용했는가에서 차이가 생겼다고 생각한다. 딥러닝 기반 방법론들의 강력한 성능에 대해 다시 한번 생각하는 기회가 되었으며, 반대로 현실 문제를 해결하는데 있어서 feature engineering의 중요성을 확실하게 느꼈다. 강력한 방법론을 가지고 있다고 하더라도 데이터와 문제상황에 대해서 유의미한 feature를 추출해내는 것은 매우 중요하다.
Discovering the Factors Influencing Professional Baseball Box Office using Machine Learning
야구, 축구 등 스포츠의 경기 흥행을 예측하고자하는 문제는 예전부터 많이 연구되어 온 주제 중 하나이다. 전통적으로 컴퓨터를 이용한 야구 데이터 분석기법은 선수와 팀이 많은 수의 경기를 이기는데 초점이 맞추어져 있지만, 이는 스포츠 경기 흥행을 예측하는데 충분하지 못하다고 한다. 중국 프로야구 리그의 연간 박스오피스 연구를 봤을 때, 구단의 명성과 게임하는 스타일 등이 영향을 많이 미친다는 결과가 있다. 발표자는 많은 수의 외부 변수를 수집하여 stepwise linear regression 기법을 적용하여 모델 예측에 있어 통계적으로 유의미한 변수를 추출하였다. 위치, 경기시간, 날씨 등의 변수가 관람객 수에 많은 영향을 미친다는 결과를 얻었다. 예전 프로야구 관람객 수를 예측하는 공모전이 있었는데, 승패와 날씨가 많은 영향을 미쳤다는 결과가 유사하였다. 하지만, 결과적으로 관람객 수를 예측하기 위해서는 time lag를 주거나 날씨 등을 다시 한번 예측해야 하는데, 이러한 부분에 대한 고민은 발표에 드러나지 않아 아쉬운 점이 많았다. 또한 여러 변수를 수집하여 모델을 구축하였지만 stepwise linear regression이라는 기본적인 알고리즘 외에 다른 시도를 하지 않았다는 것도 아쉬웠다.