고려대학교 DMQA 연구실

2016년 대한산업공학회 춘계학술대회 - 강성현

2016년 4월 19일 오후 2:26
조회수: 2219

Reviewed by

강성현

학회명

2016 춘계공동학술대회

(대한산업공학회, 한국경영과학회, 한국산업경영시스템학회, 한국시뮬레이션학회)

기 간

2016. 4. 13(수) ~ 16(토)

장 소

제주 국제컨벤션센터(ICC)

1. 참석 소감

"산업혁신을 선도하는 스마트제조"라는 주제로 열린 이번 학회는 제주 국제컨벤션센터에서 4개의 학회가 공동으로 운영할 만큼 외형적인 면에서 많은 공을 들였음을 느낄 수 있었다. 그러나 정작 "스마트 제조"와 관련된 정보의 질적인 측면에서는 다소 아쉬움이 남는다. LG전자, SK C&C 등 스마트 공장을 운영한다고 자처하는 기업 혹은 스마트 공장 구현을 위한 솔루션 제공 기업들의 발표가 연이어졌으나, 소개된 내용에서는 기존의 공장 자동화 혹은 전산화와 큰 차이점을 느끼기 힘들었다. 물론 누구도 스마트 공장에 대해 명확한 비전과 전략을 제시하기는 어려울 것이다. 구현 과정에서는 기술의 한계, 경제성과 같은 현실적인 어려움도 분명 존재한다. 그러나 이러한 학회를 통해 각 산업분야 혹은 연구소에서 겪고 있는 고민 내용을 공유하다보면 거대한 공감대가 생기고 이러한 고민들이 모여 다양한 미래의 연구 줄기로 발전해 가기를 내심 기대하였는데 이러한 움직임까지는 아직 시간이 더 필요한 듯 보였다. 비전은 독일이나 미국에서 주창하는 스마트공장의 피상적인 개념 소개에서 크게 벗어나지 못하였고, 소개된 사례들은 과거 공장 자동화 혹은 전산화 사례를 마치 스마트 공장 사례로 소개되는 한계가 여전하였다. 다행스러운 점은 연초 연구원들과 함께 고민해온 스마트 공장 관련 제안서의 가치를 확인할 수 있었다는 점이다. 스마트 공장하에서 발생할 수 있는 실 문제들을 정의하고 그것을 해결하기 위한 기술을 연구한다는 점에서 보다 현실적이고 국내에서는 유사 연구를 찾을 수 없었다는 점에서 앞선 연구로써의 가치도 재확인 할 수 있었다. 따라서 제안서의 채택과는 별개로 몇 가지 연구 주제들은 개인 연구로도 활용해야겠다는 생각이 들었다.

2. 개인 발표 : "제조 공정의 고차원 데이터 분석을 위한 앙상블 기법"

제조 공정의 데이터는 일반적으로 이산형 및 연속형 변수가 혼합된 형태로 이루어져있다. 이산형 변수에는 모델명, 담당 엔지니어, 작업자, 설비번호 등이 저장되며 품질이나 생산성에 영향을 끼지는 중요한 요인인 경우가 많다. 때문에 이산형 변수를 모델링에 반영하는 과정이 요구된다. 이산형 모델을 추가하는 방법으로는 dummy variable 생성, similarity 측정 등의 방법이 있으나 dummy variable을 생성하는 경우 다범주 분류 문제에서 데이터 차원이 급증하는 문제가 있으며, similarity 측정 방법은 연속형 데이터와 이산형 데이터의 적절한 스케일을 설정하기 힘든 단점이 있다. 따라서 이와 같은 문제를 해결하기 위해 데이터의 전처리 없이 혼합된 데이터 수용이 가능한 트리 기반의 앙상블 기법에 대해 소개하였으며 이중 특히 대규모 용량의 데이터 처리를 위해 적은 메모리 소비로도 많은 트리모델을 생성할 수 있는 Decision Jungle에 대한 동작원리, 특징, 적용 결과들을 설명하였다.

주어진 발표시간은 25분이었으며, 22분을 사용하고 나머지는 질의응답 시간으로 활용하였다. 질문 내용은 하나였으며 아래와 같다.

Q. 다범주 분류문제에서 deep learning 만큼 주목받는 방법도 없으리라고 생각한다. 오늘 소개한 방법은 deep learning과 비교시 어떠한 장점을 갖는다고 생각하는가?

A. 모델링 시간이 deep learning에 비해 매우 짧을 것이다. 물론 random forest나 rotation forest 보다는 연산이 추가되지만 deep learning보다 지연될 수준은 아니다. 또한 앞서 말씀드린 내용과 같이 혼합형 데이터를 전처리 없이 수용할 수 있는 용이함도 있다. deep learning의 경우 이산형 변수에 대한 별도의 전처리가 필요하다. 지금 설명드린 내용은 추후 실험을 추가하여 실증하도록 하겠다.

3. 청취 내용

스마트 제조 특별 세션 외의 세션에서는 다양한 주제들이 다루어졌다. 개인적으로 도움이된 내용을 소개하고자 한다.

1) Local outlier detection in datasets with mixed attributes(한밭대학교 산업경영공학과 김태구 교수)

Local outlier detection(LOF)는 밀도를 기반으로 이상치를 판별하는데 효과적인 방법이다. 그러나 이산형 변수의 데이터를 사용할 수 없는 단점이 있는데 본 연구에서는 이산형과 연속형 변수의 다양한 결합 방법을 적용하여 LOF의 성능을 향상하는 방법론을 소개하였다. 이는 혼합형 변수를 다룬다는 점에서 개인 연구와도 관련이 깊다. 이산형 변수를 연속형 변수로 변환하기 위해 다양한 similarity measure를 사용하였으며 결과적으로 성능이 향상된 것을 확인할 수 있었는데 개인 연구에 사용한 데이터에도 이 방법을 사용후 비교하면 좋으리라 생각된다.

2) Network mirroring for drug positioning(아주대학교 산업공학과 박성홍 연구원)

신약 개발은 매우 더디고 비용이 소요되기 때문에 이미 승인된 약물을 다른 질병에 적용될 수 있는 가능성을 찾는 방법인 신약 재창출 방법에 대한 논문이다. 신약 재창출을 위해서는 같은 약물을 사용할 가능성이 높은 질병에 대해 실제 사용 여부를 확인할 필요가 있다. 이미 사용하고 있다면 신약으로써 의미가 퇴색되기 때문이다. 따라서 본 연구에서는 단백질 정보로 구성된 질병 네트워크와 약물 정보로 구성된 질병 네트워크를 구성 후 두 네트워크의 유사성을 평가하여 신약 재창출의 기회가 큰 후보질병을 선정하였다. 이러한 방법을 network mirroring이라고 본 연구에서 칭하였다. 또한 네트워크 연결 상태의 차이를 계산하기 위해 Kullback-Leaibler Divergence 방법을 사용하였는데 이를 통해 우선 고려되어야 할 질병 및 해당 질병에 효과가 높은 약물까지 파악할 수 있다는 점에서 실용적인 학문으로써 인상 깊게 느껴졌다.

3) Evaluating variable selection techniques for linear regression(고려대학교 산업경영공학과 류나현 연구원)

변수 선택방법에 대한 연구 중 shrinkage 모델은 penalty term의 변화를 통해 가장 다양한 연구가 진행되어온 분야가 아닐까 생각된다. 이는 shrinkage 모델의 우수성에 대한 공감대에서 기인할 것이다. 그러나 오늘 소개된 연구의 결과는 이와는 반대로 개인적으로 등한시 했었던 변수 방법을 재조명하는 계기가 되었다. 본 연구에서는 ridge, lasso, elastic net, forward, backward, stepwise 방법을 15가지 UCI 데이터에 적용하여 예측 정확도, 변수감소 비율 측면에서 평가하였다. 그 결과에서 예측 정확도와 변수 감소율을 함께 고려할 경우 stepwise 방식과 backward 방식이 우수하다는 다소 의외의 결론을 소개하였다. 결과 발표 이후 실험결과가 이상하다고 느낀 많은 청충이 발표자에게 실험 과정에 대한 많은 질의가 있었는데 penalty term의 가중치를 1만개 구간으로 나누어 모델링하였다는 발표자의 답변으로 봤을 때 실험이 잘못되지 않았다면 수용할 수 밖에 없는 결과로 보여진다. 우리 연구실의 유화윤 연구원의 실험에서도 비슷한 결과를 봤었던 기억이 있는데 결국 복잡한 것이 늘 최선의 방법이 아님을 일깨워 준 연구가 아닐까 생각된다.

※ 본 학회의 모든 발표자료는 http://kiie.org/conference 에 등록되어 있으므로 관심 있는 연구원은 링크를 참조하시기 바랍니다.

Conference