고려대학교 DMQA 연구실

2015 ISMI 학회 - 이상민

2015년 10월 19일 오후 9:21
조회수: 1735

Reviewed by

이상민

2015년 10월 16일부터 17일까지 2일간 대전 카이스트 캠퍼스 KI건물에서 3th International Symposium on Semiconductor Manufaturing Intelligence 학회에 참가하였다.

Conference Summary

1. ISMI 학회는 반도체 생산 효율 및 데이터 분석과 관련된 연구분야를 공유하는 학회로 2012년 대만에서 시작된 학회이다. 금년에는 대전 카이스트 KI 건물에서 진행되었다. scheduling&dispatching 관련 application 연구 외 evolutionary algorithm, mining, SQC, OR 등 산업공학의 다양한 연구분야와 관련된 연구 케이스를 폭넓게 접할 수 있었다.

2. 학회 발표진행은 두 개 세션이 동시 진행하며, 각 참가자가 선호하는 세션을 참석할 수 있었다. 발표 중 일부는 학생들의 다소 알고리즘 제안 정도의 연구내용도 있었지만, 대부분은 실제 현장의 데이터로 실험을 진행하여 연구결과에 대한 신빙성을 더해 주었다.

3. 학회 진행 중 Plenary Talk이 총 3회 진행되었으며, GA 기반의 스케쥴링 연구로 저명한 Mitsuo Gen 교수님과 진화알고리즘으로 유명한 칭화대의 Chen Fu Chien 교수님, 그리고 국내에서 Process Mining 연구를 가장 활발히 진행하고 계신 UNIST의 송민석 교수님께서 발표를 진행해주셨다. 각 교수님들께서 소개해주신 내용이 방대하였고 연구소개 정도의 개론 성격에 가까운 발표였지만, 매번 많은 사례연구를 소개해주신 덕분에 큰 노력없이 집중할 수 있어 좋았다.

Session Summary

4. Unified FAB 기반으로 자동화물류의 Layout design 연구소개가 있었다. 일반적인 자동화물류에 Layout design을 위해서는, 전체 반송량에 대한 이력을 추정으로 만든 from-to equipments matrix 기반정보로 대략적인 Layout을 생성할 수 있다. 각 설비(equipment)마다 발생되는 거리(distance) 값의 평균과 변량을 최소화 하는 방식으로 풀 수 있다. 이 때, 해당 반송량 matrix에 각 설비에 대한 size와 maintenance를 위한 span interval까지 추가로 고려하면 보다 현실 제약조건을 잘 부여한 Layout design을 잡을 수 있다. 발표자는 genetic algorithm에 기반하여 설비배치를 고려한 자동화물류 Layout Modeler를 개발하고 있다고 하였는데, 보다 device solution 산업 외 set 산업에도 유용하게 쓰일 수 있을 것 같다.

5. 반도체 산업에 국한된 발표내용은 아니었으나, 탄소배출에 관한 연구 소개도 있었다. 조금은 생소한 분야이긴 한데, 핵심 아이디어는 공장 내 생산활동 및 SCM상 supplier까지의 활동까지를 포함한 보다 정확한 탄소배출량을 계산할 수 있는 Framework을 구축하는 것이다. 기존 LCA(Life Cycle Assessment)방식으로는 각 산업군에서 기 수집한 가동율의 static data를 활용하여 정형화된 계산식에 대입하는 방식에 의존해 있다. 해당 연구에서 제한하는 방법은 dynamic하게 실제 각 step sequence에 따라 동작하는 개별 machine의 process 처리 중 발생하는 energy 소비를 고려하고, 이외 부대적인 공기/물 등의 resource를 위하여 사용하는 energy까지 모두 개별 집계하여, 생산활동이 동적으로 반영된 정확한 결과를 추산하는 아이디어였다. 특별한 메카니즘이 있거나 알고리즘이 쓰여진 문제는 아니었으나, 탄소배출량 추산방식을 처음 소개 받았던지라 새롭게 와닿았다. 하지만, Reentrant process 산업에도 아무런 revising 없이 그대로 적용될 수 있는지는 의문이라고 생각하며, System LSI(반도체 CPU 등의 제품 생산)와 같이 특정 stepseq에 얽매여 있지 않은 공장의 경우는 product를 기준으로 한 산정방식이 정확할 수 있을까 하는 의문이 들었다.

6. 이번 학회에서 가장 의미있게 내용은 송민석 교수님의 Process Mining과 관련된 키노트 스피치였다. Process Mining 분야는 기존 Workflow principle과 BPM 분야에 대한 다양한 연구로 유명한 아인트호벤공대의 Aalst 교수님의 최근 연구 topic으로써, 몇년간 화두가 되었던 것이 사실이다. 특히 Process mining은 타 mining 기법과는 다르게 Ph1, Ph2 단계가 없고, 운영이력(주로 event log)을 기반으로 generalized process를 역구성해가는 representation technique에 더 가깝다고 할 수 있다. 회사에서도 관련논문과 open project를 활용한 연구를 해보고자 몇 차례 시도해보았지만 의미를 부여할만한 결과를 보지는 못했는데, 이번 세미나를 통하여 Process Mining 접목할 수 있는 다양한 application을 드려다 볼 수 있어서 특히 인상 깊었다. 기본적으로 Process Mining은 alpha algorithm에 따라서 process instance의 개별 token의 지나친 pairwise nodes를 기초정보로 하여 process(엄밀히 얘기하면 sequence)를 재구성하게 된다. 통계의 기본개념처럼 sample data를 통해 population에 대한 추정을 하듯이, 개별 process instance를 통해 pairwise nodes의 local structure를 이어붙여 전체 node간의 관계를 재구성하고, 이를 원래 의도했던 표준 process와 비교하는 작업을 거치게 된다. 이 때 기대할 수 있는 output은 bottleneck node(공정, 단계, 시간, 개념 등)를 찾거나, 의도와 다른 예외적인 branch에 대한 identification, 또는 possible casuality에 대한 유추 등 다양하게 도출될 수 있다. 기존 Process Mining의 주요한 application이었던 조선업 등이 주요한 효과를 보았던 것은, 업무나 공법 등에 대한 process 표준화, 최적화 등이 상대적으로 뎌딘 산업군에 대해 효과적으로 쓰일 수 있었다는 점에서 기인한다. 이번 송교수님의 세미나에서는 이와 같은 기존 사례에 덧붙여, Error code를 활용한 Process mining 분석사례, Organizing model mining 사례(조직기준정보 및 transaction logs를 활용한 process modeling), Performance Analysis 등 다양한 분석 기법과 사례들을 소개해주었다.

특히 Process Simulation과 관련된 부분은 무척 흥미로웠는데, 기존 시뮬레이션 모델의 설계 비용(설계가 어렵다는 뜻이다.)이 비싸다는 점에서 착안하여, 실제 공정이 진행되서 싸인 event log를 기반으로, control flow, time, data, resource 등에 대한 정보를 함께 넣어주어 Simulation Model을 자동으로 생성한다는 아이디어였다. 실제 현존하는 시스템의 대안분석에 있어서 무엇보다 널리 사용되고 있는 기법이 시뮬레이션인 점을 감안한다면, AS-IS model 재평가 및 parameter optimization, DOE 등에 대해서 다양한 generic model을 제시해줄 수 있을 것이라 생각한다. (모든 기법이 그러하겠지만, 시뮬레이션 모델은 간단하고 명료한 모델이 가장 효과적이다. 때에 따라서는 복잡하고 자세한 sub-module을 재현해야 하는 어려운 상황도 있지만, 기본적으로 시뮬레이션 모델은 정확성보다는 더 다양한 시나리오를 쉽고 빠르게 처리할 수 있는 업무에 적용할 때 더 효과적이다. 실제 운영이이력인 event log를 기준으로 generic simulation model을 어느 정도 수준 이상으로 만들 수만 있다면 일대 혁신 중에 하나이다. 물론, 현실적인 제약(데이터의 가용성 등)문제로 아주 nice한 연구결과물을 보기 어려워 현장적용이 쉽지만은 않을 것 같다.)

다음과 같이 2가지에 대해서 고민해보았다. 첫째, buisness process가 산재하지만 process stability가 높은 경우, 정기적으로 existed process에 대한 재평가(감사)하는 시스템을 만들 수 있지 않을까. 일종의 business process quality monitoring 과 같은 개념이다. 마이닝에서 일반적인 anomaly detection에서의 이상치는 기존 데이터와 상이하거나 기존 모델(분포 등)에 fitting되지 않는 data point를 가리키는데, process mining에서의 이상치는 process instance가 그 대상이 된다. 이런 프로세스의 이상상태를 구분하는 판별식(determinant)이나 conformance rate 등을 평가할 수 있다면 그 자체만으로 현존 업무 프로세스들에 대한 강력한 모니터링 툴이 될 수 있을 것 같다. 둘째, 공장기획(plant planning) 등과 같은 기획업무에 활용되었을 때 큰 이점이 있을 것 같다. 기획업무의 특징은 현존하지 않은 규모(scale)와 복잡한 공정(stepseq), 새로운 설비,로봇 등이 함께 맞물려 돌아가는(orchestration) 상황에 대한 평가는 단순 공식화 또는 시뮬레이션 외에는 정량화 평가하기 어려운 업무이다. 무엇보다, abstract model로 기획했던 것과 실제 시스템의 performance과 왜 다른지에 대해 평가하는 것 또한 어려운 일이다. 이 때, 기대했던 process에 대한 performance를 실제 event log로 재구성한 process 대비 얼마나 차이가 있는지 잦은 iteration으로 재평가할 수 있다면 향후의 기획업무에 큰 도움이 될 수 있다. 이 외 타 시스템과 연계(transaction)처리가 주요목표인 채널통합시스템의 경우 개별 transaction을 쉽게 가시화해서 원인탐지에 도움을 줄 수도 있지 않을까 싶다.

Presentation

7. 여름방학부터 준비해왔던 내용이라 있는 그대로 발표를 진행하였다. 전체적인 발표 시나리오만 준비해서 발표했는데, 첫 해외학회라 그런지 긴장하여 발표속도 조절, 슬라이드 별 impact를 주어야 하는 부분 등 모든 것을 놓쳐 버렸다. 더 많이 준비하여 체계적으로 준비해야겠다는 생각이 들었다. 발표 후에는 다음과 같은 질문을 받았다.

-> Q1. Experimental Study에 나온 사례는 Outlier가 너무 극적이다. 단변량으로 해도 될 것 같다.

A. 맞는 말씀이다. 하지만 다변량 모니터링의 또다른 장점으로는, 다양한 변수에 대해 쉽게 모니터링 할 수 있다는 점도 있다.

-> Q2. 단변량 모니터링이나 다변량 모니터링이나 control limit을 잡는 것은 똑같이 어려운 부분이다.

A. 적합한 지적이다. 본 연구에서는 다변량 모니터링 시 가정사항에 따른 false alarm을 줄이기 위해 bootstrap method를 적용하였다. 그리고, 100여개가 넘는 KPIs를 모니터링하고자 단변량 control chart 세우며 일일히 control limit을 잡는 것 보다는, 아무래도 다변량의 control limit 하나를 잡는게 상대적으로 수월하지 않나 싶다.

질문한 내용은 실험대상 데이터가 다변량 모니터링의 장점을 설명하기에 적합성 여부에 대한 것이었으며, 당연한 질문이라고 생각한다. 다음에 기회가 된다면 다변량 모니터링 시 활용할 데이터를 small shift도 잘 잡는 것을 보여줄 수 있는 데이터를 가져올 수 있기를 바란다. 하지만, 본 연구의 contribution은 detection performance를 올리기 위한 것이 아니라, detection 이후 사건에 대해 얼마나 잘 분석하고 설명할 수 있는지에 부분이다. 향후 유사연구를 진행할 경우 이러한 부분을 충분히 감안하여 보완하겠다.

8. 영어는 지속적으로 노력하고 공부해야 겠다고 다시 한번 다짐하게 됐다. writing, speaking을 잘하는 것도 중요하지만 영어의 기본은 listening이다. 아무리 유창하게 말하더라도 오고가는 상대방의 contents를 잡아내지 못한다면 의사소통 할 수 없다.