[청취자 후기]


D6.1 다중 센서 시그널의 상호전개관계를 고려한 주성분분석과 반도체공정 온라인 모니터링으로의 응용


다중 센서 시그널은 웨이퍼가 공정설비를 지나면서 공정상황을 반영하는 복수의 센서 시그널이 시계열 형태로 수집되는 데이터이다. , 다변량 데이터가 매 시점마다 수집되는 패널 형태의 데이터인 것이다. 발표에서는 이런 형태의 데이터를 처리하기 위해 PCA를 이용하였다. PCA를 이용하여 시간축을 포함한 다차원 변수공간에서 센서 시그널의 전개 양상을 eigenvectoreigenvalue로 나타내었고, T2 SPE 관리도를 이용하여 이상 정상을 판별하였다.


얼마 전 연구실 내부 세미나에서 functional data analysis에 대해 간단한 설명을 들은 기억이 났다. 발표에서 제시한 공정 데이터 역시 functional data analysis가 적용될 수 있는 분야라고 생각한다. 제안된 방법론이 functional data analysis에 포함되는지는 정확하게 알지 못했지만, 간단한 functional data analysis 분석 알고리즘들과 비교하며 자세히 공부해 봐야겠다.


 


D6.4 고속 문서 군집화를 위한 의사 단어 벡터 표현


한글로 작성된 문서를 유사한 문서끼리 군집화하는 작업은 상당히 많은 시간을 요구한다. 발표에서는 기존 stemming/POS tagging을 이용한 방법론보다 빠르고 비교적 정확한 한글 문서 전처리 기법을 제안하였다. 아이디어는 한글의 경우 명사, 동사, 형용사는 어절의 왼쪽에 등장한다는 것이다. , 핵심적인 부분은 어절의 왼쪽에 등장하기 때문에, 어절 왼쪽에서 특정 몇 글자만을 추출하는 것으로도 충분히 의미 있는 단어들을 빠르게 찾아낼 수 있다는 것이다.


발표에서는 제안 방법을 꼬꼬마 형태소분석기와 비교하였다. 네이버 뉴스를 군집화한 결과를 비교하였는데, 제안 방법은 유사 문서를 군집화하기 위한 단어들을 잘 찾아냈으며, 특히 꼬꼬마 형태소분석기에 비해 약 270배 빠르게 전처리를 수행했다고 한다. 한글의 특성을 잘 반영한 접근 방식이 흥미로웠으며, 기존 방법에 비해 효율적으로 한글 문서를 분류할 수 있을 것으로 기대된다.


 


H4.3 적층 공정의 가압 시점 모니터링 알고리즘


Multi-layer ceramic capacitor 적층 설비의 상태를 모니터링하기 위하여 공정과정에서 나오는 신호들 중 특성 신호를 결정하고 이에 기반하여 기계의 결함을 수치화할 수 있는 방법에 대해 제안하였다. MLCC 적층기는 초박막 시트를 적층하는 설비로, 적층기의 구성 요소 중 4개의 채널로 이루어진 스트레인 게이지의 평형을 맞추는 것이 MLCC의 품질에 있어 가장 중요하다고 한다. 적층기에서는 스트레인 게이지의 4개의 채널로부터 각각 압력이 측정되어 기록되며, 이를 통해 적층이 제대로 이루어지는지를 모니터링하는 문제이다. 단순하게는 변수의 수가 두 개 이상이므로 다변량 관리도를 구축하여 설비의 상태를 모니터링 하는 방법을 생각할 수 있다. 하지만 이 연구에서는 다변량 관리도를 구축하는 대신, 4개의 압력 변수로부터 적층기의 기울기를 반영할 수 있는 변수를 계산하여 단변량 관리도를 구축하였다.


이 발표에서는 문제를 해결하기 위해 복잡한 알고리즘이나 방법론을 도입하는 대신, 간단한 방법론을 적용하여 풀 수 있을 만큼 문제를 간단하게 바꾸어 놓은 점이 흥미로웠다. 많은 연구들이 복잡한 상황을 가정하고 이를 해결하기 위해 복잡한 알고리즘들을 제안하는데, 기존 알고리즘으로 문제를 해결할 수 있게 문제를 변환하려는 시도도 중요하다고 생각한다.


 


이외에도 linear regression에서 autocorrelationmulticollinearity 문제를 해결하기 위해 Prais-Winsten 변환과 PCA를 이용한 연구, class-imbalance 문제를 해결하기 위해 SVMboosting한 연구, hyper-sphere 대신 hyper-rectangle을 이용한 OCC 알고리즘을 제안한 연구들이 기억에 남는다. 많은 세션들을 통해 해결하고자 하는 현실 문제에는 어떤 종류가 있는지, 또 보완하고자 하는 알고리즘의 단점들이 무엇인지 파악할 수 있었으며, 이를 해결하기 위해 연구자들이 어떤 노력을 기울이고 있는지를 알 수 있었다.


 



[발표자 후기]


발표 주제: Lasso를 이용한 건설장비 수요예측


1. 발표준비과정


수요예측은 수많은 분야에서 핵심적인 역할을 하여 산업 및 학계에서 항상 많은 관심을 기울이는 주제이다. 그럼에도 불구하고 건설장비 시장에서의 수요예측은 상대적으로 많은 관심을 받지 못하고 있다. 본 연구에서는 건설장비의 가동정보를 이용하여 건설장비의 수요예측을 시도함으로써 기존 단순 시계열 예측이나 경제통계량을 이용한 인과모형 등에 비하여 보다 실용적인 수요예측 모델을 구축하였다.


건설장비 시장에서의 수요예측의 중요성과 기존 연구가 미비함을 제시하고, 가동정보를 이용하여 판매량을 예측하고 중요 변수를 선택하기 위한 예측 프로세스 및 예측 모델을 설명하였다. 또한 예측 결과와 중요 변수를 시각적, 정량적으로 나타내어 청취자들의 이해를 돕기 위해 노력하였다.


 


2. 질문 및 대답


Q1. 첫 번째 예측 결과에서 2014 12월의 실제값은 낮은데 비해 예측값이 상당히 크게 나타났는데 그 이유가 무엇인가?


A1. 예측 모델을 통해 나온 결과이기 때문에 정확하게는 알 수 없다. 하지만 연말(12)의 경우에는 실제값이 대체로 낮게 나타나는 경향이 있었기 때문에 위와 같은 결과가 나왔을 수 있다.


예측 모델을 통해 나온 결과는 전적으로 학습데이터를 따르게 된다. 그 점을 자세하게 설명할 필요가 있었다. , 학습데이터 상에서의 설명변수와 판매량 간 관계와 201412월에서의 설명변수와 판매량 간 관계에 차이가 있었기 때문에 정확한 예측을 하지 못한 것이라고 설명했어야 했다. 추가로, 12월의 경우 판매량이 급감하는 패턴을 보이는 경우가 많은데, 이를 반영할 수 있는 설명변수를 모델에 추가하거나 case-based reasoning 등을 통하여 예측을 정교화 할 필요가 있다.


 


Q2. 평균판매량 대비 MAE, MAE를 평균판매량으로 나눈 값이 어떤 의미를 가지는 measure 인가?.


A2. 평균판매량을 MAE로 나눈 값 자체가 의미 있는 measure는 아니다. 평균판매량이 다를 경우 MAE만을 이용하여 예측 결과를 비교하기 어렵기 때문에, 서로 다른 지역 및 모델들에 대한 예측 결과를 비교해 보기 위하여 계산한 값이다.


평균판매량 대비 MAE 보다는 MAPE를 사용하여 결과를 정리했어야 했다. MAPE는 예측오차를 실제값으로 나누어 주기 때문에 서로 다른 지역 및 모델들의 예측 결과를 상대적으로 비교하는데 이용될 수 있다. 질문자 역시 MAPE와 같이 일반적으로 사용되는 measure가 있는데 다른 measure를 사용하여 비교한 이유가 무엇인지 질문한 것이라고 생각한다. 결과 제시를 하는 데 있어 충분한 생각을 하지 않은 것 같다,


 


추가 코멘트로는, 예측 결과를 제시할 때, 레퍼런스로 삼을만한 결과 역시 같이 제시하여 청취자들의 이해를 도울 필요가 있다는 의견이 있었다. 간단한 시계열 예측 방법(moving average )을 이용한 예측 결과를 함께 제시하고 비교하였다면 다변량 예측 모델을 적용한 연구의 contribution을 더 강조할 수 있다는 것이다. 이에 대해 생각을 해봤는데, 단순히 예측 결과를 제시하고 MAE, MAPE등의 measure를 제시한다고 해서 예측 결과가 의미있다는 주장을 하는 것은 쉽지 않은 것 같다. 다음 발표에서 결과를 제시할 때는 비교 대상으로 사용할 만한 적당한 예측 결과를 함께 제시하는 것 역시 검토해봐야겠다는 생각이 들었다.


 


3. 개선방향


발표 내용 이전에 발표 자체가 매끄럽지 못했다. 첫 발표인 만큼 발표 연습에 더 많은 노력을 기울였어야 했는데 그러지 못했다. 내용면에서는, 전반적인 배경 설명이 모자랐던 것 같다. 이미 있는 방법론을 이용하여 현실 문제를 해결하는 연구인 만큼 연구의 배경 및 필요성에 대해 더 구체적으로 설명했어야 했다. 특히 기존 연구에 대한 내용이 미흡했다. 단순히 관련 연구가 적다고만 이야기 하고 넘어가는 것이 아니라, 논문이 아닌 다른 곳에서 발표된 방법론이라도 소개하는 것이 좋았을 것이라는 생각이 들었다.


다음 발표는 싱가폴에서 개최되는 국제학술대회에서 진행되는데, 이번 발표에서 부족했던 많은 부분들을 보완하고 연습하여 좋은 발표를 할 수 있게 노력하겠다.