<발표
후기>




Summary



제목: 디스플레이 LCD산업에서 데이터마이닝 알고리즘을 이용한 고객불량률 예측



고객불량률은 디스플레이 기업의 고객으로부터 제품을 판매한 이후 판매수에 대하여 보증기간 동안 불량으로 반입한 총 불량수의
비율을 의미한다. 고개불량률을 예측하는 방법에는 두가지가 있는데
Weibull
분포를 추정하여 예측하는 방법과 제품 크기 별 평균 불량 비율을 활용하는 방법이다.
방법의 예측정확도가 낮은 이유는 제품 속성을 고려하지 않고, 분포를 가정하거나 불량률의 평균적인 비율만
이용하는 간단한 방법으로 예측을 하기 때문이다. 따라서 본 연구에서는 제품 속성 정보를 이용하고 다양한
데이터마이닝 알고리즘을 적용하여 예측 성능을 높였다. 연구의 의의는 유사한 특징을 갖는 제품끼리 군집을
나누고 군집 마다 최적의 알고리즘으로 예측함으로써 군집 별 특성에 맞는 예측한 점이다. 품질 실패비용
측면에서 살펴볼 때 예측 정확도 향상으로 평균불량비율을 활용한 경우보다 제안 방법의 경우에 33%
비용 절감효과를 보였다. 현업에서는 추가적으로 제품 별 공정 지표 및 신뢰성 평가 지수를 변수로 활용하고, 누적된 많은 데이터를 관측치로 활용한다면 더 Robust 모델을
만들 수 있을 것이라 생각한다.
 

 



질의응답



Q1. 예측 시기가 판매 이후 6개월 경과시점인데 시점을 고정한 이유가 무엇인가? 그 이후로도 지속적으로
예측한다면 더 나을 것으로 생각되는데 방법은 동일한가 다른 방법이 있는가?



답변 : 판매 이후 6개월 경과시점은 기존방법으로 예측할 때 가장 빠른 시점으로서 기존방법과 비교를 위해 가장 앞선 시점으로 기준시점을
정하였다. 경과기간 마다 예측을 하면 더 좋을 것이라고 생각되는데 예측하는 방법은 6개월 때 예측하는 경우와 동일 할 수도 있고, 아니면 기간이 많이
경과된 경우에는 여러 불량률 변수들 중에서 가장 최근의(늦게 입수된)
불량률에 좀 더 가중치를 두어 예측 모델을 만들 수 도 있을 것이다. 방법론은 좀더 생각해봐야
할 것 같다.




Q2. 예측값을 보정하는 경우, MSE가 아니라 MAE를 사용한 특별한 이유가 있는가?



답변 : 특별한 이유가 있는 것은 아니므로 MSE로 보정하는 것도 생각해 볼 수 있겠다.




Q3. 잔차가 등분산성에 위배된다고
했는데, 잔차에 대하여 의사결정 나무 후 나타낸 box plot에서
노드가 증가할수록 잔차의 크기가 커진 것을 의미하는 것인가?



답변 : 아니다.
등분산성 여부는 선형회귀분석이 최적모델링방법으로 선택된 군집에 대해서만 군집 마다 분석한 것이고, 잔차분석에서
나타낸 box plot은 전체 잔차에 대해서 그린것이므로 box
plot
의 노드별 잔차 상승과는 다르다. 군집 별 잔차 분석 결과, 평균은 0에 가까우나 분포의 모양이 좌우 비대칭으로 등분산성에 맞지
않는 것을 확인 할 수 있었다.




Q4.  제안한
방법을 현업에서도 적용할 수 있다고 생각 하는가?



답변 : 본 연구에서 만든 모델에는 overfitting 문제가 있을 수 있다. 그러나 현업에는 훨씬
많은 데이터가 있으므로 많은 데이터를 사용하여 제안 방법의 절차를 따라 한다면 Robust한 모델을
만들 수 있을 것이므로 적용가능 한 방법이라고 생각한다.



 



<청취
후기>




추계 산업공학회는 크게 A,B,C 3
세션으로 진행되었는데, 매 세션에 데이터마이닝 프로그램이 있었다. 데이터마이닝
제목의 프로그램 뿐 만 아니라 산업공학의 응용 등의 기타 프로그램에서도 데이터 마이닝을 활용한 연구가 발표되는 것을 보고 산업공학 계에 데이터마이닝이
지속적으로 많은 비중을 차지 하는 것을 알 수 있었다. 좋은 발표가 많았는데 본인이 인상 깊었던 발표를
중점으로 적고자 한다.



 



1. A
Novel Method to Build Logistic Regression Trees for Categorical-Numeric Mixed
Type Data Classification



연속형 변수와 범주형 변수가 섞여 있는 경우의 예측방법을 제시한 내용으로 본인의 제안방법과 유사하였다. 이것은 의사결정나무와 다른 알고리즘을 결합하여 분석하는 방법인데 의사결정나무가 범주형 데이터를 활용하여 분석하기
쉬운 점을 활용하여 범주형 변수로 트리를 만들고, 터미널 노드 마다
Group lasso
와 같은 정규화 방법론을 사용하여 예측 모델링을 하였다. 정규화 방법론을
사용한 이유가 흥미로웠는데 관측치 수가 적은 경우에 효과적으로 적용할 수 있는 방법이기 때문이라고 한다. 내가
제안한 방법이 overfitting문제가 있을 수 있으므로 이렇게 과적합을 방지 할 수 있는 방법을
고민해 보는 것도 좋을 것 같다.




2.  Particle Map을 활용한 반도체 설비 불량 관리



고려대학교 생산시스템 경영 연구실에서 학술연수를
하고 있는 김세훈 연구원의 발표였다
. Particle은 제조업에서 불량의 주된 원인이자 가장 해결하기
힘든 고질 문제 중 하나이다
. 특히 계속해서 패턴 폭이 줄어들고 있는 반도체나 더더욱 개선해야 하는
부분임에 틀림 없다
. 따라서 Particle의 위치를 Mapping하여  분포를 추정하여 밀도가
높은 곳은 더욱 면밀히 관리 할 수 있도록 관리도를 만드는 것이 이 연구의 목적이다
. 디스플레이도 반도체와
마찬가지로 해상도가 점점 증가하여 패턴의 두께가 얇아지고 있으므로 해당 연구내용을 디스플레이 생산 관리에 적용하기에 유용한 방법이라고 생각된다.