고려대학교 DMQA 연구실

2014 대한산업공학회 한국경영과학회 춘계 학술대회 - 박찬희

2014년 5월 19일 오전 8:50
조회수: 1404

Reviewed by

박찬희

청취후기

5월 16, 17일 양일간 부산 벡스코에서 " 창조 경제 실현을 위한 제품, 서비스, 시스템 혁신"이라는 주제로 2014년 대한산업공학회/한국경영과학회 춘계공동학술대회가 개최되었다. 특히 비스분석 세션에서는 다양한 데이터분석 사례들이 발표되었다. 특히 비즈분석(3) 세션에서는 반도체 제조공정에서의 다양한 데이터 분석 기법이 소개되었다. 그중에서도 유영지 박사과정 학생의 반도체 공정 데이터에서의 특질 추출에 대한 연구가 매우 흥미로웠다. Wafer Bin Map은 wafer 상의 각 chip에서의 probe test결과를 pass와 fail로 표시하게 되는데 이때 이미지 데이터 형태로 나타나는 fail bit 패턴 분석하여 최종제품의 pass/fail을 예측하였다. Chip 이미지데이터 분석을 위해, 칩을 64개의 sub region으로 분류하여 각 sub region에서의 밀도, 칩내에서의 밀도차이, sub region을 지나는 contour level의 moments, 그리고 각 칩의 위치를 특질로 추출하였다. 박승환 박사과정 학생이 발표 또한 반도체 제조공정에서 나오는 이미지데이터 분석에 관한 내용이었다. 웨이퍼 이미지 데이터에서 density based hierarchical clustering을 통해 군집의 수와 군집들이 흩어진 정도를 특질로 추출하여 최종 제품의 pass/fail을 예측하였다. 나 역시 산학 프로젝트를 수행하면서 이미지데이터에서 특질을 추출하기위해 많은 시도를 하였고 실제로 다른 연구실에서 어떻게 이미지데이터를 다루고 있는지에 대해 알 수 있는 좋은 기회였다.

발표후기

이번 학술대회에서 fused lasso를 활용한 가상계측모델을 주제로 발표하였다. 학회 둘쨋날 아침 세션이였는데 생각보다 많은 분들이 관심을 가지고 참석해주셨다. 발표에 대한 질문 및 코멘트는 다음과 같았다.

질문: 예측결과 비교에서 PLS의 성능이 PCA regression보다 떨어지는데 PLS는 PCA와 다르게 Y의 분포를 반영하기 때문에 더 예측성능이 좋아야 하는 것 아닌가?

대답: 물론 PLS가 Y분포를 반영하지만 시뮬레이션데이터가 아닌 실제데이터에서도 항상 PCA regression보다 좋은 성능을 보여준다고 하기는 힘들다.

개선된 대답: PCA와 PLS 모두 5개의 주성분을 이용하여 모델을 구축하였고 실제 반도체 공정 데이터의 Y값의 분포가 특정한 값에 치우쳐져 있는 경우가 있기때문에 PLS가 관측수가 적은 y값들에 대해서는 왜곡된 예측결과를 보여주는 것으로 보임.

코멘트: Fused lasso 모델이 가장 좋은 성능을 보여주고 있는데 어떻게 이러한 결과가 나올 수 있는지에 대한 더 자세한 분석을 추가하면 좋은 연구가 될 것.

코멘트에 대한 차후 연구: 대부분 변수선택 모델이 training data의 패턴에 대해 sensitive 하지만 fused lasso 모델의 강점인 robust한 features selection 측면(training data의 패턴이 달라지더라도 선택변수가 크게 바뀌지 않음)을 추가할 수 있을 것으로 보인다.

Conference