- 2014년 11월 24일 오후 2:42
- 조회수: 1250
박찬희
경기대학교 수원캠퍼스에서 열린 2014 대한산업공학회 추계학술대회에 참석하였다.
확률모형 세션에서 “Comparison of data preprocessing techniques for relaxing class imbalance”에 관한 연구가 있었다. 각 클래스에 속한 관측치들이 불균형을 다룰 수 있는 전처리 기법의 성능을 비교 하였다. 비교된 기법은 총 5가지로 neighborhood cleaning rule(NCR), random under-sampling(RUS), synthetic majority over-sampling techinque(SMOTE), borderline SMOTE, 그리고 selective pre-processing of imbalanced data with ENN rule (SPIDER) 였다. 데이터 불균형은 실제 분류 모델 구축시 빈번히 발생되는 문제이다. 발표를 통해 각 기법의 기본 개념을 알 수 있어 많은 도움이 되었다.
같은 확률모형 세션에서 "변수간 중복성 제거를 고려한 개선된 유효 범위 기반 변수선택법"이란 주제의 발표가 있다. 각 변수에 대해서 범수별로 유효 범위들이 얼마나 분리되어 있는지를 고려하여, 분리된 정도에 따라 변수의 가중치를 계산하였다. 계산된 가중치를 내림차순으로 정리하고 사용자가 정한 변수의 수만큼을 가장 큰 가중치 순서대로 선택하는 방식이다. Mosquito data 분석시 내가 생각했던 방식과 비슷하여 흥미로웠고 최근에 microarray data에서 변수 선택시 이런 방법들이 쓰이고 있다는 것을 알 수 있었다.
발표내용
세번째 확률 모형 세션에서 반도체 공정의 품질 특성치 예측을 위한 가상 계측 모델이라는 주제로 발표하였다.반도체 공정에서 웨이퍼의 실제 계측은 많은 비용과 시간이 요구된다. 이러한 문제로 인해 일반적으로 반도체 공정에서는 한 lot에 포한됨 웨이퍼들 중 일부의 웨이퍼에 대해서만 계측 정보를 추출하기 때문에 계측 정보의 활용도가 떨어진다.반도체 공정 장비에는 수많은 센서들이 부착되어있고 이들로부터 실시간으로 모든 웨이퍼의 공정 상태를 나타내는 시그널을 얻을 수 있다. 연구에서는 Fused lasso와 같은 시그널 데이터에 적합한 알고리즘 기반의 가상 계측 기법을 이용하여 모든 웨이퍼의 계측 정보를 예측할 수 있는 모델을 제안하였다.
발표에 대한 질문과 답변은 다음과 같았다.
질문: 실험결과 training data가 바뀌어도 fused lasso는 거의 비슷한 변수들을 선택하고 있는데 이는 시간에 따라 변하는 공정 데이터의 분포를 반영하지 못하는 것이 아닌가?
답변: 본 실험에서 3가지 case의 training data는 거의 비슷한 분포를 가지고 있다는 가정하였다. 다만 공정이 진행 됨에 따라 잡음이 섞일 수도 있고 공정 데이터가 약간씩 변화할 수 있다. Training data가 조금씩 변동하는 것에 따라 중요 변수 선택이 크게 영향 받는 다면 강건한 VM 모델로 볼 수 없다. 따라서 실험 결과는 training data의 미세한 변동에 대한 fused lasso의 변수선택 강건성을 보여주기 위한 결과이다.