발표 후기



반도체 공정에서 웨이퍼의 품질을 실제로 계측하기 위해서는 많은 비용과 시간이 소모된다. 가상 계측이란 반도체 공정에서 실제로 계측 되지 않은 웨이퍼들의 품질 특성치를 공정 센서에서 수집된 시그널을
통해 예측하는 방법론이다. 정규화 기법은 고차원 데이터를 이용한 예측모델 구축 시 널리 쓰이는 방법으로, 특히 반도체 공정의 시그널과 같이 변수 간 상관관계가 높은 데이터 분석에 적합하다. 최신 정규화 기법 기반 가상계측 모델을 구축하고 이들을 예측 정확도, 중요
변수 선택 수, 그리고 신뢰성 측면에서 비교한 결과를 IJIE 학회에서
발표하였다. 발표 후 기업 연구원께서 오셔서 발표한 연구 주제에 대해 더 자세한 이야기를 나누고 연락처를
교환하였다.
질문 받은 내용은 논문을 쓰면서도 가장 어려웠던 부분이었다. 영어로 좀더 간결하고 정확하게 답변 하지 못한 부분이 있어 아쉬웠다.



 



질문: Overlapping group lasso 기반의 모델이 가장
성능이 좋았던 이유는 무엇인가?



답변: OES 데이터에서 변수는 상관관계가 높은 것들로 그룹화 할
수 있고 그 그룹 간에도 상관관계가 존재한다. Overlapping group lasso의 특징은 한
변수가 다양한 그룹에 속할 수 있도록 overlap을 허용하는데, 이러한
특징이 성능을 향상시키는 중요 원인 중 하나가 될 수 있다. Tree structured group lasso 또한
overlap을 허용하지만 계층구조는 OES의 변수를 그룹화하는데
적당하지 않은 것으로 보인다.



 



청취 후기



한국에서 열리는 학회이다 보니 익숙한 분위기를 느낄 수 있었다. 타이완, 인도네시아, 싱가폴 등 다양한 나라에서 참여하였다. 현재 딥러닝에 대한 연구 열기에 비해 본 학회의 data mining 세션에서는
딥러닝 관련 주제가 없어서 아쉬웠다. 기억에 남는 발표를 아래에 요약하였다.



 



Choosing store type using cluster analysis
and multiattribute attitude model for a consumer product store in Bandung



군집화 기법을 이용해 인도네시아 고객의 특성과 고객들이 선호하는 가계의 군집을 찾아내고 것이 본 연구의 목적이다. 연구실에서 했던 산학프로젝트와 비슷한 내용이어서 관심있게 들을 수 있었다. 분석결과, 고객은 스포츠, 쇼핑, 일반
그룹으로 나눌 수 있었고 슈퍼마켓이 가장 선호되는 가계로 군집화 되는 것을 알 수 있었다.



 



Develop an indicator of health status based
on physical exam data using random forest and regression analysis



병원에서 수집한 환자 진단 데이터를 이용해 건강상태 지표를 예측하는 것이 본 연구의 목적이다.  예측 모델로써 random forest와 다변량 회귀모델과 비교하였다. 모델링에 이용한
데이터의 변수 수가 크게 많지 않아서 random forest보다 간단한 모델를 이용해도 성능이 크게
차이 나지 않을 것으로 생각되었다. 예측결과, random
forest
의 성능이 더 좋았고 다변량 회귀모델은 결과 해석으로써 이용하였다. 해석을 위해
불필요하게 두 모델을 사용하기보다는 변수선택이 가능한 다른 예측모델을 고려해 볼 수 있겠다.



 



Tree-based ensemble classifier using kernel
Fisher discriminant analysis



본 연구에서는 각 bootstrap 샘플에 커널을 적용하여 tree 모델을 만들고 이들을 종합하여 ensemble 모델을 구축하였다. 웹에 공개되어있는 약 20여개의 데이터로 제안 모델을 random forestrotation forest와 비교하였다. 클래스의 수가 많은 복잡한 데이터 일수록 제안모델의 성능이 우수한 것을 확인할 수 있었다. 많은 종류의 실험데이터를 이용하였는데 random forest 모델
구축 시 한 종류의 매개변수로만 실험한 부분이 아쉬웠다. 물론 random
forest
모델이 매개변수에 크게 민감하지 않지만 제안모델이 random forest보다
많은 수의 매개변수를 이용하는 복잡한 모델인만큼, random forest 모델 구축 시에도 매개변수
최적화가 필요해 보인다.