고려대학교 DMQA 연구실

2017 한국BI데이터마이닝 추계학술대회 - 박성호

2017년 11월 27일 오후 1:45
조회수: 1747

Reviewed by

박성호

2017 추계 한국BI데이터마이닝학회는
부산에서 개최되었다. 각 발표 세션들이 데이터마이닝 관련 주제들로 잘 구분되어, 듣고 싶었던 주제들을 선택적으로 들을 수 있었다. 최근 트렌드를
반영하듯 이번 학회에서도 딥러닝 관련 연구들이 많이 존재 하였다. 다만, 제목은 흥미롭지만 완성도가 부족한 발표 내용도 있어 아쉬운 점도 있었다.

<발표 후기>

이번 학회에서는
Multitask learning for virtual metrology model with multi-output data라는 주제로
발표하였다. 반도체 공정은 하나의 설비에 여러 챔버가 부착되어 제품이 생산된다. 각 챔버는 동일한 제품 생산을 목적으로 설계되어 있지만, 챔버가
놓여져 있는 외/내부 상황이 조금씩 다르기 때문에 수집되는 데이터의 패턴이 챔버 마다 상이한 경우가
존재한다. 또한, 제품의 품질은 다양한 척도로 계측이 되는데
두께 척도는 웨이퍼의 여러 위치에서 측정되기 때문에 챔버 별 멀티 아웃풋을 예측 할 수 있는 가상계측 모델이 필요하다. 본 연구에서는 챔버 별 특성과 위치 별 두께 패턴을 효과적으로 반영 할 수 있는 Multitask 학습 기법을 소개하였고, 실제 데이터에 적용한 결과에
대해 공유하였다.

실제 많은 기업에서 이러한 문제상황에 관심을 갖고
있고 어떻게 해결 할 지 고민하고 있어, 발표 후 현업에 계신 분들과 다양한 얘기를 할 수 있었다

- 질문: Input
data는 Task 간 공유하고 있지만, Output의
데이터가 Task 간 완전히 다른 경우에도 Multitask
learning이 효과적일 수 있는지?

- 답변:
Multitask learning의 핵심은Task 무엇으로, 어떻게 정의할 것 할지 이다. Multitask learning 은 Task 간 서로 공유 할 수 있는 정보가 있다는 가정하에 작동하기 때문에, 완전히
독립적이라면 개별적으로 모델링하는 것이 적합 할 것이라고 생각이 듣다. 다만 Domain knowledge와 데이터 패턴이 다른 경우도 많기 때문에 Task
정의 시 Expert의 판단과 데이터 분석을 같이 진행하면서 설정해야 한다.

- 질문: Task
별 데이터가 적은 경우, Regression coefficients 추정 시 매우 불안정한
결과를 보일 것 같은데 향후 차원축소 방법을 적용 할 생각은 없는지?

- 답변: 맞는
말씀이다. 본 연구에서는 이러한 부분을 해결하기 위해 변수 선택이 내재된 방법을 적용했다. 차원 축소에는 변수 선택과 추출이 있지만 추출방법의 경우 해석에 어려움이 많기 때문에, 우선적으로 변수 선택에 집중해서 연구 중에 있으며 향후 추출 방법에 대해서도 적용해 볼 예정이다.

<청취 후기>

-A modified
cross-entropy loss function for neural network

연세대학교 김현중 교수님이 cross-entropy loss function의 수정를 제안하였고 multiclass
문제에서 좀 더 효과적인 뉴럴넷 학습이 가능함을 보였다. 특히 토이 예제를 통해 기존 cross-entropy에서 어떤 문제점이 있는지 보여줌으로써 문제정의를 명확히 알 수 있었다. 기존 cross-entropy는 각 클래스에 대한 오차만을 고려해서
업데이트를 해준다. 하지만, 예측 모델이 각 정답 클래스에
대한 오차뿐만 아니라 다른 클래스에 대한 오차까지도 고려해 줄 수 있다면 좀 더 효과적인 모델이 구축될 것이다.
이러한 부분을 목적함수에 패널티 부분을 새롭게 추가하여 적용하였고 실험 결과에서 기존 목적함수보다 더 빠르게 모델이 학습됨을 보였다. 현재 뉴럴넷 연구들은 뉴럴넷 구조 등에 대해서 컴퓨터 공학과에서 주로 연구하고 있는데 이러한 목적식에 함수를
새롭게 정의하고 구성하는 부분은 산업공학과나 다른 과에서 일조 할 수 있다고 생각 든다.

- 다변량 시계열의 변수 중요도 추출 및 분류 성능
향상을 위한 컨볼루션 필터

CNN을 학습하는 데 있어서 중요한 변수을 선택할 수
있도록 필터 내부에 변수선택 기능을 추가하였다. 필터 내부에 변수 별 가중치를 새롭게 곱해주고, 최종적으로 가중치를 목적식의 패널티 텀으로 넣어 줌으로써, 변수
선택을 가능케 하였다. 다만, 필터를 적용 시 모든 변수를
활용하기 때문에 변수 간 지역적 패턴을 효과적으로 반영 할 수 있는지 의문점이 들었다. 하지만, 딥러닝에서의 변수선택 및 모델 해석에 대한 초기 필터연구로써 연구의 잠재성이 크다고 여겨진다.

Conference