옛날에 놀러가기만 했었던 경주를 학회발표로 찾아가니 기분이 새로웠다. 처음 발표인 만큼 긴장도 많이 됬지만 큰 자산이 되었다. 학회를 많이 다니진 않았지만 비지니스 어낼리틱스 세션이 전에 비해 굉장히 많이 생겼고 반도체 산업에 대한 관심이 뜨겁다는 것을 알게 되었다. 이번 학회에서는 내가 현재 공부하고 있는 분야보다는 다른 분야에 가서 청취를 많이하였다. 덕분에 시야도 넓어지고 다른 분야에 데이터 마이닝 기법을 어떻게 적용해 볼수 있는지 고민할 수 있는 좋은 기회가 되었다.

 

[발표후기]

 

발표주제: 반도체 다채널 센서 데이터 분석을 통한 주요 인자 선택 알고리즘

 

반도체 산업 특성상 매 공정마다 웨이퍼의 품질을 계측하는 것이 불가능하다. 따라서, 샘플링을 통하여 웨이퍼의 품질을 계측 하는데 샘플링 되지 않은 웨이퍼에서 관리선을 벗어나는 경우가 있기 때문에 그것을 찾아주는 것이 매우 중요하다. 이 문제는 가상계측을 통하여 찾아 주는데 설비의 부착되어 있는 센서로 부터 올라오는 데이터를 설명 변수로 하고 해당 웨이퍼들의 실제 계측 값을 반응 변수로 하여 모델을 구축한다. 여기서 문제상황은 7개의 요약통계량을 사용하기 때문에 데이터의 양이 기하 급수적으로 늘어나게 되고 한 웨이퍼에 측정해야하는 포인트가 17개이기 때문에 Multi-Output 문제가 같이 발생한다. 따라서, 센서 데이터를 대변할 수 있는 7개의 요약통계량을 사용하여 불필요한 변수도 수집되고 계측데이터에 비해 변수가 너무 많기 때문에 효과적인 변수 축소가 필요했다. 분석을 통하여 어떤 센서가 중요한지, 어떤 요약통계량이 센서데이터를 대변할 수 있는지 알아 내는 것이 목적이였다. 또한, 17개 포인트 별로 모델링을 할 수 없기 때문에 Multi-Output을 Single-Output으로 변환해 주면서 Embedded Method를 적용하기 용이하게 하는것도 목적이였다.

 

첫번째로는 효과적인 변수선택 방법이다. Embedded Method만 사용했을 경우 불필요한 변수가 모델에 영향을 미치기 때문에 Filter Method를 사용하여 불필요한 변수를 제거하고 Embedded Method 모델에 적용하였다. 일반적으로 Filter Method는 X와 Y간의 상관관계 분석하여 Correlation이 일정 Threshold 이상인 것들을 선택한다. 하지만 7개 요약 통계량간의 상관관계가 강하게 있기 때문에 X간의 상관관계 분석을 통하여 센서데이터를 대변하는 요약통계량을 뽑는 것이 선행적으로 실행되었다. 다음으로 X와 Y간의 상관관계 분석을 수행하였는데, 17개 Y와 하나라도 일정 Correlation이 있으면 뽑는 방법을 수행하였다. 이유는 통합 모델을 구축할때 17개 Y와 상관관계가 있는 모든 변수가 필요하기 때문이다.

 

두번째로는 Multi-Output을 Single-Output으로 변환해주는 과정이다. 데이터의 증폭을 통하여 Y를 Flatten 시켜 Single-Output으로 변환해 주었다. 이때, Y별 두께 패턴을 반영해 주기 위해서 Categorical 변수를 추가하여 구분해 주었다. 이것은 또한 Dummy Variable로 변환되어 각각의 Y를 구분해 주게 된다.

 

기존에 Multi-Output에 쉽게 적용할 수 있었던 PLS를 기본 모델로 하였고, Single-Output으로 변환 된 것은 Random Forest, Boosting Tree에 적용 시켰다. 먼저 변수선택을 하지않은 결과와 X간의 상관관계만 분석한 것 X와 Y간의 상관관계만 분석한 것 마지막으로 X간 상관관계 분석과 X와 Y간 상관관계 분석을 둘다 수행하여 모델에 적용한 것을 실험결과로 하였다. 단연 X간 상관관계 분석과 X와 Y간 상관관계 분석을 둘다 수행​한 것이 PLS, Boosting Tree, Random Forest에서 변수를 가장 적게 뽑으면서 가장 좋은 Performance를 냈다.

 

Q1. X간의 상관관계 분석을 통하여 7개 요약통계량을 2개(Median, Range)의 요약통계량으로 줄였는데 각각의 17개 Y마다 각각 중요한 요약통계량 값이 다른텐데 일괄적으로 Median Range만 사용하면 위험하지 않는가?

A1. 결과표에서도 보여드렸듯이 X와 Y간의 상관관계 분석만 수행 했을 경우 각각의 포인트별로 중요한 요약통계량을 뽑았다. 하지만 일괄적으로 Median과 Range만을 사용하여 분석을 수행 했을때 더 좋은 결과를 가지고 왔기 때문에 전체 포인트에서 Median과 Range가 중요한 요약통계량이라고 판단 된다.

 

Q2. 반도체 공정의 경우 시계열 패턴이 존재하는데 현재 분석에는 시계열 패턴을 반영한 것 같지 않다. 혹시 현재 시계열 패턴을 고려한 문제상황을 접근해 본적이 있느냐?

A2. 현재 PPT에는 발표시간상 시계열에 대한 내용이 없다. 하지만, 이 모델을 학습할때 Adaptive 학습하기 때문에 시계열을 반영한다.

 

[청취후기]

- 딥러닝 기반의 감성 분석을 위한 비교 연구

현재 다양한 딥러닝 모델이 감성 분석에 적용될 수 있지만 모델 선택을 위해 참고할 만한 실험 결과가 없다는 문제점이 있다. 데이터의 특성에 따라 감성 분석 모델의 성능이 크게 변화할 것이라고 생각 되기 때문에 데이터의 종류에 따라 어떤 딥러닝 모델이 적합한지를 제시하였다. 실험은 총 14개의 데이터에 대하여 실험을 진행하였다. 데이터의 종류는 영화리뷰, 호텔, 음식, 제품 리뷰가 있었는데 제품리뷰도 옷과 주얼리, 스포츠와 아웃도어, 비디오 게임 등 다양한 실험 데이터 셋으로 실험을 진행하였다. 분석을 진행 할때 인코딩은 Word-Level, Character-Level 2가지로 인코딩을 하였으며 딥러닝 구조 및 모델은 CNN(1-layer), CNN(6-layer), CNN(29-layer), Vanilla RNN, LSTM, GRU, Bi-LSTM, Bi-GRU 총 8개 모델로 실험을 진행하였다. 각각의 모델에 장점과 단점을 설명해 가며 데이터 종류에 어떤 구조 및 딥러닝 방법이 좋은지 근거에 입각하여 설명을 해줘서 뜻깊은 시간이였다.

 

- 뉴스 기사와 주가 데이터를 활용한 종목 추천 Knowledge Base 구축 방법론

항상 주가를 예측한다는 것은 흥미로운 주제이며 어려운 주제인 것 같다. 이번 세션에서는 뉴스 기사와 주가 데이터를 활용한 종목 추천 Knowledge Base 구축 방법론이라는 주제를 들었다. 이 주제에서 문제점이라고 생각되었던 3가지가 존재한다. 첫번째는 연속적인 형태의 Event가 발생하는 경우 그 경계가 모호한 것과 Event에 대한 명시적 기준이 존재하지 않아 다양한 표현이 가능하다는 것 마지막으로 다양한 이벤트가 동시에 발생하게 되며, 주식 시장에 대한 영향력은 서로 공존한다는 점이다. 이러한 점을 다양한 분석을 통하여 극복하였으며, 결과적으로 "탄핵, 대통령, 총선, 박근혜, 파면, 임종룡, 금융, 연봉제, 성과, 총파업" 등의 단어가 뉴스 기사에 뜨면 주가 상승에 영향을 미친다는 것이다. 또한, "브렉시트, 증시, 코스피, 시장, 마감, 유일호, 부총리, 경제, 설맞이, 서명" 등의 단어가 뉴스 기사에 뜨면 주가 하락에 영향을 미친다. 이러한 것들이 매우 흥미로웠다.