2018년도 대한산업공학회 춘계학술대회는 경주에서 열렸다. 벚꽃 만개 시즌과 겹쳐져서 학회기간동안 완연한 봄을 느낄 수 있었다. 그동안의 연구를 정리하고 이를 발표할 수 있는 기회를 갖게되어 준비과정은 힘들었지만 보람있는 학회였다.

 

[발표후기]

발표 주제: 학습데이터 증대 방법이 삽입된 합성곱오토인코더 DA_CAE

 

이번 발표는 지난 추계발표 때와 다룬 데이터는 동일하지만 연구를 알고리즘 연구로 발전시켜 발표하였다. 최근​ 다채널 센서 데이터의 이상탐지에 Convolutional Neural Networks가 사용되어 좋은 성능을 보인 연구들이 많았다. 하지만 정상과 이상의 레이블이 극히 불균형인 상황에서는 CNN의 performance가 효과적일 수 없으며 CNN은 complexity가 큰 모델이기 때문에 학습데이터의 숫자가 적다면 과적합된 결과를 보이기 쉽다. 따라서 나는 정상 데이터 만을 사용하여 Convolutional Autoencoder를 학습시켜 재구축 기반의 Novelty detection 방법으로 레이블 블균형의 상황을 해결하였고 CAE모델의 학습 시 Data augmentation 방법을 삽입하여 Loss function에서 이를 반영하여 CAE의 weight가 update 되도록 모델을 변형하였다. Data augmentation 방법으로는 센서(채널)별로 dropout시키는 방법을 사용하였으며, Loss function에서 증대된 데이터의 반영 정도, 즉 과적합의 정도를 반영할 수 있도록 hyperparameter lambda를 만들어 이 효과도 검증하였다. 제안하는 DA_CAE모델은 주행중인 자동차에서 수집된 다채널 센서데이터의 이상탐지에 우수한 성능을 보이면서 과적합 또한 줄이는 결과를 보였다.

 

질문: 불균형 데이터를 해결하는 다른 방법(bootstrap, oversampling...)들과 성능 비교를 하는 것이 어떠한가?

대답: 위의 방법을 적용하여 지도학습으로 데이터의 이상탐지 성능을 결과를 내어 확인을 한번 쯤은 할 필요는 있겠지만 현재 나의 제안 알고리즘이 해결하는 문제상황은 불균형 데이터와 정상의 학습 데이터 확보가 어려운 두 문제가 결합된 상황임으로 비지도학습의 모델과 지도학습의 모델의 결과를 비교해야된다. 따라서 이는 결과 비교에 불공평한 상황인 것 같다.

 

질문: 이상의 종류는 어떠한가?

대답: critical한 이상이 아니라 이상의 전조증상이다. 따라서 이상이 발생된 이후에 detect하는 것이 무슨 의미가 있냐고 생각할 수 있지만 그것은 아니다.

 

[청취후기]

 

<AI 알고리즘을 활용한 Overlay Mark 최적 배치 자동화 시스템 개발>

반도체의 vernier key의 품질은 overlay의 틀어진 정도를 계측하여 측정된다. 현재는 이를 위해 웨이퍼 내 개별필드의 굉장히 많은 위치에서 overlay의 틀어진 정도가 측정된다. 하지만 이는 비효율적이기에 해당 연구에서는 강화학습을 통해 overlay의 측정 위치를 선별하였다. 알파고에서 쓰인 PUCT와 두개의 object를 사용하여 학습하여 우수한 결과를 보인 연구였다. 

 

발표자가 연구의 핵심목적에 대해 제대로 설명하지 못해서 초반에 이해가 어려웠으나 내가 현재 관심을 두고있는 강화학습을 사용한 연구여서 흥미로웠다. 사실 computation 측면에서 현재 잘 정리된 메타휴리스틱 방법을 사용하는 것이 더 효율적일 것 같았으나 최신의 ML 기법 중 하나인 강화학습으로 문제를 정의하고 해결하려 했다는 점에서 매우 인상깊었다. 또한 사실상 강화학습을 통한 feature selection을 하는 것이므로 비슷한 접근으로 매우 다양한 domain에 적용이 가능할 것으로 생각되었다.  

 

<다양성 지수 기반의 핵심 키워드 탐색>

텍스트마이닝에서 문서, 문장을 분석가능하게 representation하는 방법 중 TF-IDF에서 IDF 부분을 diversity measure 가운데 gini 계수와 stirling계수로 치환하여 word weighting을 다르게 주어 새롭게 representation하는 방법을 고안한 연구였다.  

 

간단한 아이디어였지만 개인적으로 복잡하게 구구절절한 설명없이 명확하고 간단한 발상의 전환으로 연구가 진행된 것을 좋아해서 그런지 굉장히 신선했다. 발표자가 이런 계수들이 왜 이러한 효과를 낼 수 있었는지 조금 더 해석을 붙여주었다면 연구가 더 빛나 보였을 것 같다고 생각이 들었다.