2020년 11월 26일 양재 L타워에서 개최된 한국데이터마이닝학회에 다녀왔다. 오프라인 개최 예정이었던 학회가 코로나가 재유행 단계에 접어들어 온라인/오프라인을 병행하는 것으로 진행되었는데 민정이가 발표하기도 하고 오랜만에 오프라인 학회에 참석하고 싶어 직접 현장참가를 신청해다녀왔다. 규모가 축소되다보니 여러 세션에 왔다 갔다 하며 청취하는 게 아니고 한 세션장에서 주욱 진행되어 집중하기도 편했던 것 같다. 그리고 같은 분야 연구원들의 모임이어 그런지 대한산업공학회보단 확실히 더 와닿는 발표를 들을 수 있었다. 여럿 발표를 즐겁게 청취했다. 

[Variational autoencoder와 Isolation forest 기법을 활용한 설비 고장 전조증상 탐지 - 최희정 et al., 고려대학교 산업경영공학과]
DSBA 연구실 최희정 연구원이 발표해준 내용이다. 설비 센서데이터 기반 고장 탐지는 산업현장에서 매우 중요한 과업으로 여겨지며 많은 연구가 시도되고 있다. 여기서 가장 중요한 점은 전조증상을 감지하여 조기에 고장탐지를 이뤄내야하는 점이다. 설비 센서데이터를 정상, 전조, 고장 이 세가지 범주로 정답을 부여한 후 정상 클래스에 대해 학습하는 이상탐지 기법을 Variational autoencoder와 Isolation forest로 시도한 사례를 소개해주었다. 개인적으로 오늘 학회에서 가장 명확한 설명자료와 발표로 생각한다. Variational autoencoder와 Isolation forest에 대한 간단명료한 설명이 인상깊었고, 특히 SHAP 기법으로 이용해 변수 중요도를 나타냈는데 단순히 어떤 변수가 중요하다는 결과에서 더 나아가 언제, 어떻게 중요변수를 나타내 활용할 수 있는지 시뮬레이션으로 나타내주었다. 많은 프로젝트를 진행할 때 현업관계자가 가장 궁금해할 점인데 "저렇게 나타내주면 이해가 수월하겠구나"라고 생각했다. 

[Deep-In-AFT: Interpretable Accelerated-failure-time Framework via Deep Neural Network - 이현준, 고려대학교 통계학과]
생존분석분야에 인공신경망을 적용한 연구다. 생존분석이란 어떠한 현상이 발생하기까지에 걸리는 시간에 대해 분석하는 것으로, Accelerated-failure-time 모델을 사용하여 분석된다.  Accelerated-failure-time 모델 내 파라미터를 인공신경망으로 추정하는 연구를 소개해주었다. 통계학과스럽게(?) 입력변수(X)를 Covariate으로 표현하였으며 수식을 단계적으로 보여주며 인공신경망 적용에 대한 설명을 이어나갔다. 수식을 들어 설명해주었음에도 불구하고 발표력이 좋아 전반적으로 이해하기 수월했다. 다만 생존분석이나 AFT에 대한 사전지식이 부족했던터라 완벽히 이해할 수는 없었던 점이 아쉬웠는데  요즘 통계학과에서도 딥러닝 적용을 시도하고 있으며 어떤 식으로 접근하는 지 엿볼 수 있는 발표였다. 선형모델링으로부터 큰 성능을 기대할 수 없다는 점에서 시작되어 딥러닝, 그리고 해석가능한 부분도 많은 관심을 두는 것 같다. 여기에서도 SHAP 방법론을 이용해 변수중요도를 살펴보았다. 요즘 SHAP 방법론이 각광을 받고 있는 것 같다. 연구실 세미나에서 소개됐기도 했는데 모델종류에 구애받지 않고 사용할 수 있는 점이 큰 장점인 것 같다. 여러 연구나 프로젝트 시 활용해보면 좋을 것 같다. 

석호, 진수, 민정이와 같이 오프라인 학회에 참석하여 여러모로 즐거운 시간이었다. 민정이 발표가 대상을 수상했고, 연구력과 발표력에 민정이 면모를 잘 보여준 하루가 아니었나 생각한다. 다시한번 축하의 말 전한다. 학회가 끝나고 처음 먹어보는 양갈비로 저녁식사하며 마무리 했다. 즐거운 하루였다.