고려대학교 DMQA 연구실

2019 한국데이터마이닝학회 추계학술대회 - 이민재

2019년 12월 1일 오후 5:07
조회수: 539

Reviewed by

이민재

지금까지 듣고 봐왔던 산업현장에서 맞닥뜨리는 문제들의 공통점 및 요구사항을 다음과 정리하고, 이를 토대로 이번 학회에서 나온 내용들을 다시 recap하고자 한다.

A. [산업현장 문제상황/요구사항]

1) 클래스 불균형이 큰 경우가 대다수다.

2) 레이블이 없는 인스턴스가 더 많다.

3) 모델의 해석 가능성에 비중을 둔다.

4) 계산 성능이 비교적 떨어지는 edge device에서도 돌아가는 모델을 요구한다.

B. [2019 대한데이터마이닝학회 추계학술대회]

1,2) 주어진 데이터만으로 해결하고자 하는 경우 SMOTE 같은 샘플링이나 전통적인 semi-supervised learning으로 처리하는 경우가 많았고, 상이한 modal을 갖는 데이터 확보가 가능한 경우 multi-task learning 을 통해서 모델 feed되는 데이터를 극대화시키는 시도도 있으며, 생성모델(e.g. Auto-encoder, GAN)로 학습데이터를 추가 생성하는 방법론도 있었다. 마지막으로 GNN(Graph Neural Network)을 사용하여 물성 예측모델의 학습데이터를 구축하는 세션이 있었는데, 여기서 보여준 GNN의 성능이 현존하는 기존 table 데이터를 embedding하여 사용해도 좋은 성능을 내줄지 궁금하다. 개인적으로 어떤 객체의 정의는 객체 간 ‘관계’로부터 나온다고 생각하기 때문에 (graph) embedding만 을 효과적으로 해준다면 NLP 분야의 BERT 모델 케이스처럼 좋은 성능을 내는 모델이 나올 수 있지 않을까 생각하였다.

3) Class activation map 그리고 attention mechanism이 참 여러 세션에서 많이 나왔다. Attention mechanism이 좋기는 하나 이는 어디까지나 ‘1,2’번째 문제를 확실하게 매듭진 이후라고 생각한다. 한 예시로 어떤 발표자의 경우 attention score 간 차이가 별로 크지도 않는데 이게 인사이트를 준다고 주장했는데 이게 과연 유의한 결론인가 의심하게 되는 경우도 있었다. 모델의 유의성 검정을 위해 각 단계마다 unit-test를 나부터 좀 습관화해야 할 것 같다.

4) 좋은 성능을 내는 모델들은 강력한 computation 파워가 뒷받침되어야 상용 단계에서 그나마 쓸 수 있기에, edge device에서는 이러한 SOTA 모델을 가져와 쓰기는 매우 어렵다. 앞으로도 크기가 큰 사이즈의 SOTA모델들이 계속 나온다는 것을 고려하면, distillation을 위한 컴퓨팅 자원만 충분하다면 도전할만한 분야인 것 같다고 본다.

C. [마지막 말]

개인간 차이는 있겠지만 발표는 참으로 긴장되는 상황이다. 나아가 촌철살인 같은 질문이 들어오는 Q&A 시간에서도 논조를 흐리지 않는 사람이 있는가 하면, 횡설수설하여 얼버무리는 분들도 있었다. 데이터마이닝학회의 현재 방향성도 볼 수 있는 자리였지만, 현실적으로 또래의 비슷한 포지션의 사람들이 발표한 자리였다는 점에서 앞으로 무엇에 집중해야 되는지 힌트를 주는 하루였다.

Conference