이번 데이터마이닝학회는 온라인과 오프라인으로 동시에 진행되었지만, 코로나의 여파로 온라인으로 학회에 참가했다. 산업공학회와는 다르게 하나의 세션만 진행되었지만, 세션의 내용이 전반적으로 딥러닝과 관련된 내용이라서 조금 더 관심이 갔다. 세션이 오프라인으로 진행되는 만큼 진행이 원활하여 세션을 듣는데 좀 더 수월한 점이 있었다.

[LSTM 기반 딥러닝을 이용한 일사량 이미지 생성]
일사량 이미지 생성은 기후를 예측하는 데 중요한 역할을 한다. 기존의 일사량 이미지 생성은 computer vision의 알고리즘을 기반으로 이미지를 생성했지만, 기상 데이터의 특성상 시간의 흐름을 반영할 경우 더 좋은 이미지를 생성할 수 있다. 따라서 최근에는 딥러닝 모델을 활용한 연구들이 활발히 이루어졌다. 하지만 단일 모델의 경우 하이퍼파라미터 튜닝을 잘해도 좋은 이미지를 얻기 어려워 해당 연구에서는 Stacking이라는 앙상블 기법을 활용해 좋은 이미지를 생성하는 모델을 제안했다. 단일 모델들이 생성한 이미지를 입력으로, 실제 이미지를 출력으로 하는 인코더를 별도로 학습해 각 모델의 출력값을 조합하는 방법을 활용했다. 앙상블 모델이 모든 평가지표에서 가장 좋은 성능을 보였으며 시각적으로도 앙상블 모델이 가장 좋은 이미지를 생성했음을 확인할 수 있었다. 해당 세션을 통해 stacking이라는 앙상블 기법을 처음 접했으며 다음에는 프로젝트 등에 활용해 모델의 성능 향상을 기대해볼 수 있을 것 같다.

[Uncertainty-Aware Soft Sensor Using Bayesian]
측정이 쉽고 비용이 저렴한 센서를 통해 측정이 어렵고 비용이 많이 드는 센서 데이터를 예측하는 것을 soft-sensor라고 한다. 현장에서 수집된 데이터는 노이즈가 많이 발생하고 이러한 데이터로 학습된 모델은 신뢰하기 어려운 경우가 존재한다. 따라서 모델의 출력값에 대한 신뢰성은 중요하다. 해당 연구에서는 베이지안 RNN을 활용해서 예측의 불확실성을 측정했다. 불확실성은 모델에 대한 불확실성과 데이터에 대한 불확실성이 존재한다. 기존 모델은 단순히 모델의 불확실성만 측정했다면 해당 연구에서는 데이터의 노이즈를 측정할 수 있는 별도의 헤드를 만들어 데이터의 불확실성까지도 측정했다. 이를 실제 산업의 데이터에 적용했을 때 제안 모델이 대부분의 차종과 센서에서 가장 좋은 성능을 보임을 확인했다.