[학회 후기]

작년 하계학술대회에 공동 연구자로 참여한 이 후, 올해에는 청취자로 데이터마이닝학회에 참여하였다. 개인적으로는 작년 하계 때 보다 흥미로운 주제들이 많이 발표되었던 것 같다. 이미지/영상 데이터마이닝, LLM, 의료/헬스케어, 시계열 등 다양한 주제로 세션들이 구성되었고 개인적으로 흥미 있는 발표를 듣기 위해 여기저기 돌아다니면서 발표를 청취하였다. 이미지/영상 데이터마이닝 세션에서는 "마스킹 기반 지도 학습을 활용한 RGB-D 중요 물체 검출" 발표가 흥미로웠고, 그 후 의료/헬스케어 데이터마이닝 세션에서는 "MRI data augmentation via Denoising Diffusion Probabilistic Model" 발표가 흥미로웠다. 다음 세션으로는 최적화 및 강화학습 응용 세션을 청취하였는데 확실히 최적화 분야는 어렵게 느껴졌던 것 같다. 마지막 세션은 개인 연구와 관련이 있는 시계열 데이터 응용 및 모델링 세션을 청취하였다. 옆 연구실인 DSBA 연구원 분이 발표하신 "시계열 예측 앙상블 모델에서의 불확실성을 활용한 이상 징후 예측"이 개인 연구와도 꽤 관계가 있어 제일 흥미롭게 느껴졌다. 가을에 춘계학술대회가 예정되어 있는데, 그 때는 또 얼마나 다양한 연구들이 발표될지 벌써부터 기대된다.


[청취 후기]

1. "MRI data augmentation via Denoising Diffusion Probabilistic Model"  - 장효영, 이상민 (광운대학교)

해당 연구는 데이터가 적은 MRI 이미지 데이터를 디퓨전 모델을 통해 증강한 연구이다. MRI 데이터셋에 맞게 그 분포적 특성을 잘 반영하는 Rician noise를 적용하여 성능 개선을 이루어냈고, 실험을 통해 증강된 데이터의 품질 또한 입증하였다. 발표를 들으면서, MRI 데이터는 진단에 따라 생명과도 직결되는 문제인데, 이 데이터를 증강했을 때 risk가 있지 않을까?, 관련된 선행 연구들이 있을까? 하는 궁금증이 생겼었다. 그러나 실험 결과에서, 증강 데이터를 90%나 사용했을 때에도 생각보다 성능이 많이 향상되어서 아 충분히 증강할만 하구나 라고 다시 생각하게 되었다. 현재 진행 중인 프로젝트에서 텍스트 QA 데이터를 생성하는 task를 진행 중인데, 우리도 기존 모델에 생성된 데이터셋을 추가 했을 때 성능 향상이 이뤄지는지를 통해 생성된 데이터셋의 품질을 검증하려고 한다. 발표자 분께서 증강된 MRI 데이터셋의 품질을 검증하는 부분에서 내가 진행 중인 프로젝트 방식과 거의 유사하여 친근한 느낌 또한 들었다.


2.  "시계열 예측 앙상블 모델에서의 불확실성을 활용한 이상 징후 예측" - 강형원, 박진우, 한승헌, 강필성 (고려대학교)

해당 연구는 시계열 데이터에서 미래 시점에 일어날 이상치를 사전에 예측하는 연구이다. 불확실성을 사용하였기 때문에 해당 발표는 꼭 듣고 싶었다. 다만, 해당 연구에서는 불확실성을 단순 예측 값들의 분산을 통해 정량화를 하였는데, 이는 모델 불확실성만 반영하는 방법이다.  따라서, 데이터 불확실성은 연구할 때 고려를 안했는지 질문도 하였는데, 발표자 분께서는 다중 모델을 사용함으로써 불확실성을 충분히 반영하였다고 답해주셨다. 더 궁금한 것이 있어 추가 질문을 하고 싶기도 했지만, 시간 관계 상 추가 질문 하기는 어려워 조금 아쉬웠다. 또한 더 미래 시점을 예측할수록 불확실성이 커져 동일한 threshold를 적용하기 어렵기 때문에, 정규화를 진행하였는데, 이 부분에서 내 개인 연구인 dynamic threshold가 생각나기도 했다. 해당 연구의 추가적인 기여점으로 미래 시점 이상치 탐지를 위한 새로운 평가 지표인 PTaPR인 지표를 제안했는데, 이 부분에 대한 설명을 들으면서 연구를 수행할 때 정말 많은 고민을 했다는 것을 느낄 수 있었다.