[학회 후기]

2023년 여름에 발표를 위해 참석한 이후 다시 한 번 찾게 된 데이터마이닝 학회는 작년보다 더 많은 참가자와 흥미로운 연구들로 가득했습니다. 특히 개인 연구 분야인 도메인 적응과 관련된 연구들이 여러 개 눈에 띄어 인상 깊었습니다. 올해는 스태프로 참여하여 골드홀 세션에서 모든 발표를 하나하나 들을 수 있는 귀중한 기회를 얻게 되었습니다. 골드홀 세션에서는 (1) 자연어 처리/거대언어 모델, (2) 의료/헬스케어 데이터마이닝, (3) 최적화 및 강화학습 응용, (4) 산업인공지능 응용2 등 총 4가지 주제로 세션이 진행되었습니다.


[청취 후기]

튜토리얼

  • 사이버 범죄에 대한 내용으로 발표가 진행되었으며, 범죄에 악용될 수 있는 GPT가 개발되고 있다는 사실이 가장 충격적이었습니다. 기술 개발 속도가 빨라지면서 악용 가능성도 높아지고 있는 상황에서, 이를 어떻게 막을 수 있을지에 대해 고민하게 만드는 튜토리얼이었습니다.


(1) 자연어 처리/거대언어 모델 세션

  • Hallucination(대화형 AI가 거짓말을 하는 현상)에 대한 연구들이 상당수 있었는데, 이는 ChatBot에 대한 연구가 활발히 진행되고 있기 때문으로 보입니다. 해당 세션뿐만 아니라 다른 세션에서도 ChatBot을 활용한 사례들이 다수 발표되었습니다.
  • 가장 흥미로웠던 발표는 "기술 문서의 도메인 특화 관계형 지식 온톨로지 구축에 기반한 지식맵 생성 시스템 및 방법 연구"였습니다. 이 연구는 반도체 영문 특허 문서를 바탕으로 지식 그래프를 구축하는 과정을 대규모 언어 모델을 활용해 자동화하는 것을 목표로 합니다. 기존에는 키워드별로 문서를 연결할 때 전문가의 개입이 필요했다면, 이 연구는 자동화를 통해 그 과정을 간소화했다는 점에서 의미가 있었습니다.


(2) 의료/헬스케어 데이터마이닝 세션

  • 현재 생체 신호 데이터를 기반으로 연구를 진행 중이기에 이 세션에 더욱 관심이 갔습니다. 여러 발표 중 가장 인상 깊었던 연구는 'MRI data augmentation via Denoising Diffusion Probabilistic Model'이었습니다. MRI 이미지 생성 시 어떤 노이즈가 가장 적합한지를 규명한 연구였는데, 일반적으로는 가우시안 노이즈를 사용하지만 본 연구에서는 Rician 노이즈가 더 효과적임을 제안하고 실험적으로 입증했다는 점이 인상 깊었습니다. 의료 데이터는 (1) 보안상의 이유로 데이터 수가 제한적이라 필연적으로 증강 기술 연구가 필요하지만, (2) 부적절한 증강은 실제 데이터의 의미를 훼손할 우려가 있어 높은 정밀도가 요구된다는 점에서 흥미로운 발표였습니다.
  • 'How are you feeling today? Depression Auto-Test Chatbot based on BERT classifier' 연구는 챗봇을 통해 우울증을 진단하고 상담 및 진료를 권유하는 내용이었습니다. 개인적으로는 (1) 증상 분류 기준을 다양화할 필요성, (2) 개별 우울증 증상을 이진 분류하는 방식의 비효율성(multi-classification 성능이 낮다면 그 원인에 대한 고찰 필요), (3) 일회적 발화만으로 우울증 여부를 판단하는 것에 대한 실제 적용 가능성 우려 등의 생각이 들었습니다. 흥미로운 연구였지만, 이러한 보완점들을 잘 고려하여 발전시킨다면 더욱 의미 있는 연구가 되지 않을까 생각합니다.


(3) 최적화 및 강화학습 응용

  • 첫 번째 발표인 '도메인 별 최대 손실 함수를 고려한 강건 최적화 기반 도메인 일반화' 연구가 가장 인상 깊었습니다. 본 연구실의 정진용 연구원이 발표한 내용으로, 유사 분야 연구여서 더욱 흥미로웠던 것 같습니다. 다만 도메인 일반화를 위한 다양한 방법론 중 Robust Optimization 기법을 선택한 이유와 Worst Case를 다양하게 고려했을 때의 장점을 좀 더 정량적인 근거를 들어 설명했으면 어떨까 하는 생각이 들었습니다.


(4) 산업인공지능 응용 2

  • 가장 흥미로웠던 연구는 '반도체 공정 소재 품질을 위한 시계열 및 이미지 변환 데이터 활용 멀티모달 이상치 탐지'였습니다. 본 연구실의 백민지 연구원이 발표해주었는데, 실제 현업에서 직면한 문제와 이에 대한 실용적 해결책을 제시해 매우 인상 깊었습니다. 발표 자료도 직관적이고 깔끔했으며, 문제 상황과 해결 방안을 명확히 설명해주어 의미 있는 시간이었습니다.