고려대학교 DMQA 연구실

2014 한국BI데이터마이닝학회 추계 학술대회 - 이한규

2014년 12월 1일 오후 1:24
조회수: 1008

Reviewed by

이한규

데이터마이닝을 연구하는 연구자로 BI데이터마이닝 학회는 지난 주 있었던 산업공학회에 비해 흥미로운 연구 주제가 많았다고 생각한다. 따라서 이번 발표한 내용과 더불어 흥미롭게 들었던 연구들을 정리하고자 한다.

산업공학회와 유사하게 헬스케어 분야에 대한 연구가 점차 증가하고 있음을 느낀 BI 학회였다. 헬스케어 관련한 다양한 연구 발표중에서 Disease Association and Scoring System based on BioMedical Big Data 발표가 학회중 가장 흥미로운 연구라고 생각된다.
간단히 요약하자면 2 layer network를 구성한 연구로 아래층은 유전자-유전자 네트워크 그리고 위층은 질병-질병 네트워크 마지막으로 2개의 네트워크 사이는 유전자-병 관련 정보를 통해 연결을 만들었다. 일반적인 질병 네트워크의 경우 당뇨병 과 같은 Metabolic 질환에 대하여 네트워크 상에서 멀리 떨어져 있을 뿐더러 그 연결강도 또한 매우 약하게 나타난다. 이러한 경우 실제 Metabolic 질환 사이에 명확한 연관정도와 합병증 등을 파악할 수 없다는 단점이 있다.
이러한 문제점을 보완하기 위해 2 layer network를 구성하였고 질병-질병 네트워크를 사용하지 않고, 아래층의 유전자-유전자 네트워크와 유전자-질병 관계를 통해 위층 네트워크인 질병-질병 네트워크를 재표현 하였다. 이과정에서 거리를 새로 정의하여 위와같은 Metabolic 질환에 대해서도 질병간의 밀도가 높은 네트워크를 구성하였다.
평소 연구 분야에 네트워크를 어떤식으로 활용하면 좋을지를 항상 생각했었는데 상당히 큰 도움이 된 발표였다.

-발표자 후기-

[발표주제 및 후기]
발표제목: 데이터기반의 질병 사전 진단 모델

이번 BI학회에서 헬스케어 분야의 어플리케이션의 일환으로 질병 분류 모델에 관한 연구를 발표하였다.
이미 다양한 분야에서 헬스케어 분석을 하고 있으나, 이번 발표에 주제인 선종성 용종에 관해서는 데이터마이닝을 활용한 케이스가 거의 없었다.따라서 헬스케어 분야의 중요성, 헬스케어 분야에서 데이터마이닝을 사용해야 하는 이유, 그리고 왜 선종성 용종에 대해 예측/분류를 해야하는지에 대한 것은 잘 전달했다고 생각한다.그러나 지나치게 서론을 길게 설명한것 같아서 지루하게 느껴질 수도 있다는 생각이 들어 앞으로는 분량 조절에 신경을 좀더 써야겠다

[발표 후 질문]

질문: SMOTE는 어떠한 알고리즘 인가?
답변: 다수 클래스에서는 Under sampling을, 소수 클래스에서는 Over sampling을 통해. 즉, 소수 클래스 내에서 두 관측치 사이에서 랜덤하게 새로운 관측치를 생성한다.

답변에 대한 의견: SMOTE를 sampling 과정에서 사용하였기 때문에 이부분에 대해서 간단하게 언급만 하였는데 그렇기 때문에 질문을 받았다고 생각한다. 앞으로는 간단한 애니메이션을 준비하여 누구든 이해할 수 있도록 준비해야겠다. 특히 주 연구분야가 어플리케이션 이므로 연구에 사용한 새롭거나 특별한방식(알고리즘, 방법론 등)은 발표에서 상대방이 이해하기 쉽게 준비해야겠다.

Conference