[학회후기]

지난 11월 30일 금요일 서울대학교에서 개최된 데이터마이닝 학회에 다녀왔다. 관악산은 눈만 없었지 한겨울이었으며 서울대학교 신입생 수시 지원자들로 붐비는 아침이었다. ​학부모들 역시 설레는 표정으로 대기실에서 합격을 기원하는 눈빛이 인상적이었다. 학회보다는 고등학교 시절이 생각나는 아침이었다. 학회는 역시 데이터마이닝분야에 특화된 학회여서 그런지 관심가는 발표제목들이 많았다. ​매 세션마다 발표를 빠짐없이 들었는데 딥러닝과 텍스트분야에 청중이 가장 많은 것을 보아 대세는 아직 변하지 않은 것 같다. 프로젝트를 함께하고 있는 기업 관계자분도 계셨는데 질문 하나하나 할 때마다 그 이유를 알 것 같아 재미있었다. 또 한번 느낀점은 우리연구실 인원의 발표가 귀에 가장 잘 들어온다는 점이다. 

[발표후기]​ '수면 상태 시퀀스 기반 쾌면 지수 산정 방법론'

많은 질병의 원인이 되는 수면의 질을 예측하고자 많은 헬스케어 서비스가 주목받고 있다, 하지만 현재 수면의 질 산출 기법은 수면길이와 맥박수에 의존한 단순 비율계산으로 수면의 질을 설명하기에 충분하지 ㅇ낞다. 따라서 수면의 질을 설명할수 있는 데이터를 기반으로 기계학습 기법을 적용해 정확하게 수면의 질을 산출할 수 있는 분석기법이 필요하다. 본 연구에서는 'Hypnogram(수면상태그래프)​'​ 내 수면상태 시퀀스를 기반으로 수면 점수를 산출할 수 있는 쾌면지수 산정 방법론을 제안하였다. 기계학습 기법은 레이블(정상/질환) 정보를 최대한 활용하고, 극단적인 쾌면지수 산정이 이루어지지 않는 장점을 보이는 선형판별분석(Linear Discriminant Analysis, LDA​)을 적용하였다. LDA​는 지도학습 기반 차원축소 기법 중 가장 대표적인 방법론으로 다른 예측모델 및 군집분석에 비하여 좋은 쾌면지수를 산출한 결과를 보였다.

질문(1) CNN 정상/이상 구분 후 쾌면지수 스케일을 다시 조정해도 좋을 것 같다.

답변: 물론이다. 하지만 CNN 교차검증 시 매우 낮은 정확도를 보여 실제 적용 가능성은 없어보인다.

질문(2) OCC(one class classification) 기법을 적용하면 좋을 것 같다.

답변: 적용해볼 수 있다. 하지만 정상레이블 데이터만으로 DTW 기반 쾌면지수 산출해본 결과 성능이 저조하였다.

질문(3) 변수간 T-Test는 등분산성을 가정했는지 궁금하다.

답변: 구현된 코드를 ​정확하게 ​살펴본 후 그에 맞는 검증이 제대로 이루어졌는지 살펴보겠다.

질문(4) Hypnogram데이터를 빈도수로 요약하면 시퀀스 정보가 없어지는 데 시퀀스를 강조한 제목이 적절한지? 

답변: 비교실험에서 군집분석 및 DTW(시퀀스간 유사도 측정), LSTM, Seq2Seq Autoencoder​ 을 적용하였지만 성능이 좋지 않았다. 그리하여 이산형 시퀀스를 분석할 수 있는 가장 기본적인 방법(Document-Term Matrix와 같은)을 사용하였으며 단계적으로 적용가능한 방법론을 시도했던 사례를 소개하였다.