- 2018년 12월 3일 오전 3:13
- 조회수: 708
조윤상
[학회후기]
지난 11월 30일 금요일 서울대학교에서 개최된 데이터마이닝 학회에 다녀왔다. 관악산은 눈만 없었지 한겨울이었으며 서울대학교 신입생 수시 지원자들로 붐비는 아침이었다. 학부모들 역시 설레는 표정으로 대기실에서 합격을 기원하는 눈빛이 인상적이었다. 학회보다는 고등학교 시절이 생각나는 아침이었다. 학회는 역시 데이터마이닝분야에 특화된 학회여서 그런지 관심가는 발표제목들이 많았다. 매 세션마다 발표를 빠짐없이 들었는데 딥러닝과 텍스트분야에 청중이 가장 많은 것을 보아 대세는 아직 변하지 않은 것 같다. 프로젝트를 함께하고 있는 기업 관계자분도 계셨는데 질문 하나하나 할 때마다 그 이유를 알 것 같아 재미있었다. 또 한번 느낀점은 우리연구실 인원의 발표가 귀에 가장 잘 들어온다는 점이다.
[발표후기] '수면 상태 시퀀스 기반 쾌면 지수 산정 방법론'
많은 질병의 원인이 되는 수면의 질을 예측하고자 많은 헬스케어 서비스가 주목받고 있다, 하지만 현재 수면의 질 산출 기법은 수면길이와 맥박수에 의존한 단순 비율계산으로 수면의 질을 설명하기에 충분하지 ㅇ낞다. 따라서 수면의 질을 설명할수 있는 데이터를 기반으로 기계학습 기법을 적용해 정확하게 수면의 질을 산출할 수 있는 분석기법이 필요하다. 본 연구에서는 'Hypnogram(수면상태그래프)' 내 수면상태 시퀀스를 기반으로 수면 점수를 산출할 수 있는 쾌면지수 산정 방법론을 제안하였다. 기계학습 기법은 레이블(정상/질환) 정보를 최대한 활용하고, 극단적인 쾌면지수 산정이 이루어지지 않는 장점을 보이는 선형판별분석(Linear Discriminant Analysis, LDA)을 적용하였다. LDA는 지도학습 기반 차원축소 기법 중 가장 대표적인 방법론으로 다른 예측모델 및 군집분석에 비하여 좋은 쾌면지수를 산출한 결과를 보였다.
질문(1) CNN 정상/이상 구분 후 쾌면지수 스케일을 다시 조정해도 좋을 것 같다.
답변: 물론이다. 하지만 CNN 교차검증 시 매우 낮은 정확도를 보여 실제 적용 가능성은 없어보인다.
질문(2) OCC(one class classification) 기법을 적용하면 좋을 것 같다.
답변: 적용해볼 수 있다. 하지만 정상레이블 데이터만으로 DTW 기반 쾌면지수 산출해본 결과 성능이 저조하였다.
질문(3) 변수간 T-Test는 등분산성을 가정했는지 궁금하다.
답변: 구현된 코드를 정확하게 살펴본 후 그에 맞는 검증이 제대로 이루어졌는지 살펴보겠다.
질문(4) Hypnogram데이터를 빈도수로 요약하면 시퀀스 정보가 없어지는 데 시퀀스를 강조한 제목이 적절한지?
답변: 비교실험에서 군집분석 및 DTW(시퀀스간 유사도 측정), LSTM, Seq2Seq Autoencoder 을 적용하였지만 성능이 좋지 않았다. 그리하여 이산형 시퀀스를 분석할 수 있는 가장 기본적인 방법(Document-Term Matrix와 같은)을 사용하였으며 단계적으로 적용가능한 방법론을 시도했던 사례를 소개하였다.