고려대학교 DMQA 연구실

2018 한국데이터마이닝학회 추계학술대회 - 이민정

2018년 12월 3일 오후 1:43
조회수: 854

Reviewed by

이민정

[[학회 후기]]

데이터마이닝 학회는 처음 참가하였다. 확실히 우리의 연구분야에 연관된 학회여서 진행중인 연구나 프로젝트에 도움이 될 만한 정보들을 들을 수 좋은 기회였다. 하지만 뒤에 실험 결과가 부족한 발표들 또한 많았던 것 같다. 그리고 발표한 연구원들 가운데 3명이나 수상을 하였다. 그외에도 짧은 기간에 논문을 쓰느라, 발표를 준비하느라 고생한 연구원들에게 박수를 보내고 싶다.

[[청취 후기]]

[초청강연-변수선택과 예측, 전치혁 교수님]

초청 강연으로 진행된 변수선택과 예측이란 주제의 발표가 인상 깊었다. 사실 변수선택이라고 하면 굉장히 손쉽고, 간단한 문제라고 치부해버리는 경우가 많았던 것 같다. 따라서 그에 따른 고민없이 Random Forest로 손쉽게 중요 변수를 선택하는 경우가 많았다. 하지만 이번 강연을 통해 연속형, 범주형 변수가 혼재된 Mixed data, missing value가 많고 unlabeled data가 있을 때 변수선택의 어려움과 이를 해결 할 수 있는 방법들을 알 수 있었다. 특히 마지막으로 설명된 방법은 현재 우리 연구실에서도 진행되고 있는 삼성 프로젝트의 데이터의 특성과 동일하였다. 따라서 더욱 흥미롭게 들을 수 있었다.

[2차원 CNN 적용을 위한 다변량 시계열 데이터 이미지화, 박봉준,조성준,서울대학교 산업공학과 데이터마이닝 연구실]

본 발표는 다변량 시계열 데이터는 시간 선후 관계에서 상관관계는 크나, 시계열 데이터 간에는 상관관계가 낮음을 특징이 있음을 보이고 해당 데이터에 CNN을 적용하기 전 전처리, 이미지화에 최적화 기반 시계열 데이터 재배치를 수행하였다. 본 연구를 한 이유에 대해 1d convolution이 아닌 2d convolution filter를 사용을 하기위해서라고 설명하였는대, 기존에 이미 2d convolution을 사용하기 위해 이미지의 RGB채널처럼 시계열 데이터를 쌓아서 이미지화하는 경우가 많기때문에 연구의 필요성이 수정되어할 필요성을 느꼈다. 하지만 다변량 시계열 데이터의 시계열 간 상관관계를 높이도록 재배치를 하기위해 이를 완전 그래프로 변환하고 최소비용 경로탐색 최적화문제로 변경하여 푸는 큰 매커니즘은 신선하게 생각되었다.

[최소에러를 활용한 오토인코더 가중치 학습, 김명준, 신현정, 아주대학교 산업공학과]

SAS 논문경진대회에서 상을 받은 발표 가운데 하나로 Autoencoder를 학습할때 디코딩 모델의 weight를 인코딩 모델의 weight의 의사역행렬로 바꾸어 학습하는 아이디어를 제시하였다. 실험은 1개의 hidden layer와 linear activation을 갖는 Fully connected layer로 구성된 Autoencoder에 대해서 진행하였으며 기존의 MSE값보다 작은 값을 보임을 실험으로 보여주었다. 디코딩 모델의 가중치가 인코딩 모델의 가중치의 역행렬이 되어야 MSE가 0이 될 수 있지만 Weight matrix의 역행렬을 구하기 위해서 많은 제약이 필요하다. 따라서 이를 의사역행렬로 바꾸어 학습한다는 점에서 최적 근사를 도출할 수 있다고 하였다. 실험결과로 현재는 MSE가 작아짐을 보임으로 Reconstruction이 잘됨을 보였다고 할 수 있다. 하지만 embedding된 feature가 더 효과적으로 학습되었음도 보여주었으면 어떠했을까 생각이 들었다.

이 발표 말고도 Wasserstein Distance를 이용한 하이퍼파라미터 학습이라는 주제로 같은 연구실의 발표도 있었다. 이론적으로 딥러닝 모델 학습 쪽으로 해당 연구실에서 많은 고민과 연구를 하는 것 같아 다음 학회때에도 해당 연구실에서 어떤 연구와 발표가 진행되는지 살펴보고 싶어졌다. 설상훈 교수님 컴퓨터비전수업을 듣고 이전에 wasserstein distance활용하여 autoencoder를 학습하면 어떠할지 생각만 해보고 더 깊게 실험이나 공부하지 않았었는대 이에 대해서도 한번 더 깊게 고민하고 살펴보아야 될 것 같다.

[예측 알고리즘 프로핏을 활용한 CDN 환경에서의 콘텐츠 캐싱 기법 연구, 양우식, 김동화, 김형석, 송서하, 강필성, 고려대학교 산업경영공학과]

콘텐츠 캐식 최적화를 통해 hit rate를 높이기 위해서 콘텐츠의 view count를 예측하여 캐싱하는데 사용한 연구였다. view count 예측은 단순 univariate 시계열 데이터 예측으로 접근하여 regression으로 문제를 푼 이후에 hot(상위 5%)/cold(나머지)로 이진 분류하는 방법론을 사용하였다. 이때 단순이동평균법과 PROPHET이라는 모델에서 나온 예측 값을 단순 평균내어 예측하였는대 PROPHET이라는 방법은 베이지안 이론 기반 곡선 접합 방식으로 페이스북에서 만든 모델이라고 한다. ETRI와 진행하는 프로젝트에서 범죄 건수 예측에 이를 활용해서 결과를 살펴봐야겠다고 생각이 들었다.

Conference