고려대학교 DMQA 연구실

2018 한국데이터마이닝학회 추계학술대회 - 강현규

2018년 12월 3일 오후 7:40
조회수: 964

Reviewed by

강현규

[학회후기]

2018
한국데이터마이닝학회 추계학술대회에 참석하여 DMQA Lab 선배 연구원들과 타 연구실에서
머신러닝과 딥러닝을 활용한 다양한 연구에 대하여 들을 수 있었다. 뿐만 아니라
POSTECH 전치혁 교수님께서 초청강연의 연사로 참석하여 변수선택과 예측이라는 주제로 연구를 소개해주셨다. Data Science 분야에 대하여 갖춘 역량은 학부수준의 통계학 지식과 회사에서의 1년간의 경험뿐이라 연구 내용에 대하여 하나하나 깊게 이해하기는 어려웠지만, 다양한
분야에 대하여 Data Science 관련 연구가 진행되고 있어 흥미롭게 들을 수 있었다. 뿐만 아니라 연구실 입학 이후 연구원으로서 어떤 마음가짐으로 임해야 할 지에 대하여 많은 생각을 했다.

생각을 하면서 가장 깊게 깨달은 점은 수동적인 마인드를 버리고 능동적인 연구자세를 갖는 것이다. 초, 중, 고등학교뿐만
아니라 학부를 졸업할 때까지 주어진 학습 내용을 곧이곧대로 받아드리는 것이 너무 익숙해졌다. 회사에서도
조직 문화 특성 상 어느 순간부터 주도적으로 일을 하게 되기 보다는 시키는 대로만 하게 되고 why나 how보다는 so what에만 집중하여 업무를 하게 되었었다. 하지만 연구는 그렇게 하는 것이 아니라는 것을 이번 학회를 통해 배울 수 있었다. 성능이 좋다고 잘 알려진 모델에서도 개선의 여지를 찾고, 새로운
분야에도 과감하게 도전해볼 수 있어야 한다는 것을 배웠다.

다음으로는 오픈 마인드를 갖는 것이다. 머신러닝과 딥러닝은 생각했었던
것보다 훨씬 다양한 분야에서 연구가 되고 있었다. 이전에 접해봤던 데이터는 정형데이터 이외에 텍스트와
이미지 정도 뿐이였지만, 스타크래프트 리플레이 데이터, 수면
센서 데이터, 위성 레이더 데이터 등을 활용한 연구 같이 접해보지 않은 영역의 연구가 더 재미있었다. 석사 과정에서 이미지와 텍스트 분석 정도만 잘 해도 성공일 것이라고 생각했던 안일한 마음가짐을 버리고 좀 더
다양한 분야에 관심을 두어야겠다는 생각을 했다.

이외에도 프레젠테이션 능력의 중요성, 프로그래밍과 최적화 등 부족한
부분에 대한 학습의 필요성 등등 많은 것을 보고 느끼고 배웠다. 별개로 DMQA 선배 연구원분들의 연구 내용와 발표의 퀄리티에 감탄했다. ‘나도
이렇게 잘 할수 있을까?’ 라는 걱정과 ‘이런 분들 아래에서
많이 배울 수 있겠구나’라는 기대 두 가지 생각이 교차했다. 자극을
많이 받을 수 있어 좋았고 이런 생각들을 할 수 있게끔 좋은 기회를 주신 교수님과 발표를 열심히 준비해주신 연구실 선배님들께 감사했던 하루였다.

[청취후기]

1. 초청강연 : 변수선택과
예측

POSTECH 전치혁 교수님의 초청강연이였다. 변수선택과 예측, 특히
Missing value imputation, High-Dimensional data / Mixed data analysis는 통계학과에서
아주 중요한 연구분야인데 산업공학과에서도 연구주제로 깊게 다루는 것이 흥미로웠다. 학부 재학 시 Unlabeled data의 경우 데이터의 왜곡 여지가 있어 깊게 생각해보지 않고 제외하는 경우가 많았고, Imputation도 대게 빈측값, 평균값 혹은 인접 데이터의 관측치로
대체하거나 시계열데이터의 경우 보간법으로 처리하는 방식만을 알고 있었는데 Semi-Supervised Learn
등을 활용한 연구를 소개해주셔서 감사했다.

변수 선택이라고 하면 통계학과에서 배웠던 backward/forward/stepwise
selection, AIC/BIC등의 지표를 통한 모델 비교, 혹은 주성분 분석을 통한
주요변수 선택 등을 생각했는데 산업공학에서는 data 특성에 따른
classification/prediction 문제에 어떻게 접근할 것인지 연구를 하고 있어서 이후 연구를 진행할 때 데이터 전처리나
변수 선택에 대해서 신중하게 접근해야겠다는 생각이 들었다. 연구 내용이 어려워서 깊게 이해하지는 못했지만, 변수 선택에 있어 ranking 개념을 활용한 변수선택 방법이 특히
흥미로웠다.

2. 수면 상태 시퀀스 기반 쾌면 지수 산정 방법론.

의학 데이터를 분석하는데 있어 기존에는 생존분석이나 실험계획법 등 클래식한 통계 이론이 중요했었다면 최근에는
머신러닝, 딥러닝 등을 활용한 스마트헬스케어 연구가 더 각광받고 있다.
위 연구는 수면 센서 데이터를 수면 패턴과 깊이에 따라 등급을 나누고 scoring시 극단적인
값이 나타나는 것을 방지하기 위해 LDA를 활용하여 수면의 질을 계량화하였다. 수면 센서 데이터는 자체가 깊이, 길이, 패턴 등에 따라 다양한 형태를 보이는데 이를 머신러닝 기법을 활용해서 분석을 한다는 것이 흥미로웠다. Logistic Regression이나 CNN등 잘 알려진 모델을
가지고 추정한 지수가 overfitting되는 문제가 있어 새롭게
LDA라는 개념을 활용해 더 나은 지표를 연구한다는 점에서 의의가 있다고 생각했다. 추후
연구로 온도나 취침시간 등의 수면 환경 데이터, 나이나 성별 등의 피험자 프로필 데이터를 결합하여 연구를
할 수 있다면 보다 나은 성능의 지수를 개발할 수 있지 않을까 라는 기대가 되었다.

3. 합성곱 오토인코더를 활용한 스타크래프트 내 미확인 정보
추정

스타크래프트 광팬이기 때문에 가장 궁금했고 그만큼 흥미로웠던 연구였다. AI가
바둑에 비해 스타크래프트 같은 전략시뮬레이션에서 개발하기 어려운 것은 전장의 안개 문제 때문이다. 스타크래프트에서는
상대방의 병력 보유 수, 자원 현황, 빌드오더에 대한 정보
등을 파악하고 그에 대응하는 전략을 세우는 것이 중요한데 이러한 정보를 실시간으로 확인할 수 없어 만약 일부 정보만을 가지고 미확인 정보를 추정하는
위 연구가 성공적인 성능을 보인다면 스타크래프트AI가 보다 사람에 더 가까워질 수 있을 것이다. 연구는 정찰을 통해 발견한 상대방에 대한 아주 일부만의 데이터를 합성곱 오토인코더 모델을 활용하여 상대방의
유닛들의 수와 위치를 추정하게 방법을 제안한다

스타크래프트 유닛은 종류도 다양하고 맵도 넓기 때문에 전수를 정찰하기 어렵다. 그렇기 때문에 오히려 핵심 건물의 수를 파악하는 것이 더 중요하다. 건물의 수만 잘 파악해도 빌드오더나
유닛 수에 대한 계산이 서기 때문이다. 상대방의 확장기지 수나 게이트웨이/배럭/팩토리/해처리 같은
생산기지 수는 전투 타이밍을 계산하는 중요한 요인이기 때문에 기지 수를 추정하는 연구가 더 고도화 되면 AI 성능이
훨씬 좋아질 수 있을 것이라고 본다.

Conference