고려대학교 DMQA 연구실

2017 INFORMS Conference - 김성범 교수님

2017년 10월 29일 오후 7:21
조회수: 1687

Reviewed by

김성범 교수님

올해 INFORMS는 미국 텍사스 휴스턴에서 열렸다. 참가인원만 5000명이 넘은 대규모 학회였지만 조직위의 깔끔한 운영과 장소의 적절함이 돋보인 학회였다. 공교롭게 미국 메이저리그 Houston Astros 팀이 월드시리즈에 진출해 학회 기간 내내 도시 전체가 축제 분위기였다.

1. 지난 KDD에서 최대 후원업체였던 중국계 물류애널리틱스 기업인 DiDi가 이번 학회에서도 최대 후원업체로 참가했다. 애널리틱스 분야에서 가장 빠르게 성장하고 있는 기업 중 하나인 DiDi가 후원했다는 것은 INFORMS가 데이터 사이언스/애널리틱스의 분야의 대표적인 학회 중 하나로 자리매김하고 있다는 증거다.

2. 키노트 중에서 가장 인상 깊었던 발표는 우버에서 데이터 사이언스 책임자로 있는 Robert Philips의 “How Analytics Powers the Uber Market Place”라는 주제의 발표였다. 나 역시 재작년 연구년 때 우버를 자주 이용하였기 때문에 전반적인 시스템은 파악하고 있었으나 세세한 의사결정이 모두 데이터 분석에 의해 과학적으로 결정되고 있음에 놀랐다. 랜덤포레스트나 딥러닝과 같은 구체적인 머신러닝 기법이 실시간 수요예측과 자동차-손님 매칭 문제에 실제 적용되고 있었다. 특히, 우버에서 연구하고 있는 이벤트(비정기적으로 수요가 크게 발생하는 사건)를 고려한 수요예측은 우리 연구실에서도 고민하는 주제이기도 하다.

3. 다음으로 인상 깊었던 키노트는 Rice 대학교 Rich Baraniuk교수가 발표한 “A Probabilistic Theory of Deep Learning”이었다. Deep Learning 기법이 어떤 필요 때문에 나오게 되었는지에 대한 역사적인 흐름과 Deep Learning 모델의 주요 요소 (Convolution, Rectifier, Pooling)를 적절한 예를 통해 설명한 튜토리얼 형식의 발표였다. 시그널 프로세싱의 대가인 스탠퍼드 대학의 David Donoho 교수의 사진을 중간중간 인용하는 센스도 보여 주었다. 특히, 요즘 미국 트럼프 대통령의 트윗 정치를 풍자하여 딥러닝 구조를 Step 별 140자 이내로 설명한 것은 청중들의 집중을 유도하는 데 효과적이었다 (나도 한번 해 봐야지..). 확실히 이해할 수 있어야 간단히 요약할 수 있는데 역시 이 분야 대가다웠고 TED Talk 출신답게 발표력 또한 최고였다. Graphical Model인 Deep Rendering Model도 흥미로웠으며 공부를 좀 더 해 봐야겠다.

4. 데이터마이닝, 통계분석, 품질/신뢰성 분야에서는 다변량 시그널 데이터에 대한 분석과 응용 연구가 주를 이루었다. 영어로는 다음과 같이 다양하게 표현되고 있다. Multivariate/Multichannel Signal Data, Multivariate/Multichannel Sensor Data, Multivariate/Multichannel IoT Data, Multivariate/Multichannel Time-Series Data, Multivariate/Multichannel Functional Data. 현재 우리 연구실에서 집중하고 있는 (1) 반도체 장비의 건강도를 알 수 있는 센서 데이터 분석, (2) 자동차 운행 및 고장상태를 파악할 수 있는 센서 데이터 분석, (3) 중장비 가동상태를 진단하고 고장을 예지하는 센서 데이터 분석, (4) 뇌파를 이용하여 질병 상태와 인지 상태를 예측할 있는 EEG 시스널 데이터 분석 등이 이에 해당한다. 이 분야는 Signal Processing, Feature Extraction, Change Point Detection, Window Size Determination, Graph Theory, Monitoring Technique, Deep Learning, Clustering, Classification 등의 다양한 방법론을 총망라해야 해결할 수 있는 매우 도전적인 문제다. 이 밖에도 최근 필요성이 대두되고 있는 Active Learning, Transfer Learning, Multitask Learning에 대한 발표도 있었다. Deep Learning은 작년 학회보다는 발표 수가 획기적으로 늘었지만, 이론적인 문제를 다룬다기보다는 Deep Learning을 이용한 활용문제가 대부분이었다.

5. 작년과 마찬가지로 관심을 가지고 들었던 주제는 IP (or MIP)를 이용한 머신러닝 문제 포뮬레이션이다. 우리 연구실에서도 꾸준히 집중하고 있는 분야이다. 이 분야는 MIT Bertsimas 연구팀이 선두인데 지난 일 년 동안에도 새로운 결과가 꽤 쏟아져 나왔다 (부럽다…). 이 분야의 핵심은 다음과 같다. 여러 가지 머신러닝 알고리즘을 IP 혹은 MIP문제로 정의할 수 있는데 대부분이 NP-hard한 문제다. NP-hard한 문제는 전통적인 최적화 기법으로는 풀기가 어렵고 풀더라도 작은 사이즈문제 (현실과는 동떨어진)만을 풀 수 있다. 현재 대부분의 머신러닝 알고리즘은 최적화를 해결하는 데 있어 그리 효율적이지 않은 휴리스틱 기법을 사용하고 있는데 이는 대용량의 현실 데이터를 분석하기 위해서는 어쩔 수 없는 선택이다. 결국 Bertsimas 연구팀과 우리 연구팀이 해결하려는 문제의 핵심은 머신러닝 알고리즘을 최적화로 (특히, IP or MIP) 포뮬레이션한 후 대용량의 현실데이터 (Scalability)를 빠른 시간 안에 해결할 수 있도록 최적화 알고리즘을 개발하거나 최적은 아니지만 그래도 최적에 가까운 해를 찾을 수 있는 획기적인 휴리스틱 알고리즘을 개발하는 것이다. 물론 효율적인 컴퓨팅 기법 (분산처리 등등)도 동반되어야 한다.

6. 응용 분야는 압도적으로 헬스케어 쪽이다. 이 분야에 대형 연구과제가 집중되고 따라서 엄청난 펀딩이 몰려 있다. 올해 말 우리 연구실에서 박사학위를 받는 학생 중 한 명이 New York University Medical School로 포닥을 가는데 이 역시 현재의 연구 트렌드를 보여주고 있다. 우리나라에도 헬스케어 분야 데이터 애널리틱스가 중요시 여겨지고 있지만 아직은 걸음마 단계다. 3D 프린팅 쪽에서도 발표가 작년에 비해 꽤 증가하였다 (3D 프린팅 분야도 조만간 도전해 볼 계획이다).

7. 우리 연구실에서는 학회가 끝나면 보통 하루 정도 시간을 갖고 해당 지역 대학을 탐방한다. 짧은 시간이지만 도서관에 앉아 있어 보기도 하고 학생식당에서 식사도 하면서 잠시나마 해당 학교 학생으로 변신해 본다. 이번 학회가 열린 휴스턴에도 많은 대학이 있지만, 이 중 University of Houston (주립)과 Rice University (사립)를 방문하였다. 두 대학 모두 자연 친화적인 아름다운 캠퍼스를 보유하고 있었다. 특히, 남부의 Harvard라고 불리는 Rice대학은 기대 이상으로 아름다웠는데 연한 황토색의 건물과 초록색의 자연, 그리고 잔잔한 햇볕이 어울려 한편의 수채화를 연상케 하였다. 건물 전체가 통유리인 곳이 두 군데 있었는데 학생들이 밝은 햇볕을 사방에서 받으며 공부하는 모습이 인상적이었다. 고려대학교에도 이런 건물이 있으면 얼마나 학생들이 좋아할까?

8. 이번 학회 동안 미국에 거주하고 있는 그리운 옛 벗들을 만나 수다를 떨 수 있어 좋았고 한국에서 서로 바빠 만나기 어려웠던 사람들도 여유를 가지고 볼 수 있어 좋았다. 나이가 들어서 그런지 시차 적응이 힘들어 몸은 지칠 대로 지쳐있고 이제 돌아가면 할 일이 태산이지만 그래도 좋은 추억을 듬뿍 만들어가니 괜찮다.