고려대학교 DMQA 연구실

2018 INFORMS International - 이한규

2018년 6월 25일 오후 3:28
조회수: 994

Reviewed by

이한규

해회 학회에 참여한다는 것은 그동안 연구한것을 발표하고 공유할 수 있다는 점에서도 좋은 경험이라고 생각한다. 더불어 매번 국내에서 열리는 학회보다는 전세계적으로 나와 같은 분야를 연구하고 있는 많은 연구자들이 어떤 연구를 어떻게 하고 있는지를 파악할 수 있는 좋은 기회이기도 하다. 그로인해 연구에 대한 동기부여 측면에서 좋은 경험이라 생각한다.

이번에 참석한 2018 INFORMS international은 대만에서 나흘동안 열렸다. Informs라고 하면 산업공학분야에서 열리는 가장 큰 학회로써, 특히 OR 부분을 메인으로 한 다양한 연구가 발표 된다고 알고 있었다. 학회 규모는 하루에 3개~4개의 세션에서 각 세션별로 평균 20개의 발표가 동시에 진행될 정도로 상당히 컸다. 덕분에 학회기간동안 원하는 발표를 듣기위해 convention center의 1,2층을 왔다갔다 했었다.

Informs의 대부분의 발표가 supply chain / logistic / health care 부분에 집중하여 이뤄지고 있었던 반면, 순수한 데이터 분석 방법론에 관련한 연구는 상대적으록 그 수가 적었다. 따라서 새로운 알고리즘에 대해 배워간다기 보다는 다양한 산업군에서 발생한 실제 문제를 기계학습 및 통계기반으로 어떻게 풀어나갔는지를 알 수 있었다. 특히 개인적으로 health care 부분은 우리나라도 그 필요성이 나날이 증가한다고 생각한다. 따라서 이번 학회에서는 health care부분의 세션을 집중적으로 어떤 문제를 어떤 방식으로 풀어나갔는지를 집중적으로 보았다.

[발표 후기]

Generative adversarial network를 활용해 sequence oversampling 방법을 제안하는 연구를 발표했다. 최근 센서데이터등의 발전으로인해 다양한 센서 데이터가 실시간으로 측정되고 있다. 그리고 이러한 sequence 데이터를 활용하여 이상 패턴 탐지와 같은 다양한 분석을 수행한다. 예를 들어, 장비의 부착된 센서에서 오는 데이터를 분석하여 이상과 정상을 분류하는 분류모델을 구축할 수 있다. 이러한 상황에서 정상 시그널은 많은 반면, 이상시그널은 그 수가 상대적으로 매우 적다. 그렇기 때문에 클래스 불균형과 같은 문제가 발생하게 된다. 클래스 불균형 문제를 풀기위해서는 크게 sampling과 같이 임의의 샘플을 만들어서 클래스의 균형을 맞추는 방법과 알고리즘 자체에 변화를 주어 소수패턴을 잘 분류할 수 있도록 한다. 그러나 기존에 제안된 다양한 방법은 단순 multivariate 데이터에 적절한 oversampling 방법으로써, sequence 데이터와 같이 복잡한 형태의 데이터에 적절한 oversampling 기법이 필요하다. 본 연구에서는 multimodality를 갖는 time series의 oversampling을 위해 generative model에 한종류인 GAN을 사용한 oversampling 방법을 제안한다. GAN은 image분야에서 새로운 이미지를 생성하는 방법의 하나로써, 2014년 제안된 이후 다양한 형태의 GAN 모델이 제안되었다. multimodality의 특성을 갖는 데이터에서 적절한 샘플을 생성하기 위해 categorical GAN의 구조를 차용하였으며, borderline 지역의 샘플을 생성하기 위해 information label이라는 추가적인 정보를 데이터에서 추출하고 이를 추가하여 생성되는 샘플이 true distribution을 따르되 의도적으로 borderline 지역에 샘플이 생성될 수 있도록 변형하였다. 제안방법을 여타의 다른 oversampling 기법과 비교하기위해 다양한 classifier를 통해 성능 검증을 하여고, 그 결과 다른 oversampling 기법에 비해 우수한 성능을 보임을 확인하였다.

발표주제가 자체가 multimodality를 띄고 있는 sequence oversampling 방법이기 때문에 일반적인 oversampling기법주에서도 매우 작은 부분을 차지 하고 있는 분야이다. 따라서 이를 설명하는데 있어서 어려움이 많았다. 또한 방법론 자체도 GAN의 많은 가지중에 특정 부분이기 때문에 방법론자체를 설명하는 것도 매우 어려운 부분이었다. 핵심적인 내용만을 추려 발표를 진행했다고 생각했는데 막상 발표를 진행하면서 이야기를 풀어나가기에 어려운 부분이 있었던것 같다. 어떻게 해야 현재 연구하고 있는 부분에 대해 좀더 쉽고, 명확하게 설명해야 할지 어떤식으로 논리를 풀어가야할 지에 대해서는 좀더 고민해야할 것같다.

[청취 후기]

1. Predicting Health Condition and Disease Occurrences using EHR data

본 연구는 deep learning을 활용하여 질병의 유무를 예측하는 연구였다. 우리가 일반적으로 데이터를 통해 분류모델을 구축하고 예측을 수행한다는 점에서 생각했던 것과 그 궤가 동일하다. 본 발표에서 끌렸던 점은 바로 EHR data를 활용한다는 측면에서다. EHR는 Electronic Health Record의 약자로써, 전자건강기록 데이터이다. 환자가 1회 진료를 받을때마다 질병의 종류/진료 의사/최종 진료일/진료 과목 등 환자의 진료에 관한 모든 정보를 다 포함한다고 볼 수 있다. 우리나라의 심사평가원데이터와 동일한것 같다. 특히 예전에 심평원 데이터를 분석해본 경험과 빗대어 봤을때, 훨씬더 퀄리티가 높은 데이터라 생각한다. 본 연구에서는 EHR 데이터를 사용하여 target 질병에 대해 classification을 수행한 연구로 아쉬운 점은 아무리 전자기록된 데이터라 하더라고 사람의 특징이 녹아있을 텐데 어떻게 전처리를 해서 Input data로써 활용을 했는지, 각 컬럼별로 특징이 있을텐데 어떤식으로 녹여 사용했는지에 대한 자세한 설명이 없어 아쉬웠다.

2. AI Chatbots for Conversational Commerce in Finance

최근 AI가 떠오르면서 Chatbot 또한 각광 받고 있다고 생각한다. 개인적으로는 Chatbot이라는 것이 쓸수 있다고 하더라도 어느정도 까지 쓰일수 있을까? 라고 생각했을때 자동화된 고객상담정도로 쓰이지 않을까? 라는 회의적인 생각을 했었다. 본 연구는 그 생각을 깬 연구라고 생각한다. 이번 연구는 Chatbot을 금융기술을 접목시켜, 컴퓨터와 인간간에 상거래가 가능한 형태의 chatbot이었다. 단순히 말해서 하나의 대화방(카카오톡/라인)에서 특정 상품에 대해 이야기를 하면 장/단점을 알려주고 가격은 물론이고 사용자가 필요한 적절한 정보를 리스트업 해준다. 그리고 그 정보를 하나의 완벽한 문장으로써 생성하여 이야기 하듯이 출력이 된다는 상당히 흥미로운 연구였다. 기존의 ChatBot은 사람의 문장을 인식하는 모듈이 대부분 이었는데 본 연구에서 제안된 Chatbot은 문장을 인식하는 모듈과 더불어 현재 상거래시 필요한 비정형/정형 정보를 분석하는 모듈이 하나 더 붙어있어며 대화모듈과 정보분석 모듈이 적절히 조화를 이뤄 하나의 문장을 생성하는 모듈로 구성되어있었다. 본 연구를 들으면서 이런식으로 Chatbot을 확장해나갈 뿐만 아니라 더 다양하게 이용할 수 있겠구나라는 생각을 하게 되었다. 아쉬운점은 발표자가 과거 몇년에 걸쳐 개발된 본 ChatBot의 이전 버전 설명에 너무 많은 시간을 할애한 관계로 현재 최신버전의 ChatBot에 세부적인 설명(각 모듈별 사용 데이터 및 모델)이 없었다는 점은 아쉬운 점이라 생각된다.

Conference