고려대학교 DMQA 연구실

2015 Data Grand Conference - 이상민

2015년 10월 25일 오후 1:12
조회수: 1690

Reviewed by

이상민

10월23일 데이터산업진흥회와 미래창조과학부 주체로 개최되는 데이터 그랜드 컨퍼런스가 코엑스에서 개최되었다.

참가자의 정확한 수를 헤아릴 수는 없었지만, 약 2,500명에 가까운 인파가 몰릴 정도로 현장의 분위기는 뜨거웠다.

데이터 관련된 국내외 다양한 업체들이 참가했던 만큼 다양한 분석사례를 포함하여 현업의 에로사항을 들을 수 있는 기회가 될 수 있기를 바랬다.

실제 일부 세션에서 실무관점의 어려운 점들을 토로하는 내용을 들을 수 있었다. 하지만, 대다수의 세션이 자사 제품의 홍보를 위한 시간으로 할애하였다는 점은 아쉬울 수 밖에 없었다. 참가의 의미를 찾을 수 있었던 몇 가지 아이디어가 있어 함께 공유코자 한다.

1. Best session

금일 가장 즐겁고 의미있게 들을 수 있었던 세션은 카카오택시와 데이터분석에 관한 세션이었다. 누구나 공감하리라 생각하고, 또 주최 측에서도 마지막 세션에 넣어둔 배려 아니 배려가 있을 것이라 생각한다. 금일 세션 중 어렵고 난해한 IT 용어를 사용하지 않고 오직 데이터(domain)에 대해서 발표했던 세션은 없었다. IT산업이 기존 서비스산업에 진출하고자 얼마나 체계적으로 분석하고 노력하고 있는지를 보여준 또 하나의 사례라고 생각한다.

내가 대학생이었던 15년전 e비즈니스는 라는 말이 유행한 적이 있다. 누구나 큰 밑천없이 단순한 생각을 가지고 쉽게 창업하고 다양한 채널을 통하여 무한대의 가능성을 가지고 사업화 할 수 있다며, 많은 사람들을 창업 경쟁에 뛰어들었던 시기였다. 물론, 이러한 열풍의 순기능으로 기존 굴뚝, 서비스 산업이 새로운 산업화의 변화 속에서 뒤쳐질 수 있다는 물음표을 던져줌으로써, 국제화 시대에 뒤쳐지지 않는 기업 경쟁성을 확보하고 시장을 선진화 시키는데 크게 이바지하기도 했다. 하지만, 많은 사람들이 인터넷 쇼핑몰 정도의 개념으로 치부했던 선례는 웃을 수 없는 자화상의 하나인 듯 하다.

본론으로 돌아와서, 기존 비스니스(사업성+전략)에 대한 충실한 이해와 인내심, 그리고 획기적인 기술력을 바탕으로 하였을 때 그 빛을 볼 수 있는데, 카카오택시는 그에 가장 걸맞는 사례였다고 생각한다. 카카오택시의 사업의 담당자의 얘기는 오직 국내 택시산업의 위치와 문제점, 각 이해관계자의 요구사항(택시기사, 손님)에 대해 집요하게 (데이터로) 분석에 관한 내용으로 채워져 있었다. 카카오택시가 첨단 IT기술이 있어서 성공한 것이 아니라, 사업화 성공요건을 어떻게 맞추었는지가 그 중요한 핵심이었다. 예를 들어, 손님의 요청으로 인근의 택시와 손님을 matching시켜줄 때는 택시의 진행방향까지 고려하여 본다는 점(shortest path in the directed network), 둘째 손님의 평가가 지속적으로 좋은 택시에게 우선순위(priority)를 주고자 타 택시 대비 먼저 손님알림(asisgn)을 한다는 점(Job Assign Rule), 출퇴근 시간대 수도권의 각 지역별 편차를 고려하여 택시의 배차를 분산하는 방향으로 고려한다는 점 (Load Balancing) 등 다양한 관점에서 사업 요구사항을 충족시키고자 노력하고 있었다. 모든 문제를 한번에 다 풀 수 는 없지만, 기존 콜택시가 가지고 있었던 불투명한 운영방식과 심야 탑승 시의 승객안전 요건 불인식 등 콜택시 시장의 niche를 제대로 분석한 부분은 큰 의미를 부여해야 한다. 할 수만 있다면 카카오에게 '참 잘했어요' 별을 날려주고 싶다.

2. 기업들의 고민

컨퍼런스 도중 관심을 갖게 된 몇가지 사례에 대해서 소개한다.

1) 실시간 분석서버의 기본요건

현재 Database 솔루션 업계가 주목하고 있는 기술 중에는 flash 기반 in-memory DBMS와 대용량 데이터 분산처리, 실시간처리 등이 포함되어 있다. Oracle, IBM, SAP, Microsoft 등과 같은 대표적인 IT업체들도 새로운 데이터 저장 시장을 열고자, '쌓아놓고 보기에는 데이터가 너무 많다! 의미있는 데이터만 저장하자'는 기조 하에 실시간 분석버서 솔루션들을 라인업하고 있다.

실시간 분석서버의 핵심요건은 무엇일까. 대표적으로 Splunk나 apache storm 과 같은 솔루션이 있다. 이번 컨퍼런스에 참가한 몇몇 업체들도 빠른 인덱싱을 통해 데이터를 filtering하고 변경점을 추출/변환/저장하는 솔루션에 대해 소개하였다.

부스에서 만나게 된 다양한 분들에게 내 질문은, 1) 실시간 분석서버의 주요요소는 무엇인가. 2) 현업의 복잡한 로직을 rule화 시켜서 필요한 데이터만 저장시켜줄 수 있는가. (change-point detection logic을 사용자가 modeling하고 deploy 가능한가)

2) 비정형 SQL 사전 성능 검사

난 SQL 전문가는 아니며 회사에서 내 역할이 DBA는 더더욱 아니다. 하지만, Database에 직접 인터페이스 하는 application 개발자라면 누구나, 별 것 아닌 특정쿼리 하나가 Database를 포함한 Database와 엮어져 있는 모든 시스템을 파괴할 수 있다는 점에 대해 잘 이해해야 한다고 생각한다. 이러한 사유로, 회사마다 실운영 DB에 대한 쿼리를 관리토록 하는 규정이 있지만, 개별 SQL에 대해서 사전 성능점검(Pre-Check)할 수 있는 기능이 있다면 무척에나 좋은 아이디어가 될 것이다. 이러한 아이템에 대해서 얘기로만 듣고 있던 터라 궁금해 했었는데, 참가업체 중 이러한 솔루션에 대해서 소개하는 부스가 있어서 자세한 설명을 들을 수 있어 좋았다. (아직 많은 부분에서 진일보 할 수 있는 여지가 남아 있는 듯 하다. 역시 아직까지는 SQL 작성자를 잘 교육시키는 방법이 최선인 듯 한다.)

3) 데이터 모델링 툴과 정규화 과정의 편리성, 그리고 쿼리 옵티마이져 신뢰성

이번 컨퍼런스에서 부스를 셋업한 업체 중 상당수가 데이터 모델링 툴과 관련되어 있었다. 대표적으로 Toad를 포함한 기타 외산 브랜드와 국산 브랜드인 Orange 까지 다양한 업체가 참여하여 관련 시장의 열기를 확인할 수 있었다. 한번 자신에게 익숙해진 도구가 있는 경우 쉽게 바꾸기 힘들게 되는데, 대표적으로 Toad가 그러했다. 당시에는 요즘과 같이 presentation layer 와 db interface layer 영역이 decoupling 되어 있지도 않아서 한반 데이터 스키마를 바꾸면 난리법석을 떨어야 했었는데, toad와 있으면 그 작업을 그나마 수월하게 했던 기억이 있다. 최근에는 모델링 툴이 크게 진화한 듯 하여 몇 가지 특징들을 소개 받을 수 있었는데, 특히 쿼리튜닝 기능에 대해서 재미있게 들을 수 있었다.

3. 총평

데이터 그랜드 컨퍼런스는 기업들이 주도하는 세션으로 구성되어 있고, 많은 사람들의 기대치는 현실문제에 초점이 맞춰져 있다고 본다. 이 분들에게 의미있는 시간을 만들기 위해서는, 현업의 IT개발자, 운영자들의 가려운 곳을 잘 긁어주는 사례나 제품을 소개하거나 기존에 잘 접하지 못했던 새로운 분야에 대해 소개하는 두 가지 방식이 있다. 끊임없이 현란한 IT용어들을 선보이며 빅데이터에 적합한 어떤 알고리즘 기법을 가지고 분석하고, 기업솔루션에는 어떠한 프레임워크가 있다는 식의 컨퍼런스는 지양해야 한다. 만약 그러한 컨퍼런스가 필요하다면 판을 더 키워서 기업 생태계의 다양성을 선보일 수 있는 박람회를 만들어야 한다. 기업부스 공간에 K 국가지정연구원이 자리를 차지하고 있을 필요는 없고, 전체 부스 10여개 중 데이터 모델러 회사가 30%나 된다는 것은 의문을 던질 수 밖에 없다.