고려대학교 DMQA 연구실

R user conference in korea 2014 - 박영준

2014년 6월 2일 오후 2:46
조회수: 1616

Reviewed by

박영준

R User Conference in Korea 2014에서 열린
세션은 크게 R을 이용한 데이터 분석 사례와 대량의 데이터 처리를 위한 R의 효율성 향상 두 가지 주제로 요약할 수 있을 것 같다. 오전에
열렸던 세션에서는 주로 R을 관리하는 CRAN에 소속된 연사들이
R 사용의 장점에 대해 발표하였는데, R 말고 다른 분석
툴을 고민하지 않은 나로써는 그리 관심 가지 않는 발표였다. 오후에는 4개 트랙에서 각각 4개의 발표가 있었는데 이 중 내가 들은 4개의 발표에 대한 후기를 기술한다.

<통계분석을 위한 신호 전처리 (python)>

이 발표의 주제는 image 데이터로부터 변수를 추출해 내는 방법에
대한 튜토리얼 성격의 발표였다. 추출한 변수는 image의 mood를 분류하는 문제 혹은 image 분류 등에 사용할 수 있다. 문제의 formulation에 따라 추출하는 변수의 성격도 달라져야
하는데, 기본적으로 image의 특징을 담고 있는 low-level의 변수는 항상 사용하게 된다. 발표자는 이런 low-level 변수의 추출을 python의 scikit-image 패키지를 이용하여 쉽게 수행할 수 있다고 말한다. Image나
동영상이 세상에 존재하는 데이터의 총량 중 상당 부분을 차지하는 만큼, 이 영역의 분석도 앞으로 도전해
보고 싶은 주제중의 하나이다. 그런 점에서 image 전처리에
관한 본 발표는 유익했다.

데이터마이닝을 다룬 자리에서 국가수리과학 연구소의 연구자가 발표를 한 것은 처음 봤으며 가지고 온 주제도 위상수학을
이용한 데이터 분석 방법론에 대한 것으로 생소한 주제에 대한 발표였다. 그 만큼 호기심에 기대를 안고
집중하고 발표를 들었다. Topological data analysis (TDA)란 rawdata로부터 위상수학을 이용하여 shape을 만들어내고 그
의미를 해석하는 데이터 분석의 새로운 방법론이다. 특히 최근의 연구 사례로 네이처 자매지에 실린 연구내용을
간략히 소개하였는데 내용인즉슨, NBA 농구선수들에 대해 TDA를
이용하여 clustering을 수행하였는데, 잘하는 선수/못하는 선수/꾸준히 하는 선수 등을 구별해내는데 그치지 않고, 미래(1,2년 안에)에
올스타에 뽑힐 선수들도 군집화 되었다는 부분에서 흥미로운 결과를 내었다. 하지만 내가 이해한 바에 따르면
TDA의 방법론은 kernel을 이용하여 다른 어떤 공간에서
군집화를 하고 이를 해석하는 것과 크게 다르지 않은 것 같다. Kernel 사용에 따른 parameter dependency가 큰 분석결과는 분명 TDA의
한계점인 것 같다. 그럼에도 불구하고 기존에 사용되지 않았던 새로운 도구(위상수학)를 이용한 분석은 흥미로운 내용이었다.

이번 발표는 R 사용에 있어, 특히
대량의 데이터 분석을 수행하는데 있어 그 팁을 공유하는 자리였다. 학술적으로는 다소 우리의 관심과는
떨어져 있지만, R을 가지고 대량의 데이터를 처리하기 위해 밤을 지새운 적이 많았던 나로서는 관심이
가는 발표주제였다. 발표는 R 사용에 있어 사소한 에러를
야기하는 문제에 대한 해결부터 대량의 데이터를 어떤 도구를 이용하여 해결해야 하는지에 대한 주제로 구성되었다. 관련
자료는 발표자의 홈페이지 http://freesearch.pe.kr 을 통해 확인할 수 있다. 발표자는 실제로 SKT에 근무하며 메모리 300GB 서버를 이용하여 분석을 수행한다고 했는데, 이런 서버를 가지고
어떤 분석을 하는지도 궁금했다.

<랜덤포레스트를 활용한 다차원 시계열 예측: 아이디어와 산업계 응용 방안>

원래 이 시간에 내가 듣고 싶었던 발표는 spatiotemporal epidemiology
using R로 의학전문대학원소속의 연사가 발표를 하기로 했는데 취소되어 대안으로 들은 발표였다. 발표자는
리비전 컨설팅의 대표였다. 학술적으로 의미가 있는 주제도 아니었고, 획기적인
분석의 결과가 있지도 않았지만 컨설턴트답게 발표는 핵심만 강조하면서 참 잘 했던 것 같다. 결과적으로
요약하자면 빅데이터에서 가장 중요한 것은 value이며, value를
창출하기 위해 연구자들은 아이디어를 잘 내어야 한다는 내용이었다. 최근 빅데이터 시대라고 해서 유관
분야의 산업과 학계가 큰 관심을 받고 있는 동시에 곧 거품이 꺼질 것이라는 어두운 전망도 동시에 존재하는 요즘이다. 빅데이터에 대한 관심이 꺼지지 않기 위해선 발표자가 말한 대로 value를
얻을 수 있는 데이터 분석이 중요한 것 같다.