빅 데이터
- 2013년 3월 11일 오후 5:16
- 조회수: 2585
Written by
김성범 교수님

빅 데이터 (고려대학교 산업경영공학부 김성범)
요즘 다양한 매체를 통해 각광을 받고 있는 빅 데이터의 실체에 대해 물어보는 사람들이 많다. 나름 데로의 생각을 적어본다.
빅 데이터의 어원을 분석해 보면 형용사인 Big이 명사인 Data를 꾸며주는 형태로 되어있다. 즉, 전체적으로는 명사로 용어 자체로만 보면 어떤 행위를 나타낸다기 보다는 그냥 "대용량의 데이터"로 해석이 될 수 있는데 내재되어 있는 의미를 파악할 필요가 있다.
빅 데이터를 설명하기 위해서는 데이터마이닝의 등장배경부터 설명해야 한다. 1990년대 중후반부터 본격적으로 등장한 데이터마이닝은 대용량의 복잡한 데이터로부터 의미 있는 정보를 이끌어 내는 일련의 과정을 연구하는 학문이다. 데이터마이닝이 등장할 당시 데이터는 데이터 수집기기와 저장기술의 발달로 인해 기존에는 상상할 수 없는 방대한 양의 데이터가 쏟아져 나오고 있었다. 이런 방대한 양의 데이터 처리와 분석은 기존 방법으로는 해결하기 어려웠고 이를 위한 신기술들이 개발되었다. 이런 신기술들은 기존 데이터분석기법들과의 차별이 필요했고 이에 따라 데이터마이닝이라는 신 용어가 생겨나게 되었다.
이 후 15여 년간 데이터마이닝 방법론과 응용연구는 매우 활발히 진행되었고 통계학과, 산업공학과, 컴퓨터공학과 등을 중심으로 교육이 진행되었다. 2004년 2월에 시작된 페이스북을 중심으로 소위 소셜네트워트라고 불리는 서비스가 등장하였는데 이로부터 생성되는 데이터는 기존의 데이터와는 그 양과 복잡도 면에서 또 한번 기존의 데이터 처리 및 분석 기술의 한계를 가져왔다. 소셜네트워크 데이터는 사람들이 일상 생활에서 쓰는 대화체의 형태 (자연어)가 대부분이다. 이런 자연어는 현재 컴퓨터 기술로는 바로 인식하고 분석하기가 어렵고 따라서 컴퓨터가 이해할 수 있도록 처리를 해 주어야 하는데 이를 소위 자연어처리라고 부른다. 소셜네트워크 데이터는 그 양이 방대한데 전 세계적으로 페이스북 이용시간이 월 9000억분이라고 하니 이로부터 생성되는 데이터의 양은 가히 짐작할 수 없을 만큼 엄청날 것이다. 이런 엄청난 양의 데이터를 처리하고 분석하는 데는 기존의 처리기술로는 비현실적인 시간이 소요되었고 이를 해결하기 위한 기술의 개발로 이어졌다. 때마침 구글에서는 설립 초기부터 검색의 효율성을 높이기 위해 분산병렬처리기법을 사용하고 있었고 2004년 이에 대한 기술을 공개한다. 구글이 공개한 기법은 기존 분산처리기술 보다 훨씬 효율적이면서 사용하기도 쉬웠기 때문에 이를 이용한 기법들을 실제 프로그래밍화 하였고 그 결과 하둡이라는 오픈 서비스가 무료로 일반인들에게 공개가 되었다.
하둡을 이용함으로써 그 동안 처리시간문제로 현실 문제에서 사용이 제안되었던 여러 기법들이 세상에 재등장하였으며 방대한 양의 데이터로 인해 분석이 어려웠던 문제들도 해답을 구할 수 있게 되었다. 위에서 언급한 소셜네트워크 데이터 분석이 대표적이다.
바로 여기서 빅 데이터 용어의 탄생 시점을 볼 수 있다. 빅 데이터는 소셜네트워크 데이터를 필두로 기존 데이터분석 혹은 데이터마이닝 시절에 접할 수 없었던 대용량의 비정형 데이터의 처리 및 분석을 가능케 해주는 방법을 연구하는 학문이라고 보면 될 것 같다. 데이터마이닝이 좀더 데이터분석에 초점이 맞추어져 있었다면 빅 데이터는 데이터분석 보다는 데이터의 효율적인 저장과 처리기술에 좀 더 초점이 맞추어져 있다고 보면 무리가 없을 것 같다.
여기서 주의해야 할 점은 빅 데이터 역시 데이터로부터 유용한 정보를 찾아내는 것이 궁극적이 목적임으로 데이터 분석, 이로부터 얻어지는 결과의 리포팅 기술, 그리고 해석이 결코 경시되어서는 안 된다는 것이다.
앞으로 어떤 형태의 서비스가 세상에 나올지 아무도 모른다. 또한 데이터 수집기기의 발달은 계속 될 것이다. 따라서 빅 데이터라는 용어가 다른 용어로 대치될 날이 반드시 올 것으로 생각한다. 하지만 중요한 것은 앞으로도 데이터의 양은 계속적으로 증가하게 될 것이고 그 복잡도 역시 증가할 것임으로 용어와 관계없이 데이터마이닝 분야의 연구는 꼭 필요한 학문으로 자리 매김 할 것이다.
S.B.K.
요즘 다양한 매체를 통해 각광을 받고 있는 빅 데이터의 실체에 대해 물어보는 사람들이 많다. 나름 데로의 생각을 적어본다.
빅 데이터의 어원을 분석해 보면 형용사인 Big이 명사인 Data를 꾸며주는 형태로 되어있다. 즉, 전체적으로는 명사로 용어 자체로만 보면 어떤 행위를 나타낸다기 보다는 그냥 "대용량의 데이터"로 해석이 될 수 있는데 내재되어 있는 의미를 파악할 필요가 있다.
빅 데이터를 설명하기 위해서는 데이터마이닝의 등장배경부터 설명해야 한다. 1990년대 중후반부터 본격적으로 등장한 데이터마이닝은 대용량의 복잡한 데이터로부터 의미 있는 정보를 이끌어 내는 일련의 과정을 연구하는 학문이다. 데이터마이닝이 등장할 당시 데이터는 데이터 수집기기와 저장기술의 발달로 인해 기존에는 상상할 수 없는 방대한 양의 데이터가 쏟아져 나오고 있었다. 이런 방대한 양의 데이터 처리와 분석은 기존 방법으로는 해결하기 어려웠고 이를 위한 신기술들이 개발되었다. 이런 신기술들은 기존 데이터분석기법들과의 차별이 필요했고 이에 따라 데이터마이닝이라는 신 용어가 생겨나게 되었다.
이 후 15여 년간 데이터마이닝 방법론과 응용연구는 매우 활발히 진행되었고 통계학과, 산업공학과, 컴퓨터공학과 등을 중심으로 교육이 진행되었다. 2004년 2월에 시작된 페이스북을 중심으로 소위 소셜네트워트라고 불리는 서비스가 등장하였는데 이로부터 생성되는 데이터는 기존의 데이터와는 그 양과 복잡도 면에서 또 한번 기존의 데이터 처리 및 분석 기술의 한계를 가져왔다. 소셜네트워크 데이터는 사람들이 일상 생활에서 쓰는 대화체의 형태 (자연어)가 대부분이다. 이런 자연어는 현재 컴퓨터 기술로는 바로 인식하고 분석하기가 어렵고 따라서 컴퓨터가 이해할 수 있도록 처리를 해 주어야 하는데 이를 소위 자연어처리라고 부른다. 소셜네트워크 데이터는 그 양이 방대한데 전 세계적으로 페이스북 이용시간이 월 9000억분이라고 하니 이로부터 생성되는 데이터의 양은 가히 짐작할 수 없을 만큼 엄청날 것이다. 이런 엄청난 양의 데이터를 처리하고 분석하는 데는 기존의 처리기술로는 비현실적인 시간이 소요되었고 이를 해결하기 위한 기술의 개발로 이어졌다. 때마침 구글에서는 설립 초기부터 검색의 효율성을 높이기 위해 분산병렬처리기법을 사용하고 있었고 2004년 이에 대한 기술을 공개한다. 구글이 공개한 기법은 기존 분산처리기술 보다 훨씬 효율적이면서 사용하기도 쉬웠기 때문에 이를 이용한 기법들을 실제 프로그래밍화 하였고 그 결과 하둡이라는 오픈 서비스가 무료로 일반인들에게 공개가 되었다.
하둡을 이용함으로써 그 동안 처리시간문제로 현실 문제에서 사용이 제안되었던 여러 기법들이 세상에 재등장하였으며 방대한 양의 데이터로 인해 분석이 어려웠던 문제들도 해답을 구할 수 있게 되었다. 위에서 언급한 소셜네트워크 데이터 분석이 대표적이다.
바로 여기서 빅 데이터 용어의 탄생 시점을 볼 수 있다. 빅 데이터는 소셜네트워크 데이터를 필두로 기존 데이터분석 혹은 데이터마이닝 시절에 접할 수 없었던 대용량의 비정형 데이터의 처리 및 분석을 가능케 해주는 방법을 연구하는 학문이라고 보면 될 것 같다. 데이터마이닝이 좀더 데이터분석에 초점이 맞추어져 있었다면 빅 데이터는 데이터분석 보다는 데이터의 효율적인 저장과 처리기술에 좀 더 초점이 맞추어져 있다고 보면 무리가 없을 것 같다.
여기서 주의해야 할 점은 빅 데이터 역시 데이터로부터 유용한 정보를 찾아내는 것이 궁극적이 목적임으로 데이터 분석, 이로부터 얻어지는 결과의 리포팅 기술, 그리고 해석이 결코 경시되어서는 안 된다는 것이다.
앞으로 어떤 형태의 서비스가 세상에 나올지 아무도 모른다. 또한 데이터 수집기기의 발달은 계속 될 것이다. 따라서 빅 데이터라는 용어가 다른 용어로 대치될 날이 반드시 올 것으로 생각한다. 하지만 중요한 것은 앞으로도 데이터의 양은 계속적으로 증가하게 될 것이고 그 복잡도 역시 증가할 것임으로 용어와 관계없이 데이터마이닝 분야의 연구는 꼭 필요한 학문으로 자리 매김 할 것이다.
S.B.K.