- 2012년 2월 6일 오전 10:48
- 조회수: 8377

Data Mining 에 관한 궁금증과 그에 대한 답변을 정리 하였습니다.
Q1. 데이터 마이닝은 언제부터 시작되었는지요?
데이터 마이닝은 점차 중요성이 증대되고 있는 것 같은데요, 그 기원을 찾아 보기가 어렵네요~ ^^
어떻게 언제 시작된 건지 알려주세요.
A1.
데이터 마이닝의 정확한 기원은 알려져 있지 않습니다. 어느 한 사람이 데이터 마이닝이라는 용어를 처음으로 사용했다기 보다는 대용량의 데이터를 분석하는 행위에 대한 표현의 필요성으로 인해 자연스럽게 생겨난 용어가 아닌가 싶습니다.
데이터분석은 인류가 수를 사용하기 시작했을 때 부 터 행해졌으며 시대의 요구에 맞게 데이터분석의 의미나 범위가 변화해 왔다고 생각합니다. 특히, 1980년대부터 급속히 발전한 컴퓨터와 통신기술이 데이터의 개념을 바꾸는데 일조했다고 봅니다. 또한, 다양한 분야의 기기의 발달로 방대한 양의 복잡한 데이터가 쏟아져 나왔고 이를 효과적으로 분석하기 위해 생겨난 기법들에게는 새로운 용어가 필요했습니다.
데이터 마이닝은 방대한 양의 복잡한 데이터로부터 의미 있는 정보를 이끌어내는 과정을 연구하는 학문입니다. 방대한 양의 데이터가 생성되기 시작한 1980년대 중후 반 부 터 1990년대 초반에 데이터망이닝이라는 용어가 생겨나지 않았다 조심스레 추측해 봅니다.
Q2. 일반적인 데이터분석과 데이터 마이닝과의 큰 차이점은 뭘까요?
데이터 분석은 인류의 역사 속에서 항상 있어왔잖아요?인류의 역사를 바꾸기도 했던, 분석과 해석들.. 그러니까 일반적인 데이터분석과 데이터 마이닝과의 큰 차이점은 뭘까요? 어쩜, 데이터 마니닝의 본질에 관련된 내용일 수도 있겠지만, 그냥 간단하게 알려주셔도 감사할게요~^^
A2.
좋은 질문입니다.
데이터분석(Data Analysis)이라는 용어는 오래 전부터 통용되어 왔습니다. 아마도 인류가 처음 수를 사용할 때부터 데이터분석이 행해져 왔을 것입니다.
텔레비전(TV)을 예로 들어봅니다. TV가 처음 나온 시기를 1920년대로 하면 그 당시 TV와 지금의 TV는 그 기능이나 사용범위에서 많은 차이가 있습니다. 즉 같은 TV라고 해도 시대의 요구와 기술 정도에 따라 그 용어가 아날로그 TV, 평면브라운관 TV, LCD TV, 플라즈마 TV, LED TV 등 다른 이름으로 불리어져 왔습니다.
데이터분석도 1920년대 데이터분석과 현재의 데이터분석의 개념은 완전히 다르다고 하겠습니다. 현재 데이터는 데이터수집기기, 컴퓨터, 정보처리기술의 눈부신 발달로 예전의 데이터와는 그 양과 복잡도 에서 차원이 다릅니다. 이런 대용량의 복잡한 데이터의 분석 행위를 의미하는 용어의 필요성이 생겼고 이를 위해 자연스럽게 생겨난 용어가 "데이터 마이닝"입니다.
결론적으로 데이터 마이닝은 Modern Data Analysis를 대변할 수 있는 용어라고 할 수 있겠습니다.
데이터 마이닝 이외의 비슷한 개념으로 쓰이는 용어로는 Knowledge Discovery, Information Discovery, Data Crunch 등이 있고 데이터의 종류와 분석대상에 따라 Text Mining, Opinion Mining, Web Mining, Visual Mining 등의 용어도 사용되고 있습니다.
Q3. data mining 관련 어떤 추천도서가 있을까요?
데이터 마이닝을 공부하려고 합니다. 일반인들도 쉽게 이해할 수 있고, 입문(?) 할 수 있는
도서 추천 부탁 드립니다.
A3.
데이터 마이닝을 위한 도서로는 일반분야와 전문분야로 나눌 수 있습니다.
일반적인 도서는 수식이나 알고리즘을 언급하지 않고 일상 생활에서 접할 수 있는 현상을 데이터 마이닝과 연계시켜 서술한 책이라고 하겠고 전문적인 도서는 데이터 마이닝의 구체적인 알고리즘을 설명한 책이라고 하겠습니다.
대부분의 데이터 마이닝 알고리즘이 통계이론에 근거하고 있기 때문에 전문적인 도서를 소화하기 위해서는 기본적인 통계지식을 쌓아야 합니다.
일반분야 도서로 추천하고 싶은 책:
1. 슈퍼크런처
2. 뉴머라티 (The Numerati)
3. 괴짜경제학 시리즈
4. 괴짜 통계학
5. 머니볼
전분분야 도서로 추천하고 싶은 책:
1. Data Mining for Business Intelligence (한글 번역판도 있음)
2. Introduction to Data Mining (Tan, Steinbach, Kumar 저) -> 한글 번역판이 있는 걸로 알고 있음
3. Principles of Data Mining (Hand, Mannila, Smyth 저)
4. Mastering Data Mining (Berry, Linoff 저)
5. The Element of Statistical Learning (Hastie, Tibshirani, Friedman 저) -> 데이터 마이닝 대학원 전공자가 보는 책
(참고) 3가지 데이터 마이닝 & 통계 관련 추천 도서
1. 프리딕셔니어 미래를 계산하다: 북핵 문제에서 지구 온난화까지 게임이론이 보여주는 미래 설계도
미래를 미리 알고 있는 사람들이 있다!
프리딕셔니어는 '미래 예측자'라는 뜻이다. 매일 살아가면서 무슨 일이 일어날지, 세계에서 어떤 중대한 사건이 벌어질지 안다면 도움이 될 수 있다. 미리 안다면 미리 대비할 수 있는 거니까. 문제가 사업에 관한 일이건, 국가 안보 문제이건 가족사이건 모두 같다. 게임 이론은 과학을 써서 미래를 예측 할 수 있도록 우리를 도와주는 강력한 도구다. 『프리딕셔니어 미래를 계산한다』는 상당부분에서 불확실성을 제거할 수 있도록 도와주는 게임이론에 대해 설명한다.
대통령, 수상, 군소 독재자들의 합리적인 계산이 기업 합병, 분쟁 조정, 계약 협상, 규제 조정 등을 결정할 때 매우 비슷하다는 점이다. 다들 어떻게 자신의 입장을 개진해야 결정에 영향을 미칠 수 있을지, 자신에게 유리한 결과를 도출할 수 있을지 궁리한다. 저자는 중동 문제, 이라크 사태, 북한과 한반도의 미래 등 굵직한 사건들을 수년 전에 예측한 '21세기 노스트라다무스'이다. 책은 진화를 거듭한 게임이론을 통해 '세상을 움직이는 패턴'을 읽어내고, 그것을 통해 가까운 미래를 90퍼센트의 정확도로 예측하는 법을 밝힌다.
한국어판 서문 / 포커 게임에서 천안 함 사태까지, 세상 속에 존재하는 패턴을 읽는 힘
- 서장 / 이것은 마술이 아니다
[1] 세상은 패턴으로 이루어져 있다
1. 중고차를 싸게 사는 방법
2. 게임이론 1.0 : 세상을 움직이는 과학
3. 게임이론 2.0 : 경쟁과 전략
[2] 비로소 보이는 투명한 설계도
1. 북한 시나리오와 한반도의 미래 : 경기자의 입장
2. 냅킨 위에 계산된 평화 : 질문의 중요성
3. 미래를 기획하다 : 연쇄반응의 설계
4. 막다른 골목에서 벗어나기 : 모순 상황의 해법
[3] 90퍼센트의 미래를 보다
1. 예측할 수 없는 일을 예측하는 법
2. "만약에~" : 역사를 가지고 놀기
3. 실전 예측 1.0 : 미국과 이라크 사태
4. 실전 예측 2.0 : 지구는 이대로 멸망할 것인가
2. 상대를 합리적으로 설득하는 막강 데이터력
나의 능력을 결정짓는 가장 효과적인 데이터 활용 비법!
상대를 합리적으로 설득하는 데이터력에 대해 상세하게 소개하는 지침서 『막강 데이터력』. 정보가 넘쳐나는 현대 사회에서는 방대한 양의 데이터를 분석하고 활용하는 것도 특별한 능력이 된다. 수년간 데이터를 연구해온 저자 윤태성은 현실적인 예제를 통해 부동산, 재무, 서적, 비즈니스 등을 비롯해 다양하게 데이터를 활용하고 사용할 수 있는 비법을 소개한다.
Part 1. 데이터는 창조의 근원
데이터 중심의 사고방식
찾아주는 능력은 새로운 비즈니스의 소재가 된다
보여주는 능력으로 은유적인 표현을 하자
대화하는 능력으로 언제라도 데이터를 보자
데이터를 느끼고 본질을 이해한다
Part 2. 데이터의 현실
데이터량이 너무 많다
정말 필요한 데이터가 없다
데이터를 분석하는 게 어렵다
경험을 살려서 데이터를 보고 싶다
데이터를 직감적으로 보고 싶다
데이터의 전체상을 보고 싶다
Part 3. 데이터를 느끼는 예
부동산 데이터를 보고 좋은 물건을 느낀다
운동 데이터를 보고 성적을 느낀다
재무 데이터를 보고 경영 상황을 느낀다
서적 데이터를 보고 베스트셀러를 느낀다
Part 4 데이터를 느끼기 위한 데이터 테크
데이터 테크란
T: 데이터는 시간에 따라서 변한다
E: 데이터는 반복적으로 변한다
C: 데이터는 상호 관련되어 있다
H: 데이터는 전체적으로 조화를 이룬다
Part 5 데이터를 느끼지 못하게 하는 장애요인
명작에는 훌륭한 조연이 있다
S: 가시화하는 방법이 부족하다
H: 데이터량이 너무 많다
I: 개인의 향상심이 없다
M: 수학적으로 분석하는 능력이 약하다
Part 6 데이터 가시화 모델의 예
네트워크 모델
타일 모델
꽃 모델
포도 모델
레이더 빔 모델
히트 맵 모델
루프 모델
Part 7 데이터를 느끼고 액션을 취한다
건강진단 데이터
전화통화 데이터
기술문서 데이터
구매행동 데이터
특허 데이터
서적 판매 데이터
명함 데이터
업무 내용 데이터
교육 데이터
미국 대통령 선거 데이터
경영 데이터
연습용 데이터
Part 8 가시화 작업 순서
데이터를 준비한다
데이터 전체상을 조감한다
데이터를 검색한다
가시화 모델을 선택한다
데이터를 가시화한다
데이터를 분석한다
고도의 검색과 분석을 한다
결과를 활용한다
3. 천재들의 주사위
재미있는 에피소드와 다양한 실례를 중심으로 통계학 이론과 발전사, 통계학의 비밀을 풀어낸 책. 통계학의 일반 문제 나열에만 그치는 것이 아니라 통계학 발전 저변에 깔린 세계관의 변화를 제시하고 기초 수학의 이론에 대해서도 알기 쉽게 설명하고 있다.
세상을 다른 방식으로 바라보고자 했던 천재들의 혁명적인 연구와 실험의 결과 그리고 그들의 인품과 개성에 얽힌 재미난 이야기들이 통계학 이론과 자연스럽게 조화를 이루며 씌어져 있어, 과학을 이해하는 기쁨과 더불어 지적인 천재들과 조우하는 즐거움을 함께 만끽할 수 있을 것이다.
[1]. 차 마시는 여인
혼자 힘으로 달성하는 과학연구는 없다|'무용'한 실험의 돌파구
[2]. 통계학 혁명의 선구자들
반골의 통계학자 피어슨|지문의 발견자 골턴|전 세계 아버지와 아들들의 키는 평균으로 회귀한다|혁명적인 사고의 출발점, 피어슨의 분포와 모수|학술 잡지의 신세력 「바이오메트리카」 창간
[3]. 친애하는 고셋 선생
천재 '스튜던트'의 탄생|학문의 트라이앵글이 완성한 '스튜던트' t 검정
[4]. 로담스테드로 간 당돌한 천재
견원지간이었던 피셔와 피어슨|우생학에 매료된 '파시스트'|증명도 없고 이론도 없는, 그러나 빠르게 퍼져나간 지적 분출물|퇴비 더미 속으로
[5]. 치열한 영토 싸움의 한복판에서
백만장자 계산기|들녘에서 사라진 아이들과 잡초의 상관관계|무작위로 하면 되지!|간단해진 수식 하나-분산분석|피어슨의 업적을 허무는 출발점-자유도 개념|젊은 과학자의 길
[6]. 백 년에 한 번 올까 말까 한 큰 홍수
극단값의 분포|정치적 살해자들
[7]. 피셔의 승리
통계학 분포를 둘러싼 팽팽한 대립|출중했으나 실용성은 없었던 천재의 공식|자본주의 발흥기의 고민
[8]. 치사량에 숨은 함정
독물학 분야르르 개척한 프로빗 분석|스탈린 독재 시절의 레닌그라드로 떠난 외곬의 과학자
[9]. 전 세계를 뒤덮은 반지성의 메아리
수학의 새로운 도전-중심극한 정리|죽음이여 영원하라!|린드버그-레비 조건에서 U-통계량으로|베를린 시절의 호프딩|군대의 전략과 전술에 이용된 과학
[10]. 20세기 통계학 발전의 전주곡
혼돈이론의 약점|현대 통계학 분석의 전조-적합도 검정|차 마시는 여인이 차 맛의 차이를 구분할 수 있는지 시험하는 방법|우연한 사건에 속지 않을 가능성-피셔의 p값|사려 깊고 정중한 독학자|글쓰기의 달인
[11]. 무엇이 참이고 무엇이 거짓인가?
도대체 확률이란 무엇인가?|믿음의 결정적인 오류들
[12]. 신뢰라는 이름의 속임수
동일한 방법, 그러나 다른 결과|부주의하게 이용된 신뢰구간
[13]. 베이즈 학파의 이단적 교리
'역 확률'의 문제점|불확실성의 수준|문제를 일으킨 '연방주의자'
[14]. 수학의 모차르트
영원히 젊었던 사람|수리통계학 분야의 골칫덩어리|현실에서 확률은 어떤 의미를 갖는가?|마르크스와 레닌에 압사당한 소련의 통계학
[15]. 비천한 자의 시각
피어슨과 일하는 것|전장의 나이팅게일
[16]. 모수 따윈 집어치워!
전설의 족적들|무명의 학자
Q4. 통계와 데이터 마이닝은 어떤 관계인가요?
저는 통계나 데이터 마이닝도 전공자가 아니라서,
데이터 마이닝은 통계를 이용해서 의미 있는 정보를 추출하지 않을까 하는
예상을 해 보게 됩니다.
바보 같은 질문일지 모르겠는데요, 진짜 궁금해서 질문 남겨봅니다.
통계와 데이터 마이닝은 어떤 관계인지 설명 부탁 드립니다.
A4.
데이터 마이닝은 여러 가지 이론적 학문들이 복합적으로 융합된 학문분야입니다. 그 중 대표적인 학문들이 통계학, 컴퓨터공학, 그리고 최적화 이론이라고 하겠습니다. 또한 데이터 마이닝은 실제 필요한 문제를 풀기 위한 것으로 경영, 제조, 의료, 통신, 물류 등등 다양한 응용분야의 지식이 필요합니다.
대부분의 데이터 마이닝 방법 (알고리즘)은 통계이론에 그 뿌리를 두고 있습니다. 따라서 데이터 마이닝의 전문지식을 가지기 위해서는 통계학의 공부는 필수적이라고 하겠습니다.
결론적으로 통계는 데이터 마이닝학문을 지탱하는 가장 중요하고 굵은 뿌리 중 하나라고 하겠습니다.
Q5. 분류와 예측은 다른가요?
데이터 마이닝 책을 보면 분류와 예측이 나오는데 그 차이점이 있나요? 제가 보기에는 다 같이 미래의 값을 예측하는 것으로 보이는데요?
A5.
사실 이 질문은 많은 학자들도 현재 이견이 있는 내용입니다.
큰 의미에서 보면 말씀하신 대로 분류와 예측의 목적은 미래의 값을 예측하는데 있습니다. 따라서 큰 의미에서 보면 분류와 예측의 차이는 없다고 볼 수 있습니다.
예측하고자 하는 값이 범주형데이터 (categorical data)일 경우 "분류"라고 부르고 연속형데이터(continous data)일 경우에는 "예측"이라고 부릅니다. 하지만 알고리즘으로 들어가 보면 분류와 예측 알고리즘은 확연한 차이가 있습니다. 조금 더 자세히 예기해 본다면 분류와 예측 모두 예측하고자 하는 변수와 그 변수와 관련된 변수들 사이의 관계를 이용하여 모델을 만드는데 그 방법에서 차이가 있습니다 (모델이 없는 경우도 있음).
결론적으로 말한다면 궁극적인 목적은 분류나 예측 모두 관심 있는 변수의 미래 값을 예측한다는데 있어서 일치하나 예측하는 방법론에 있어서는 차이가 있다고 하겠습니다.
Q6. 데이터 마이닝을 공부하려면 산업공학과에 진학해야 하나요?
데이터 마이닝을 공부하려면, 산업공학과에 진학하면 되나요? 아니면 다른 학과에 진학을 해도 되나요?
A6.
반갑습니다. 데이터 마이닝을 공부하기 위해서는 꼭 산업공학과에 진학할 필요는 없습니다. 데이터 마이닝은 통계, 컴퓨터공학, 최적화 이론, 그리고 응용분야의 지식 등이 복합적으로 요구되는 학문입니다. 아래 데이터 마이닝을 공부할 수 있는 대학의 학과에 대해 간략하게 소개해 보겠습니다.
통계학과에서는 데이터 마이닝 기법의 근간이 되는 확률/통계 이론과 기법들을 배우게 됩니다. 현재 국내외 많은 학교 통계학과에 데이터 마이닝 연구실이 개설되고 활발히 연구가 진행되고 있습니다.
컴퓨터공학과에서도 데이터 마이닝 연구가 활발히 진행되고 있습니다. 통계학과와 더불어 데이터 마이닝 이론을 연구할 뿐 아니라 많은 양의 데이터를 처리하는 데이터 마이닝 기법의 효율성 (계산복잡도를 줄이는 과정)을 높이는 연구가 진행되고 있습니다. 또한 데이터를 효과적으로 모으고 저장하는 기술인 데이터베이스 기술도 배울 수 있습니다.
문과 쪽에서는 주로 경영학과에서 데이터 마이닝을 연구하고 있습니다. 경영학과에서는 새로운 데이터 마이닝 기법의 개발을 연구한다기 보다는 경영 관련 데이터 (마케팅, 재무, 회계, 생산)로부터 의미 있는 정보를 이끌어내어 효율적인 경영전략을 세우는데 목표를 두고 있습니다.
산업공학과는 공학 원리 및 기법에 관한 다양한 학문의 지식을 결합하여 실제 복잡한 현장에서 효율을 극대화 할 수 있는 시스템을 설계하고 운영하는 방법에 대해 배우고 있습니다. 따라서 산업공학에서는 한 분야의 깊은 지식보다는 융합적인 사고를 갖추고 따라서 조직을 조율하고 리딩할 수 있는 인재를 키우는데 그 목적이 있습니다. 이런 점에서 볼 때 산업공학과에서는 데이터 마이닝의 이론과 응용을 고루 배울 수 있는 기회를 제공합니다. 통계, 확률, 최적화 이론, 데이터베이스, 생산 등은 산업공학에서 필수적으로 공부해야 할 분야입니다. 현재 전세계 산업공학과에서 데이터 마이닝의 관한 연구는 빠르게 증가하고 있는 추세입니다.