본 아티클은 데이터 마이닝에 대한 개인적인 연구를 위해 책에 대한 요약 및 관련 자료 정리의 목적으로 작성되었습니다.

- Amazon.com - INTRODUCTION TO DATA MINING
- Kangcom.com - 데이터 마이닝
- 저자 홈페이지 - http://www-users.cs.umn.edu/~kumar/dmbook/index.php
데이터 마이닝 탄생 배경
- 데이터 수집과 저장 기술의 급속한 발전으로 대규모 데이터 축적.
- 유용한 정보 추출의 어려움.
- 기존의 분석 도구와 기법은 대규모 데이터에 적용 불가능.
데이터 마이닝
기존의 데이터 분석 기법과 대규모 데이터 처리를 위한 정교한 알고리즘을 합성한 기법.
데이터 마이닝 응용
- 비즈니스
- 소매상들은 전자상거래 웹사이트의 웹로그와 콜센터의 고객서비스 기록 등을 유용한 데이터를 활용하여 고객의 요구 이해, 영업관련 의사결정 내림.
- 고객 프로필 작업, 맞춤형 마케팅, 워크플로우 관리, 진열장 배치, 사기(fraud) 탐지 등에 적용.
- 예, “누가 가장 이익을 많이 주는 고객들인가?”, “교차판매, 상향 판매 된 제품은 무엇인가?”, “회사의 내년도 수입 전망은?” 과 같은 질문에 대한 답.
- 의학, 과학, 공학
- 중요한 새로운 발견들을 가능하게 하는 데이터의 축적을 급속도로 진행.
- 방대한 데이터의 크기와 시공간적 특성으로 인하여 기존의 방법은 분석에 적합하지 않음.
- 예, “가뭄이나 허리케인에서 지구온난화와 같은 에코 시스템 저해 요인의 빈도와 강도 사이의 관계는 무엇인가?”, “지표강수량과 기온은 해양 표면온도에 어떻게 영향을 받는가?”, “우리는 어떻게 하면 특정 지역의 성장 시기가 시작되고 종료되는 것을 잘 예측할 수 있을까?” 와 같은 질문에 대한 답.
1.1 데이터 마이닝이란 무엇인가?
데이터 마이닝(data minig)은 대규모 데이터 저장소에서 유용한 정보를 자동적으로 탐색하는 과정.
데이터 마이닝과 지식탐사
- 입력 데이터(input data) - 다양한 형식(일반 파일, 스프레드시트, 관계 테이블)으로 저장.
- 전처리(preprocessing) – 입력 데이터를 분석에 적합한 형식으로 변환, 다양한 소스 데이터의 병합, 데이터 정제를 통한 잡음과 중복 제거, 데이터 마이닝 작업과 관련된 레코드와 특징들만 선택.
- 데이터 마이닝(data mining) - 의사결정 시스템으로 활용, 영업 관리 도구와 통합되어 효과적인 마메팅 홍보에 적용되고 결과 검증.
- 후처리(postprocessing) - 통합 과정 중 타당성 있고 유용한 결과만을 의사결정 시스템에 통합되도록 보장.
1.2 계기가 된 도전들
- 확장성 – 데이터 마이닝 알고리즘이 대규모 데이터 집합을 다루기 위한 확장성(scalability) 필요.
- 고차원 - 저차원 데이터를 위해 개발된 기존의 데이터 분석 비법은 고차원(high-dimensionality) 데이터에는 잘 동작하지 않음.
- 이질 복잡 데이터 - 기존의 데이터 분석 방법은 연속형이나 범주형의 동일한 유형의 속성을 가진 데이터 집합을 다룸. 이질 속성을 처리하는 기법 필요.
- 예, 준구조(semi-structured) 텍스트, 하이퍼링크를 가지는 웹 페이지의 모음, 순차와 3차원 구조를 가지는 DNA 데이터, 지구 표면의 다양한 위치에 대한 시계열 측정치 (온도, 압력 등).
- 데이터 소유 및 분산 - 한 장소에 저장되거나 한 기관이 소유하지 않고, 분산되어 있는 데이터.
- 분산 데이터 마이닝 알고리즘
- 분산 컴퓨팅을 수행하는 데 필요한 통신량을 감소하는 방법.
- 다양한 자원으로부터 입수한 데이터 마이닝 결과를 효과적으로 통합하는 방법.
- 데이터 보안 문제를 해결하는 방법.
- 분산 데이터 마이닝 알고리즘
- 새로운 분석 - 기존의 통계 접근 방식은 가설-검증 패러다임에 기초. 새로운 분석 방식 필요.
1.3 데이터 마이닝의 기원
여러 학문 분야의 연구자들은 다양한 데이터를 처리하는 효과적이고 확장성 있는 도구들을 개발하는 데 초점을 두기 시작. 이전에 사용한 방법론과 알고리즘 위에 구축되어 데이터 마이닝 분야 탄생.
데이터 마이닝 관련 분야
- 통계학의 샘플링, 추정, 가설 검증
- 인공지능 패턴 인식, 기계 학습에서 비롯된 탐색 알고리즘, 모델링 기법, 학습 이론
- 최적화, 진화적 컴퓨팅, 정보 이론, 신호 처리, 가시화, 정보 검색
1.4 데이터 마이닝 작업
- 예측 작업(predictive tasks) - 다른 속성의 값들을 기반으로 하여 특정 속성의 값을 예측.
- 목표(target), 종속변수(dependent variable) – 예측해야 하는 속성.
- 설명적(explanatory), 독립변수(independent variable) - 예측을 만드는 데 사용하는 속성.
- 서술 작업(descriptive tasks) - 데이터에 숨어있는 관련성을 요약하는 패턴(상관성, 경향, 군집, 궤적, 이상치) 검출.
네 가지 핵심 데이터 마이닝 작업
- 예측 모델링(predictive modeling) - 목표 변수를 설명 변수의 함수 모델로 생성하는 작업.
- 분류(classification) - 이산형 목표 변수에 사용.
- 예, 웹 사용자가 온라인 서점에서 구입 할 것인가를 예측. (목표 변수가 이산형)
- 회귀(regression) - 연속형 목표 변수에 사용.
- 예, 주식의 미래 가격을 예측. (가격이 연속형 값)
- 분류(classification) - 이산형 목표 변수에 사용.
- 연관 분석(association analysis) - 데이터에 강하게 연관된 특징을 설명하는 패턴 발견.
- 예, 관련 기능을 가지는 유전자 그룹 검색, 함께 접근되는 웹 페이지 식별, 지구 기후 시스템의 상이한 요소들 간의 관련성 이해.
- 군집 분석(cluster analysis) - 동일한 군집에 속하는 관측들은 다른 군집에 속하는 관측보다 더 유사하도록 긴밀하게 관련된 관측의 그룹 탐색.
- 예, 지구 기후에 현저한 영향을 미치는 바다의 지역 검색, 데이터 압축에 활용.
- 이상치 탐지(anomaly detection) - 특징이 다른 나머지 데이터들과 현저히 다른 관측들을 식별하는 작업.
- 예, 사기 탐지, 네트워크 침입, 질병의 특이 패턴 및 지구환경 혼란.
1.5 이 책의 범위와 구성
정리에서 제외.
1.6 참고문헌 설명
정리에서 제외.
1.7 연습문제
정리에서 제외.
"Data Mining" 카테고리의 다른 글
- 데이터 마이닝 (Data Mining) - 제2장. 데이터 (0)2009/12/18
- 데이터 마이닝 (Data Mining) - 제1장. 서론 (2)2009/02/08
- 데이터 마이닝 관련 동영상 모음 (0)2009/02/08
- 비트 파워프로젝트/자동차보험사의 데이터 마이닝... (0)2005/07/31
Tags Data Mining,
고차원,
군집 분석,
데이터 마이닝,
데이터 분산,
데이터 소유,
서술 작업,
연관 분석,
예측 모델링,
예측 작업,
이상치 탐지,
이질 복잡 데이터,
전처리,
지식탐사,
확장성,
후처리

수안이의 컴퓨터 연구실





Leave your greetings.
안녕하십니까 저는 사관학교에 다니는 학생입니다.
2009/04/20 17:22 [ Permalink : Modify/Delete : Reply ]현재 운영분석학과를 전공으로 하고 있으며 배우는 과목으로 지금 홈피에 있는 데이터 마이닝을 공부하고 있습니다.
현재 진도는 2장을 하고 있으며 원문을 보고 있어서 조금 뎌디게 지나가고 있습니다.
연습문제를 풀면서 답을 찾는 과정에서 현재 여기 홈피까지 들어오게 되었습니다.
혹시 연습문제를 풀어보셨으면 저에게 정보를 공쥬해 주셨으면 감사하겠습니다.
혼자 할려니 많은 어려움이 많습니다.
데이터 마이닝 관련 동영상 잘봤습니다. 감사합니다.
좋은하루 되세요.
안녕하세요. 김형수님.
2009/04/28 12:41 [ Permalink : Modify/Delete ]제가 도움을 드리고 싶지만, 제가 블로그에 올린 데이터 마이닝 책은 단순히 정리를 위한 목적으로 보고 있고, 실제적으로 저는 Han, Kamber의 Data Mining 책으로 공부하고 있습니다. 도움을 드리지 못하게 되어 죄송합니다.