Oracle: 기업의 빅 데이터 · Oracle 백서 - 기업의 빅 데이터 6 Hadoop은 대규모 데이터 볼륨을 원래 데이터 스토리지 클러스터에 보관한 채 구성하고
Chapter 1delab.cju.ac.kr/lecture/datamining/dm2016_1.pdf · 2016-09-07 · 빅 데이터(Big Data)...
Transcript of Chapter 1delab.cju.ac.kr/lecture/datamining/dm2016_1.pdf · 2016-09-07 · 빅 데이터(Big Data)...
데이터 분석으로 미래 예측 … 경영이 쉽다.
조선일보, 2011년 8월 8일 (월) 11판 (조선경제)
내용
수백만명의 고객정보
과거소비 바탕으로 성향파악
마케팅 비용 절반 아낀 에이비스
펩시, 시장변화감지 대응해 재고처리비용 6억달러 줄여
실적 큰 기업, 데이터 활용 5배
데이터분석, 공공분야도 위력
세금탈루 미리 알고, 맞춤형 진료도 척척
2
빅 데이터(Big Data) 사회
조선일보 2011년 5월 28일-29일 (토-일) 10판
내용
줄줄 새는 개인정보가 차곡차곡…누군가 내 사생활을
분석하고 있다.
웹사이트 방문기록, 검색통계, 소셜미디어 기록까지 차
곡차곡
기업들 막대한 개인정보 분석해 경영에 활용하기도
단순위치정보로는 개개인 식별할 수 없어, 2,3차 가공
하면 개인정보 추출, 해킹 통해 유출될 위험도
3
Eagle Eye, 2008
핸드폰, 현금지급기, 거리
의 CCTV, 교통안내 LED사
인보드, 신호등 등 그들 주
변의 전자장치와 시스템이
그들의 행동을 조종한다.
4
5
데이터의 폭발적 증가
자동화된 데이터 수집도구와 데이터베이스 기술의 발전으로 인
하여 막대한 양의 데이터가 저장소(repository)에 쌓임
데이터는 풍부하지만 정보(지식)는 빈약
해결방안
Data Warehousing
Data mining
데이터 마이닝의 필요성
6
Data Mining
데이터
지식
광산
금
채굴도구 채굴도구 - 통계학, 인공지능(기계학습)
7
“데이터 마이닝은
새로운 것이 아니다.”
“We are all data miners”
광고비와 판매액
다음 자료는 과거의 광고비와 판매액 자료이다. 광고비가 5일 때 판매액은 얼마일까?
8 (단위: 천만원)
방법 1
과거에 광고비가 5였을 때 판매액 자료를 이용
(5, 60), (5, 62), (5, 48)
따라서 판매액은 다음과 같이 예측됨
(60+62+48)/3 = 56.7
방법 1 관련 기법들
K-nearest neighbor
Case Base Reasoning(사례기반 추론)
9
방법 2
10
방법 2
광고비(x)와 판매액의 관계를 나타내는 수식을 구함.
판매액 = 10.948광고비 – 2.3592
따라서 광고비 5일 판매액의 예측은 다음과 같이 구함.
10.9485-2.3592=52.4
방법 2 관련 기법들
Regression(회귀분석)
11
방법 3
통계적 학습이론(statistical learning theory)를 이용하여 광고비가 5일 때의 판매액의 예측값을 구함. > m=svm(y~x, data=data)
> m
Call: svm(formula = y ~ x, data = data)
Parameters: SVM-Type: eps-regression
SVM-Kernel: radial, cost: 1 gamma: 1 epsilon: 0.1
Number of Support Vectors: 16
> p=predict(m, 5)
> p[1]
1
57.85287
12
방법 3
방법 3 관련 기법들
Statistical Learning Theory
Support Vector Machine(SVM): 분류(classification)
Support Vector Regression(SVR): 회귀(regression)
Support Vector Clustering(SVC): 군집화(clustering)
13
어떤 방법을 선택할까?
간단한 방법 vs. 복잡한 방법
14
15
Data Mining & CRM
16
Alternative Names
Data mining: 잘못된 명칭이 아닌가?
Knowledge discovery in databases (KDD)
KDD Cup
Knowledge extraction(지식 추출)
Data analysis
Information harvesting, …
Data mining & Data analysis
Data analysis에서 좋은 결과를 제공하던 분석기법이 반드시 data mining에서도 같은 결과를 제공하지는 않는다.
17
Data Mining Data Analysis
데이터 크기 대용량 DB 소규모 text
데이터 특징 주로 incomplete 주로 complete
18
Data Mining
대용량 DB로부터 의사 결정에 필요한 지식을 발견
(discovery)하는 일련의 과정
지식의 발견(Knowledge Discovery) - 데이터를 정보
로 바꾸는 숨겨진 패턴(hidden patterns)의 발견
지식의 사용(Knowledge Deployment) - 마이닝의
결과를 지식으로 사용하여 효과적인 의사 결정을 수
행
협의의 데이터 마이닝: 지식의 발견
데이터 마이닝: 지식의 발견 + 사용
19
Data Mining
Knowledge Deployment
Knowledge Discovery
Data Knowledge Information Decisions
& Actions
20
Data Mining: Definition
Data Mining is the process of extracting and
presenting actionable, hidden and novel information
from data
Not (Query and OLAP tools, SQL)
Machine learning & Statistics
OLTP
OLTP (on-line transaction processing)
OLAP (on-line analytical processing)
DM (data mining)
21
OLAP의 장, 단점
22
OLAP의 장점 OPAL의 단점
- 속성들을 동시에 고려한 다차원 시각적 기법이 우수
- 유사한 특성을 지닌 고객 집단을 손쉽게 파악
- 시간의 흐름에 따른 정보 변화를 파악
- 정상에서 벗어난 고객 리스트를 손쉽게 도출
- 현업 종사자의 주관적 판단에 의존
- 연속형 속성에 대한 처리에 한계
- 정량화된 측도에 의한 미래 예측이 어려움
- 속성들 간의 은닉패턴 도출이 어려움
데이터 마이닝의 장, 단점
23
데이터 마이닝의 장점 데이터 마이닝의 단점
- 다양한 마이닝 기법들을 이용하여 예측력
이 우수
- 수많은 속성들에 대한 복합적 고려가 가
능
- 다차원 속성들에 대한 요약 기능이
OLAP에 비해 떨어짐
숨겨진 패턴(hidden pattern)
24
X Y
원인(X) 결과(Y)
독립(independent) 종속(independent)
설명(explanatory) 반응(response)
입력(input) 출력(output)
목표(target)
지식의 계층구조
25
Noise
Data
Information
Knowledge
Meta
Knowledge
Noise
Data
Information
Knowledge
Meta
Knowledge
지식의 계층구조
잡음(noise): 흥미롭지 않거나 불분명한 아이템
데이터(data): 아직 특정한 목적에 대하여 처리되지 않
은 잠재적인 아이템
정보(information): 처리되어진 데이터, 특정한 목적의
달성에 도움이 되도록 데이터를 처리, 가공한 결과
지식(knowledge): 의사 결정을 위해 고도로 특화된 정
보, 새로운 사실이나 결론에 도달할 수 있는 규칙
메타 규칙(meta-knowledge): 지식에 대한 지식, 적
용 가능한 지식
26
전통적인 통계분석과 데이터 마이닝
27
항 목 전통적 통계학 데이터 마이닝
Data Source 텍스트(text) 파일 관계형 DB
Data Size 소규모 대용량
Data Repository Personal Computer 서버 시스템, DW
데이터를 보는
시각
비용의 관점
작은 데이터로 많은 결과
생성
수익의 관점
데이터는 DB에 얼마든지 존재
접근 방법 추정과 검정 지식, 규칙에 대한 발견
결과 해석 확률적 해석 재현성, 연구자 경험에 의한 해석
모형선택 기준 모형의 해석이 중요 예측력이 중요
데이터웨어
하드웨어는 인텔(Intel)이나 모토롤라((Motorola)에 맡기고 소프트웨어는 마이크로소프트(Microsoft)나 오라클(Oracle)에 맡기면 되지만 데이터웨어는 아무데도 부탁할 데가 없다. 소프트웨어 업체들도 이것은 못해 준다. 정보 시스템의 성패는 하드웨어에 20%, 소프트웨어에 30%, 데이터웨어에 50% 있다고 보면 거의 정확하다”
[문송천, 2002]
28
29
To solve BQ (business questions) that SQL-query
and OLAP tools cannot adequately address
Financial Example: “새로 나온 Gold Credit Card에 가장
반응을 크게 할 만한 고객은?”
Communications Example: “경쟁사로 떠날 가능성이 큰
고객들은?”
Retail Example: “가격 할인을 통하여 자사의 수익을 향상
시킬 수 있는 제품은?”, “MBA”
데이터 마이닝의 필요성
30
ºÐ ¼®°ü Á¡
BQ¹ø È£
Business Question Example Data View±Çö¹æ ¹ý
¿ì ¼±¼ø À§
Factin Data View
Dimensionin Data View
°í °ÇÁ ·ÎÆÄ ÀϺР¼®
1 Áö Á¡ º° °í ° ® ½º Æ® Çö Àç ¤· ¤· Áö Á¡ °Å ·¡ °í ° ¼ö ¹× ®½º Æ®  ?
°í ° ¹ø È£ (ÁÖ ¹Î ¹ø È£ ), °è Á ¹ø È£ , ¿¹Å¹ ÀÚ »ê , ÁÖ ½Ä Æò °¡ ¾× , ä ±Ç Æò °¡ ¾× ,°í ° Ƽº (ÀÎ ± Åë °è ), Áö Á¡ ¹ø È£
OLAP 1 °í ° ¼ö (°í ° ¹ø È£ ), °í ° ® ½º Æ® Áö Á¡ (Áö Á¡ ¹ø È£ )
2 °³ ÀÎ ,¹ý ÀÎ °í ° ÀÇ ±â º» Á¤ º °³ ÀÎ °í ° ÀÇ ½Å »ó Á¤ º ¹× ¹ý ÀÎ ÀÇ À繫 Çö Ȳ Àº ?
°í ° ¹ø È£ (ÁÖ ¹Î ¹ø È£ ), °è Á ¹ø È£ , ¿¹Å¹ ÀÚ »ê , ÁÖ ½Ä Æò °¡ ¾× , ä ±Ç Æò °¡ ¾× ,°í ° Ƽº (ÀÎ ± Åë °è ), Áö Á¡ ¹ø È£ , ¿¹Å¹ ÀÚ »ê
OLAP 1 °í ° ¼ö (°í ° ¹ø È£ ), °í ° ® ½ºÆ® , ¿¹ Ź ÀÚ »ê ( ÁÖ ½Ä Æò °¡ ¾× , ä±Ç Æò °¡ ¾× ), °í ° Ƽº (¿¬ ·É , Á÷¾÷, ¼º º° µî )
Áö Á¡ (Áö Á¡ ¹ø È£ ), °í ° ± ºÐ (°³ /¹ý ÀÎ ), °í °
°í °ÀÚ »êºÐ ¼®
3 ÀÚ »ê ±Ô ð º° Áö Á¡ º° °í ° ® ½º Æ® ¿¹ Ź ÀÚ »ê ±Ô ð °¡ 5õ ¸ ¿ø ÀÌ »ó ÀΤ· ¤· Áö Á¡ °í ° µé Àº ?
Áö Á¡ ¹ø È£ , °í ° ¹ø È£ , °è Á ¹ø È£ , ¿¹Å¹ ÀÚ »ê , ÁÖ ½Ä Æò °¡ ¾× , ä ±Ç Æò °¡ ¾× ,°è Á ÀÜ °í
OLAP 1 °í ° ¼ö (°í ° ¹ø È£ ), °í ° ® ½º Æ® ÀÚ »ê ±Ô ð (¿¹ Ź ÀÚ »ê , ÁÖ ½Ä Æò °¡¾× , ä ±Ç Æò °¡ ¾× , °è Á ÀÜ °í )Áö Á¡
4 Áö Á¡ º° ¿¬ ·É º° ÀÚ »ê º À Çö Ȳ ¤· ¤· Áö Á¡ 40ë °í ° µé ÀÇ ¿¹ Ź ÀÚ »êÆ÷Æ® Æú ® ¿À ± ¼º ºñ À² Àº ?
°í ° ¹ø È£ , °è Á ¹ø È£ , ¿¹ Ź ÀÚ »ê , ÁÖ½Ä Æò °¡ ¾× , ä ±Ç Æò °¡ ¾× , °í ° Ƽº(ÀÎ ± Åë °è ), Áö Á¡ ¹ø È£
OLAP 1 °í ° ¼ö (°í ° ¹ø È£ ), °í ° ® ½º Æ® °í ° Ƽº (¿¬ ·É ). Áö Á¡ (Áö Á¡ ¹øÈ£ ), ¿¹ Ź ÀÚ »ê ±Ô ð
°í °¸ ±âºÐ ¼®
5 ÆÁ¤ ±â °£ ¸ ±â µµ ·¡ °í ° ® ½º Æ® Ù À½ Þ ¸ ±â µµ ·¡ ÇÏ Â ¼ö ÀÍ Áõ ±Ç ºÀ ÇÑ °í ° µé Àº ?
¸ ±â ÀÏ ÀÚ , °í ° ¹ø È£ , ¼ö ÀÍ Áõ ±Ç °èÁ ¹ø È£ , ¼ö ÀÍ Áõ ±Ç Æò °¡ ¾× ,°í ° Ƽº(ÀÎ ± Åë °è )
OLAP 1 °í ° ¼ö (°í ° ¹ø È£ ), °í ° ® ½º Æ® ±â °£ (¸ ±â ÀÏ ÀÚ ), ¼ö ÀÍ Áõ ±Ç í
°í °°Å ·¡ºÐ ¼®
6 ÆÁ¤ ±â °£ ¾à Á¤ ±â ÁØ °í ° ºÐ Æ÷ 2/4ºÐ ±â ¾à Á¤ ÀÌ 1¾ï ÀÌ »ó ÀÎ °í ° Àºî %ÀÌ ç © ± ÀÎ °¡ ?
Å Å ÀÏ ÀÚ , °í ° ¹ø È£ , Å Å À Çü , ÅÅ Ü °¡ , Å Å ¼ö ·®
OLAP 1 °í ° ¼ö (°í ° ¹ø È£ ) ±â °£ , ¾à Á¤ ¾×±Ô ð
7 Á¾ ñ º° ÁÖ ½Ä ŠŠü °á ³» ¿ª ¹ý ÀÎ °í ° ÀÇ ÆÁ¤ Á¾ ñ ŠŠü °á ÇöȲ Àº ?
°í ° ¹ø È£ , Á¾ ñ í , °Å ·¡ ³» ¿ª OLAP 1 Å Å ³» ¿ª Á¾ ñ í , °í ° ± ºÐ (°³ /¹ý ÀÎ )
8 °í ° º° ÀÔ Ãâ ±Ý ÆÐ ÅÏ °í ° º° ÀÔ Ãâ ±Ý °Å ·¡ °¡ À ÀÇ ÇÑ ÆÐ ÅÏÀ ·Î ³ª Å ³ª  °¡ ?
ÀÔ ±Ý (°í )ÀÏ ½Ã , ÀÔ ±Ý ¾×, Ãâ ±Ý ¾× , ÀÔ°í ·® , Ãâ °í ·®
Mining 2
9 ÆÁ¤ ÀÔ Ãâ ±Ý ÆÐ ÅÏ °í ° ® ½º Æ® ±Ý ¿ä ÀÏ ÀÔ ±Ý ÈÄ ¿ù ¿ä ÀÏ Ãâ ±Ý ÇÏ Â °í° Àº ?
ÀÔ ±Ý (°í )ÀÏ ½Ã , ÀÔ ±Ý ¾×, Ãâ ±Ý ¾× , ÀÔ°í ·® , Ãâ °í ·®
OLAP 2 °í ° ® ½º Æ® ÀÔ Ãâ ±Ý ÆÐ ÅÏ (ÀÔ ±Ý (°í )ÀÏ ½Ã , ÀÔ±Ý ¾×, Ãâ ±Ý ¾× , ÀÔ °í ·® , Ãâ °í ·® )
10 Áö Á¡ º° °í ° º° Åõ ½Å ,±Ý À¶ »ó Ç° Æò ÀÜÃß ÀÌ
¤· ¤· Áö Á¡ °í ° µé ÀÇ 9¿ù Æò ÀÜ ¹× ¿ùº° Ãß ¼¼  ?
Áö Á¡ ¹ø È£ , °í ° ¹ø È£ , °è Á ¹ø È£ , ÆòÀÜ
OLAP 1 Æò ÀÜ Áö Á¡ , °í ° (°í ° ¹ø È£ ), ±â °£
11 ÆÁ¤ ±â °£ ÀÚ »ê ±Ô ð º° °í ° È Àü À²ºÐ ¼®
2/4ºÐ ±â ¿¹ Ź ÀÚ »ê 1¾ï ÀÌ »ó °í ° µéÀÇ À§ Ź °Å ·¡ È Àü À² Àº ?
½Ã ÀÛ ±Ý ¾×, Å Å ÀÏ ÀÚ , Å Å ¼ö ·® , ÅÅ Ü °¡ , °í ° ¹ø È£ , °è Á ¹ø È£ , ¿¹ ŹÀÚ »ê , È Àü À²
OLAP 1 È Àü À² ºÐ ¼® (Å Å ¼ö ·® , Å Å Ü°¡ , È Àü À² )
ÆÁ¤ ±â °£ °í ° ÀÚ »ê ±Ô ð (Å ÅÀÏ ÀÚ , ¿¹ Ź ÀÚ »ê , °í ° ¹ø È£ , °èÁ ¹ø È£ )
12 ¹Ì ¼ö °í ° ® ½º Æ® ¿µ ¾÷Á÷¿ø º° ¹Ì ¼ö °í ° ® ½º Æ®  ? °í ° ¹ø È£ , °í ° ± ºÐ , °è Á ¹ø È£ , ¹Ì¼ö ±Ý ¾×
ÇÁ ·Î ¼¼ ½º°³ ¼±
N.A
13 Áõ ±Ç »ç º° ä ³Î º° ¼ö ¼ö ·á Â÷ÀÌ ¿¡ µû¥ °í ° ÀÇ °¡ °Ý ¹Î ° µµ
¼ö ¼ö ·á º È ¿¡ µû ¥ ä ³Î º° ¾à Á¤ ¾×º È Â ?
°í ° ¹ø È£ , ¼ö ¼ö ·á , °¡ °Ý ¹Î ° µµ Mining 2
14 Ãß Ãµ Á¾ ñ º° Å Å ÆÐ ÅÏ Ãß Ãµ Á¾ ñ ¿¡ ë ÇÑ °í ° º° Å Å ÆÐ ÅÏÀº ?
°í ° ¹ø È£ , Ãß Ãµ Á¾ ñ , °Å ·¡ Á¾ ñ , °Å·¡ ³» ¿ª
Mining 2
Business Question의 예
지식추출과정
31
DB
DW
Task Data
Results
Knowledge
(data cleaning & integration)
(data selection)
(data mining)
(extracting hidden patterns)
Data Mining Process (ex1)
(step 1) Learning the application domain: 업무 주제의 결정 및 적용 도
메인에 대한 지식 습득
(step 2) Creating a target data set: 분석에 사용될 데이터의 결정
(step 3) Data cleaning and preprocessing: 데이터의 정제와 전처리
(step 4) Data reduction and transformation: 데이터의 축소 및 변형
(step 5) Choosing functions of data mining: 데이터 마이닝 함수 선택
(step 6) Choosing the mining algorithm: 마이닝 알고리즘의 선택
(step 7) Search for patterns of interest: 흥미 있는 패턴의 선택
(step 8) Pattern evaluation and knowledge presentation: 패턴 평가 및
지식의 표현
(step 9) Use of discovered knowledge: 지식의 적용
32
Data Mining Process (ex3)
33
•현황파악
•BD & BQ
•주제선정을
통한개발범
위및방항설
정
•프로젝트
일정및인력
에대한결정
•현황파악
•BD & BQ
•주제선정을
통한개발범
위및방항설
정
•프로젝트
일정및인력
에대한결정
•분석데이터
의변수및범
위선정
•데이터추출
•분석용 DB
구축 (DW)
•분석데이터
의변수및범
위선정
•데이터추출
•분석용 DB
구축 (DW)
•마케팅관점
에서모형의
적합성평가
•Remodeling
방향설정
•마케팅관점
에서모형의
적합성평가
•Remodeling
방향설정
•데이터변환
•단일변수의
특성파악
•변수들간의
관계파악
•1차적인
feature 선택
•개발모형에
대한검토
•데이터변환
•단일변수의
특성파악
•변수들간의
관계파악
•1차적인
feature 선택
•개발모형에
대한검토
•추상적인변
수의구체화
•최종적인
feature의결
정
•최종모형의
완성
•모형에기반
의규칙을시
스템에이식
•추상적인변
수의구체화
•최종적인
feature의결
정
•최종모형의
완성
•모형에기반
의규칙을시
스템에이식
•시범적용
범위및일정
수립
•구체적인
모니터링디
자인
•현장점검
•결과분석
•시범적용
범위및일정
수립
•구체적인
모니터링디
자인
•현장점검
•결과분석
•시범적용을
통한문제점
해결
•최종적용
범위결정및
마케팅성과
분석방안결
정
•현장점검
•시범적용을
통한문제점
해결
•최종적용
범위결정및
마케팅성과
분석방안결
정
•현장점검
W
O
R
K
W
O
R
K
StepStepStep 주제선정주제선정주제선정 ETTETTETT EDAEDAEDA ModelingModelingModeling 시범적용시범적용시범적용 전사적용전사적용전사적용 성과분석성과분석성과분석
•기초현황파
악보고서
•개발계획
보고서
•업무요건정
의서
•기초현황파
악보고서
•개발계획
보고서
•업무요건정
의서
•Mart DB 레
이아웃t
•데이터추출
리스트
•Mart DB 레
이아웃t
•데이터추출
리스트
•성과분석
보고서
•최종프로젝
트보고회및
보고서
•성과분석
보고서
•최종프로젝
트보고회및
보고서
•데이터변환
프로스램
•데이터충실
도조사
•기초통계
분석보고서
•데이터변환
프로스램
•데이터충실
도조사
•기초통계
분석보고서
•선정주제
대한모형간
성능비교표
•마이닝모형
을통한마케
팅규칙
•선정주제
대한모형간
성능비교표
•마이닝모형
을통한마케
팅규칙
•시범적용
계획안
•최종사용자
를위한 UI
•우수사례집
•시범적용결
과보고서
•시범적용
계획안
•최종사용자
를위한 UI
•우수사례집
•시범적용결
과보고서
•현장적용을
위한설명서
•현업사용자
에대한교육
•현장적용을
위한설명서
•현업사용자
에대한교육
R
E
S
U
L
T
R
E
S
U
L
T
Business&
Statistics
ComputerScience
Statistics&
ComputerScience
Business&
Statistics
변수선정 과정
마이닝 주제
-> 추상적인 변수
-> 존재변수의 맵핑(mapping)
-> 독립, 종속변수의 결정
-> feature 선택
-> 최종모형 결정
34
데이터 마이닝의 데이터
Relational Databases: 관계형 데이터베이스
Data Warehouses: 데이터웨어 하우스
Transactional databases: 거래 데이터베이스
Advanced DB and information repositories: 확장된 데이터베이스
Spatial databases: 공간 데이터베이스
WWW: 웹 데이터
35
데이터 마이닝의 성공요인
데이터 마이닝을 위한 통합된 환경을 제공할 수 있는가.
현업의 업무를 효과적이고 지속적으로 적용 가능한가.
전사적인 IT 환경에서 프로젝트 경험과 역량은 충분한가.
데이터 마이닝에 대한 이론 및 실무 능력을 갖추었나.
마이닝 결과를 활용할 수 있는 마케팅 조직 프로세스는 갖
추었는가.
통합 데이터웨어 하우스 구축이 원만하게 이루어질 수 있
는 인력과 마인드가 있는가.
36
37
CRM
“고객에 초점을 맞춘
IT 기반의 마케팅 전략”
38
Three Issues of CRM
Acquisition 고객유치
Prospect 우수고객확보
Retention 고객유지
Churn 고객이탈방지
Cross / Up Selling 교차 및 추가판매
Items, Transactions
39
CRM
Fraud Detection
Database Marketing
Target Marketing
Scoring
신용점수
우수고객점수
고객이탈 및 연체점수
활성화 점수
40
Statistical tools and A. I.
Statistical tools
통계학과
데이터의 수집 및 분석
회귀분석, 다변량분석, 군집분석, …
Artificial Intelligence
컴퓨터학과
기계 학습(machine learning)
인공신경망, 의사결정나무, …
STATISTICS Computer Science
Others
41
Six Sigma & Data Mining
원자재 제품 마케팅 고객
식스 시그마: 품질혁신, 고객만족
데이터 마이닝(분석CRM): 수익창출, 고객민족
“비제조부문의 6 시그마의 성공을 위한 데이터 마이닝과의 시너지 효과”
42
데이터 마이닝의 오해
“데이터 마이닝에 의해 구축된
컴퓨터가 모든 결과를 제공한다!!”
“그러면 지금까지 그 일을 수행해
오던 인력은 필요 없다?”
43
마약사범 적발
전체 2000명
마약사범 – 381명
일반인 – 1619명
Base Line Lift
381/2000 = 0.1905 (19.05%)
100명의 임의로 조사하면 이 중에 19명 정도가 마약사
범이다.
데이터 마이닝 모형을 구축하지 않았을 경우
44
마약사범 적발:CDW
ID 입국시간 출발지 … 마약사범여부
1 24:00 홍콩 … 1
2 17:50 시드니 … 0
3 12:30 싱가폴 … 0
… … … … …
2000 03:30 하네다 … 1
설명 반응 CDW 내의 단순순서
F(설명) = 반응
새로운 설명에 대한 반응을 예측
45
마약사범 적발: 모형
ID 마약사범여부
1 1
2 0
3 0
… …
2000 1
ID 마약사범여부 마약사범일 score
1 1 0.9875
2 0 0.0541
3 0 0.1658
… … …
2000 1 0.8754
Data Mining 모형화
46
마약사범 적발: 모형에 의한 score
순서 마약사범일 score
1 0.9967
2 0.9875
3 0.8754
… …
199 0.6687
200 0.6588
201 0.6454
202 0.5932
… …
1000 0.4875
… …
1998 0.1658
1999 0.0541
2000 0.0010
%)87(87.0200
174
(ID=2000)
(ID=1)
(ID=3)
(ID=2)
상위 10%(200명) 조사
-> 이들 중에 174명이 마약사범
57.4%05.19
%00.87ValueLift
데이터 마이닝을 통한
마약사범 단속의 향상도(Lift Value)
47
데이터 마이닝과 마이닝 도구
A B C D
데이터 마이닝 담당자
데이터 마이닝 도구(S/W)
48
데이터 마이닝 도구들
SAS: Enterprise Miner
SPSS: Clementine
S-Plus: Stat Server
NCR: Tera Miner
R-project: R
MS: Excel(VBA) – 개인적, 소규모
www.r-project.org
49
R-Project
50
R-Commander
51
R
R-Project
대부분의 통계분석 기법이 있음
SAS나 SPSS에 비해 뒤지지 않으며 오히려 최신의 마이
닝 기법(SVM, 등)이 제공됨
R-Commander
R-Project의 일부 기능을 초보자도 쉽게 사용할 수 있
도록 GUI 방식을 지원
52
53
데이터 마이닝 수행
마이닝 도구 (S/W)
OLAP
DW
Computer (DB, DW 전문가)
Statistics, A. I. (Miner)
경영전략, 마케팅 (MBA)
+
Customer Relationship Management
54
학제적 연계
Data Mining
Database Technology
Statistics
Other Disciplines
Information Science
Machine Learning
Visualization
마케팅 Bio
55
Dataware House
DB DW
OLAP
Data Mining
최적의 의사결정
운영계 DB 분석계 DB
다양한 데이터 소스
데이터 마트
80~90%
10~20%
운영계 DB와 분석계 DB
56
57
“Data Warehousing Enables Data Mining
Data Mining Justifies Data Warehousing.”
Synergy
데이터 웨어하우스가 없다고 해서
데이터 마이닝을 할 수 없는 것은 아니지만…
58
KDD Process
Data Cleaning
Data Integration
Databases
Data Warehouse
Task-relevant Data
Selection
Data Mining
Pattern Evaluation
59
Effort Required for Data Mining
“Data Understanding and Preparation takes 50-80% of project effort.”
60
Data Mining as …
“Data Mining is
an Art and a Science.”
61
Data Mining is a Science
Mathematical Methods
Statistical Analysis
Validation Procedures
Generalized Rules
이론가, 학자, …
62
Data Mining is an Art
Technical Experience
Experience in Content Domain Area
현업종사자, 실무자
Data Mining is an Art and a Science
CASE 1
현업실무자가 데이터 마이닝 이론을 습득
CASE 2
데이터 마이닝 이론가가 현업에 채용
CASE 3
현업부서가 데이터마이닝 전문가 집단의 컨설팅을 받
음
CASE 3-1 : 전적으로 컨설팅 그룹에 의존함
CASE 3-2 : 현업실무자가 컨설팅 그룹과 함께 프로젝트 수행
63