Chapter 1delab.cju.ac.kr/lecture/datamining/dm2016_1.pdf · 2016-09-07 · 빅 데이터(Big Data)...

Chapter 1 데이터 마이닝 개요

전성해

청주대학교

http://delab.cju.ac.kr

[email protected]

데이터 분석으로 미래 예측 … 경영이 쉽다.

조선일보, 2011년 8월 8일 (월) 11판 (조선경제)

내용

수백만명의 고객정보

과거소비 바탕으로 성향파악

마케팅 비용 절반 아낀 에이비스

펩시, 시장변화감지 대응해 재고처리비용 6억달러 줄여

실적 큰 기업, 데이터 활용 5배

데이터분석, 공공분야도 위력

세금탈루 미리 알고, 맞춤형 진료도 척척

2

빅 데이터(Big Data) 사회

조선일보 2011년 5월 28일-29일 (토-일) 10판

내용

줄줄 새는 개인정보가 차곡차곡…누군가 내 사생활을

분석하고 있다.

웹사이트 방문기록, 검색통계, 소셜미디어 기록까지 차

곡차곡

기업들 막대한 개인정보 분석해 경영에 활용하기도

단순위치정보로는 개개인 식별할 수 없어, 2,3차 가공

하면 개인정보 추출, 해킹 통해 유출될 위험도

3

Eagle Eye, 2008

핸드폰, 현금지급기, 거리

의 CCTV, 교통안내 LED사

인보드, 신호등 등 그들 주

변의 전자장치와 시스템이

그들의 행동을 조종한다.

4

5

데이터의 폭발적 증가

자동화된 데이터 수집도구와 데이터베이스 기술의 발전으로 인

하여 막대한 양의 데이터가 저장소(repository)에 쌓임

데이터는 풍부하지만 정보(지식)는 빈약

해결방안

Data Warehousing

Data mining

데이터 마이닝의 필요성

6

Data Mining

데이터

지식

광산

금

채굴도구 채굴도구 - 통계학, 인공지능(기계학습)

7

“데이터 마이닝은

새로운 것이 아니다.”

“We are all data miners”

광고비와 판매액

다음 자료는 과거의 광고비와 판매액 자료이다. 광고비가 5일 때 판매액은 얼마일까?

8 (단위: 천만원)

방법 1

과거에 광고비가 5였을 때 판매액 자료를 이용

(5, 60), (5, 62), (5, 48)

따라서 판매액은 다음과 같이 예측됨

(60+62+48)/3 = 56.7

방법 1 관련 기법들

K-nearest neighbor

Case Base Reasoning(사례기반 추론)

9

방법 2

10

방법 2

광고비(x)와 판매액의 관계를 나타내는 수식을 구함.

판매액 = 10.948광고비 – 2.3592

따라서 광고비 5일 판매액의 예측은 다음과 같이 구함.

10.9485-2.3592=52.4


Regression(회귀분석)

11

방법 3

통계적 학습이론(statistical learning theory)를 이용하여 광고비가 5일 때의 판매액의 예측값을 구함. > m=svm(y~x, data=data)

> m

Call: svm(formula = y ~ x, data = data)

Parameters: SVM-Type: eps-regression

SVM-Kernel: radial, cost: 1 gamma: 1 epsilon: 0.1

Number of Support Vectors: 16

> p=predict(m, 5)

> p[1]

1

57.85287

12

방법 3


Statistical Learning Theory

Support Vector Machine(SVM): 분류(classification)

Support Vector Regression(SVR): 회귀(regression)

Support Vector Clustering(SVC): 군집화(clustering)

13

어떤 방법을 선택할까?

간단한 방법 vs. 복잡한 방법

14

15

Data Mining & CRM

16

Alternative Names

Data mining: 잘못된 명칭이 아닌가?

Knowledge discovery in databases (KDD)

KDD Cup

Knowledge extraction(지식 추출)

Data analysis

Information harvesting, …

Data mining & Data analysis

Data analysis에서 좋은 결과를 제공하던 분석기법이 반드시 data mining에서도 같은 결과를 제공하지는 않는다.

17

Data Mining Data Analysis

데이터 크기 대용량 DB 소규모 text

데이터 특징 주로 incomplete 주로 complete

18

Data Mining

대용량 DB로부터 의사 결정에 필요한 지식을 발견

(discovery)하는 일련의 과정

지식의 발견(Knowledge Discovery) - 데이터를 정보

로 바꾸는 숨겨진 패턴(hidden patterns)의 발견

지식의 사용(Knowledge Deployment) - 마이닝의

결과를 지식으로 사용하여 효과적인 의사 결정을 수

행

협의의 데이터 마이닝: 지식의 발견

데이터 마이닝: 지식의 발견 + 사용

19

Data Mining

Knowledge Deployment

Knowledge Discovery

Data Knowledge Information Decisions

& Actions

20

Data Mining: Definition

Data Mining is the process of extracting and

presenting actionable, hidden and novel information

from data

Not (Query and OLAP tools, SQL)

Machine learning & Statistics

OLTP

OLTP (on-line transaction processing)

OLAP (on-line analytical processing)

DM (data mining)

21

OLAP의 장, 단점

22

OLAP의 장점 OPAL의 단점

- 속성들을 동시에 고려한 다차원 시각적 기법이 우수

- 유사한 특성을 지닌 고객 집단을 손쉽게 파악

- 시간의 흐름에 따른 정보 변화를 파악

- 정상에서 벗어난 고객 리스트를 손쉽게 도출

- 현업 종사자의 주관적 판단에 의존

- 연속형 속성에 대한 처리에 한계

- 정량화된 측도에 의한 미래 예측이 어려움

- 속성들 간의 은닉패턴 도출이 어려움

데이터 마이닝의 장, 단점

23

데이터 마이닝의 장점 데이터 마이닝의 단점

- 다양한 마이닝 기법들을 이용하여 예측력

이 우수

- 수많은 속성들에 대한 복합적 고려가 가

능

- 다차원 속성들에 대한 요약 기능이

OLAP에 비해 떨어짐

숨겨진 패턴(hidden pattern)

24

X Y

원인(X) 결과(Y)

독립(independent) 종속(independent)

설명(explanatory) 반응(response)

입력(input) 출력(output)

목표(target)

지식의 계층구조

25

Noise

Data

Information

Knowledge

Meta

Knowledge

Noise

Data

Information

Knowledge

Meta

Knowledge

지식의 계층구조

잡음(noise): 흥미롭지 않거나 불분명한 아이템

데이터(data): 아직 특정한 목적에 대하여 처리되지 않

은 잠재적인 아이템

정보(information): 처리되어진 데이터, 특정한 목적의

달성에 도움이 되도록 데이터를 처리, 가공한 결과

지식(knowledge): 의사 결정을 위해 고도로 특화된 정

보, 새로운 사실이나 결론에 도달할 수 있는 규칙

메타 규칙(meta-knowledge): 지식에 대한 지식, 적

용 가능한 지식

26

전통적인 통계분석과 데이터 마이닝

27

항 목 전통적 통계학 데이터 마이닝

Data Source 텍스트(text) 파일 관계형 DB

Data Size 소규모 대용량

Data Repository Personal Computer 서버 시스템, DW

데이터를 보는

시각

비용의 관점

작은 데이터로 많은 결과

생성

수익의 관점

데이터는 DB에 얼마든지 존재

접근 방법 추정과 검정 지식, 규칙에 대한 발견

결과 해석 확률적 해석 재현성, 연구자 경험에 의한 해석

모형선택 기준 모형의 해석이 중요 예측력이 중요

데이터웨어

하드웨어는 인텔(Intel)이나 모토롤라((Motorola)에 맡기고 소프트웨어는 마이크로소프트(Microsoft)나 오라클(Oracle)에 맡기면 되지만 데이터웨어는 아무데도 부탁할 데가 없다. 소프트웨어 업체들도 이것은 못해 준다. 정보 시스템의 성패는 하드웨어에 20%, 소프트웨어에 30%, 데이터웨어에 50% 있다고 보면 거의 정확하다”

[문송천, 2002]

28

29

To solve BQ (business questions) that SQL-query

and OLAP tools cannot adequately address

Financial Example: “새로 나온 Gold Credit Card에 가장

반응을 크게 할 만한 고객은?”

Communications Example: “경쟁사로 떠날 가능성이 큰

고객들은?”

Retail Example: “가격 할인을 통하여 자사의 수익을 향상

시킬 수 있는 제품은?”, “MBA”

데이터 마이닝의 필요성

30

ºÐ ¼®°ü Á¡

BQ¹ø È£

Business Question Example Data View±Çö¹æ ¹ý

¿ì ¼±¼ø À§

Factin Data View

Dimensionin Data View

°í °ÇÁ ·ÎÆÄ ÀÏºÐ ¼®

1 Áö Á¡ º° °í ° ® ½º Æ® Çö Àç ¤· ¤· Áö Á¡ °Å ·¡ °í ° ¼ö ¹× ®½º Æ® Â ?

°í ° ¹ø È£ (ÁÖ ¹Î ¹ø È£ ), °è ÁÂ ¹ø È£ , ¿¹Å¹ ÀÚ »ê , ÁÖ ½Ä Æò °¡ ¾× , Ã¤ ±Ç Æò °¡ ¾× ,°í ° Æ¼º (ÀÎ ± Åë °è ), Áö Á¡ ¹ø È£

OLAP 1 °í ° ¼ö (°í ° ¹ø È£ ), °í ° ® ½º Æ® Áö Á¡ (Áö Á¡ ¹ø È£ )

2 °³ ÀÎ ,¹ý ÀÎ °í ° ÀÇ ±â º» Á¤ º °³ ÀÎ °í ° ÀÇ ½Å »ó Á¤ º ¹× ¹ý ÀÎ ÀÇ Àç¹« Çö È² Àº ?

°í ° ¹ø È£ (ÁÖ ¹Î ¹ø È£ ), °è ÁÂ ¹ø È£ , ¿¹Å¹ ÀÚ »ê , ÁÖ ½Ä Æò °¡ ¾× , Ã¤ ±Ç Æò °¡ ¾× ,°í ° Æ¼º (ÀÎ ± Åë °è ), Áö Á¡ ¹ø È£ , ¿¹Å¹ ÀÚ »ê

OLAP 1 °í ° ¼ö (°í ° ¹ø È£ ), °í ° ® ½ºÆ® , ¿¹ Å¹ ÀÚ »ê ( ÁÖ ½Ä Æò °¡ ¾× , Ã¤±Ç Æò °¡ ¾× ), °í ° Æ¼º (¿¬ ·É , Á÷¾÷, ¼º º° µî )

Áö Á¡ (Áö Á¡ ¹ø È£ ), °í ° ± ºÐ (°³ /¹ý ÀÎ ), °í °

°í °ÀÚ »êºÐ ¼®

3 ÀÚ »ê ±Ô ð º° Áö Á¡ º° °í ° ® ½º Æ® ¿¹ Å¹ ÀÚ »ê ±Ô ð °¡ 5Ãµ ¸ ¿ø ÀÌ »ó ÀÎ¤· ¤· Áö Á¡ °í ° µé Àº ?

Áö Á¡ ¹ø È£ , °í ° ¹ø È£ , °è ÁÂ ¹ø È£ , ¿¹Å¹ ÀÚ »ê , ÁÖ ½Ä Æò °¡ ¾× , Ã¤ ±Ç Æò °¡ ¾× ,°è ÁÂ ÀÜ °í

OLAP 1 °í ° ¼ö (°í ° ¹ø È£ ), °í ° ® ½º Æ® ÀÚ »ê ±Ô ð (¿¹ Å¹ ÀÚ »ê , ÁÖ ½Ä Æò °¡¾× , Ã¤ ±Ç Æò °¡ ¾× , °è ÁÂ ÀÜ °í )Áö Á¡

4 Áö Á¡ º° ¿¬ ·É º° ÀÚ »ê º À Çö È² ¤· ¤· Áö Á¡ 40ë °í ° µé ÀÇ ¿¹ Å¹ ÀÚ »êÆ÷Æ® Æú ® ¿À ± ¼º ºñ À² Àº ?

°í ° ¹ø È£ , °è ÁÂ ¹ø È£ , ¿¹ Å¹ ÀÚ »ê , ÁÖ½Ä Æò °¡ ¾× , Ã¤ ±Ç Æò °¡ ¾× , °í ° Æ¼º(ÀÎ ± Åë °è ), Áö Á¡ ¹ø È£

OLAP 1 °í ° ¼ö (°í ° ¹ø È£ ), °í ° ® ½º Æ® °í ° Æ¼º (¿¬ ·É ). Áö Á¡ (Áö Á¡ ¹øÈ£ ), ¿¹ Å¹ ÀÚ »ê ±Ô ð

°í °¸ ±âºÐ ¼®

5 ÆÁ¤ ±â °£ ¸ ±â µµ ·¡ °í ° ® ½º Æ® Ù À½ Þ ¸ ±â µµ ·¡ ÇÏ Â ¼ö ÀÍ Áõ ±Ç ºÀ ÇÑ °í ° µé Àº ?

¸ ±â ÀÏ ÀÚ , °í ° ¹ø È£ , ¼ö ÀÍ Áõ ±Ç °èÁÂ ¹ø È£ , ¼ö ÀÍ Áõ ±Ç Æò °¡ ¾× ,°í ° Æ¼º(ÀÎ ± Åë °è )

OLAP 1 °í ° ¼ö (°í ° ¹ø È£ ), °í ° ® ½º Æ® ±â °£ (¸ ±â ÀÏ ÀÚ ), ¼ö ÀÍ Áõ ±Ç í

°í °°Å ·¡ºÐ ¼®

6 ÆÁ¤ ±â °£ ¾à Á¤ ±â ÁØ °í ° ºÐ Æ÷ 2/4ºÐ ±â ¾à Á¤ ÀÌ 1¾ï ÀÌ »ó ÀÎ °í ° Àºî %ÀÌ ç © ± ÀÎ °¡ ?

Å Å ÀÏ ÀÚ , °í ° ¹ø È£ , Å Å À Çü , ÅÅ Ü °¡ , Å Å ¼ö ·®

OLAP 1 °í ° ¼ö (°í ° ¹ø È£ ) ±â °£ , ¾à Á¤ ¾×±Ô ð

7 Á¾ ñ º° ÁÖ ½Ä Å Å Ã¼ °á ³» ¿ª ¹ý ÀÎ °í ° ÀÇ ÆÁ¤ Á¾ ñ Å Å Ã¼ °á ÇöÈ² Àº ?

°í ° ¹ø È£ , Á¾ ñ í , °Å ·¡ ³» ¿ª OLAP 1 Å Å ³» ¿ª Á¾ ñ í , °í ° ± ºÐ (°³ /¹ý ÀÎ )

8 °í ° º° ÀÔ Ãâ ±Ý ÆÐ ÅÏ °í ° º° ÀÔ Ãâ ±Ý °Å ·¡ °¡ À ÀÇ ÇÑ ÆÐ ÅÏÀ ·Î ³ª Å ³ª Â °¡ ?

ÀÔ ±Ý (°í )ÀÏ ½Ã , ÀÔ ±Ý ¾×, Ãâ ±Ý ¾× , ÀÔ°í ·® , Ãâ °í ·®

Mining 2

9 ÆÁ¤ ÀÔ Ãâ ±Ý ÆÐ ÅÏ °í ° ® ½º Æ® ±Ý ¿ä ÀÏ ÀÔ ±Ý ÈÄ ¿ù ¿ä ÀÏ Ãâ ±Ý ÇÏ Â °í° Àº ?

ÀÔ ±Ý (°í )ÀÏ ½Ã , ÀÔ ±Ý ¾×, Ãâ ±Ý ¾× , ÀÔ°í ·® , Ãâ °í ·®

OLAP 2 °í ° ® ½º Æ® ÀÔ Ãâ ±Ý ÆÐ ÅÏ (ÀÔ ±Ý (°í )ÀÏ ½Ã , ÀÔ±Ý ¾×, Ãâ ±Ý ¾× , ÀÔ °í ·® , Ãâ °í ·® )

10 Áö Á¡ º° °í ° º° Åõ ½Å ,±Ý À¶ »ó Ç° Æò ÀÜÃß ÀÌ

¤· ¤· Áö Á¡ °í ° µé ÀÇ 9¿ù Æò ÀÜ ¹× ¿ùº° Ãß ¼¼ Â ?

Áö Á¡ ¹ø È£ , °í ° ¹ø È£ , °è ÁÂ ¹ø È£ , ÆòÀÜ

OLAP 1 Æò ÀÜ Áö Á¡ , °í ° (°í ° ¹ø È£ ), ±â °£

11 ÆÁ¤ ±â °£ ÀÚ »ê ±Ô ð º° °í ° È Àü À²ºÐ ¼®

2/4ºÐ ±â ¿¹ Å¹ ÀÚ »ê 1¾ï ÀÌ »ó °í ° µéÀÇ À§ Å¹ °Å ·¡ È Àü À² Àº ?

½Ã ÀÛ ±Ý ¾×, Å Å ÀÏ ÀÚ , Å Å ¼ö ·® , ÅÅ Ü °¡ , °í ° ¹ø È£ , °è ÁÂ ¹ø È£ , ¿¹ Å¹ÀÚ »ê , È Àü À²

OLAP 1 È Àü À² ºÐ ¼® (Å Å ¼ö ·® , Å Å Ü°¡ , È Àü À² )

ÆÁ¤ ±â °£ °í ° ÀÚ »ê ±Ô ð (Å ÅÀÏ ÀÚ , ¿¹ Å¹ ÀÚ »ê , °í ° ¹ø È£ , °èÁÂ ¹ø È£ )

12 ¹Ì ¼ö °í ° ® ½º Æ® ¿µ ¾÷Á÷¿ø º° ¹Ì ¼ö °í ° ® ½º Æ® Â ? °í ° ¹ø È£ , °í ° ± ºÐ , °è ÁÂ ¹ø È£ , ¹Ì¼ö ±Ý ¾×

ÇÁ ·Î ¼¼ ½º°³ ¼±

N.A

13 Áõ ±Ç »ç º° Ã¤ ³Î º° ¼ö ¼ö ·á Â÷ÀÌ ¿¡ µû¥ °í ° ÀÇ °¡ °Ý ¹Î ° µµ

¼ö ¼ö ·á º È ¿¡ µû ¥ Ã¤ ³Î º° ¾à Á¤ ¾×º È Â ?

°í ° ¹ø È£ , ¼ö ¼ö ·á , °¡ °Ý ¹Î ° µµ Mining 2

14 Ãß Ãµ Á¾ ñ º° Å Å ÆÐ ÅÏ Ãß Ãµ Á¾ ñ ¿¡ ë ÇÑ °í ° º° Å Å ÆÐ ÅÏÀº ?

°í ° ¹ø È£ , Ãß Ãµ Á¾ ñ , °Å ·¡ Á¾ ñ , °Å·¡ ³» ¿ª

Mining 2

Business Question의 예

지식추출과정

31

DB

DW

Task Data

Results

Knowledge

(data cleaning & integration)

(data selection)

(data mining)

(extracting hidden patterns)

Data Mining Process (ex1)

(step 1) Learning the application domain: 업무 주제의 결정 및 적용 도

메인에 대한 지식 습득

(step 2) Creating a target data set: 분석에 사용될 데이터의 결정

(step 3) Data cleaning and preprocessing: 데이터의 정제와 전처리

(step 4) Data reduction and transformation: 데이터의 축소 및 변형

(step 5) Choosing functions of data mining: 데이터 마이닝 함수 선택

(step 6) Choosing the mining algorithm: 마이닝 알고리즘의 선택

(step 7) Search for patterns of interest: 흥미 있는 패턴의 선택

(step 8) Pattern evaluation and knowledge presentation: 패턴 평가 및

지식의 표현

(step 9) Use of discovered knowledge: 지식의 적용

32

Data Mining Process (ex3)

33

•현황파악

•BD & BQ

•주제선정을

통한개발범

위및방항설

정

•프로젝트

일정및인력

에대한결정

•현황파악

•BD & BQ

•주제선정을

통한개발범

위및방항설

정

•프로젝트

일정및인력

에대한결정

•분석데이터

의변수및범

위선정

•데이터추출

•분석용 DB

구축 (DW)

•분석데이터

의변수및범

위선정

•데이터추출

•분석용 DB

구축 (DW)

•마케팅관점

에서모형의

적합성평가

•Remodeling

방향설정

•마케팅관점

에서모형의

적합성평가

•Remodeling

방향설정

•데이터변환

•단일변수의

특성파악

•변수들간의

관계파악

•1차적인

feature 선택

•개발모형에

대한검토

•데이터변환

•단일변수의

특성파악

•변수들간의

관계파악

•1차적인

feature 선택

•개발모형에

대한검토

•추상적인변

수의구체화

•최종적인

feature의결

정

•최종모형의

완성

•모형에기반

의규칙을시

스템에이식

•추상적인변

수의구체화

•최종적인

feature의결

정

•최종모형의

완성

•모형에기반

의규칙을시

스템에이식

•시범적용

범위및일정

수립

•구체적인

모니터링디

자인

•현장점검

•결과분석

•시범적용

범위및일정

수립

•구체적인

모니터링디

자인

•현장점검

•결과분석

•시범적용을

통한문제점

해결

•최종적용

범위결정및

마케팅성과

분석방안결

정

•현장점검

•시범적용을

통한문제점

해결

•최종적용

범위결정및

마케팅성과

분석방안결

정

•현장점검

W

O

R

K

W

O

R

K

StepStepStep 주제선정주제선정주제선정 ETTETTETT EDAEDAEDA ModelingModelingModeling 시범적용시범적용시범적용 전사적용전사적용전사적용 성과분석성과분석성과분석

•기초현황파

악보고서

•개발계획

보고서

•업무요건정

의서

•기초현황파

악보고서

•개발계획

보고서

•업무요건정

의서

•Mart DB 레

이아웃t

•데이터추출

리스트

•Mart DB 레

이아웃t

•데이터추출

리스트

•성과분석

보고서

•최종프로젝

트보고회및

보고서

•성과분석

보고서

•최종프로젝

트보고회및

보고서

•데이터변환

프로스램

•데이터충실

도조사

•기초통계

분석보고서

•데이터변환

프로스램

•데이터충실

도조사

•기초통계

분석보고서

•선정주제

대한모형간

성능비교표

•마이닝모형

을통한마케

팅규칙

•선정주제

대한모형간

성능비교표

•마이닝모형

을통한마케

팅규칙

•시범적용

계획안

•최종사용자

를위한 UI

•우수사례집

•시범적용결

과보고서

•시범적용

계획안

•최종사용자

를위한 UI

•우수사례집

•시범적용결

과보고서

•현장적용을

위한설명서

•현업사용자

에대한교육

•현장적용을

위한설명서

•현업사용자

에대한교육

R

E

S

U

L

T

R

E

S

U

L

T

Business&

Statistics

ComputerScience

Statistics&

ComputerScience

Business&

Statistics

변수선정 과정

마이닝 주제

-> 추상적인 변수

-> 존재변수의 맵핑(mapping)

-> 독립, 종속변수의 결정

-> feature 선택

-> 최종모형 결정

34

데이터 마이닝의 데이터

Relational Databases: 관계형 데이터베이스

Data Warehouses: 데이터웨어 하우스

Transactional databases: 거래 데이터베이스

Advanced DB and information repositories: 확장된 데이터베이스

Spatial databases: 공간 데이터베이스

WWW: 웹 데이터

35

데이터 마이닝의 성공요인

데이터 마이닝을 위한 통합된 환경을 제공할 수 있는가.

현업의 업무를 효과적이고 지속적으로 적용 가능한가.

전사적인 IT 환경에서 프로젝트 경험과 역량은 충분한가.

데이터 마이닝에 대한 이론 및 실무 능력을 갖추었나.

마이닝 결과를 활용할 수 있는 마케팅 조직 프로세스는 갖

추었는가.

통합 데이터웨어 하우스 구축이 원만하게 이루어질 수 있

는 인력과 마인드가 있는가.

36

37

CRM

“고객에 초점을 맞춘

IT 기반의 마케팅 전략”

38

Three Issues of CRM

Acquisition 고객유치

Prospect 우수고객확보

Retention 고객유지

Churn 고객이탈방지

Cross / Up Selling 교차 및 추가판매

Items, Transactions

39

CRM

Fraud Detection

Database Marketing

Target Marketing

Scoring

신용점수

우수고객점수

고객이탈 및 연체점수

활성화 점수

40

Statistical tools and A. I.

Statistical tools

통계학과

데이터의 수집 및 분석

회귀분석, 다변량분석, 군집분석, …

Artificial Intelligence

컴퓨터학과

기계 학습(machine learning)

인공신경망, 의사결정나무, …

STATISTICS Computer Science

Others

41

Six Sigma & Data Mining

원자재 제품 마케팅 고객

식스 시그마: 품질혁신, 고객만족

데이터 마이닝(분석CRM): 수익창출, 고객민족

“비제조부문의 6 시그마의 성공을 위한 데이터 마이닝과의 시너지 효과”

42

데이터 마이닝의 오해

“데이터 마이닝에 의해 구축된

컴퓨터가 모든 결과를 제공한다!!”

“그러면 지금까지 그 일을 수행해

오던 인력은 필요 없다?”

43

마약사범 적발

전체 2000명

마약사범 – 381명

일반인 – 1619명

Base Line Lift

381/2000 = 0.1905 (19.05%)

100명의 임의로 조사하면 이 중에 19명 정도가 마약사

범이다.

데이터 마이닝 모형을 구축하지 않았을 경우

44

마약사범 적발:CDW

ID 입국시간 출발지 … 마약사범여부

1 24:00 홍콩 … 1

2 17:50 시드니 … 0

3 12:30 싱가폴 … 0

… … … … …

2000 03:30 하네다 … 1

설명 반응 CDW 내의 단순순서

F(설명) = 반응

새로운 설명에 대한 반응을 예측

45

마약사범 적발: 모형

ID 마약사범여부

1 1

2 0

3 0

… …

2000 1

ID 마약사범여부 마약사범일 score

1 1 0.9875

2 0 0.0541

3 0 0.1658

… … …

2000 1 0.8754

Data Mining 모형화

46

마약사범 적발: 모형에 의한 score

순서 마약사범일 score

1 0.9967

2 0.9875

3 0.8754

… …

199 0.6687

200 0.6588

201 0.6454

202 0.5932

… …

1000 0.4875

… …

1998 0.1658

1999 0.0541

2000 0.0010

%)87(87.0200

174

(ID=2000)

(ID=1)

(ID=3)

(ID=2)

상위 10%(200명) 조사

-> 이들 중에 174명이 마약사범

57.4%05.19

%00.87ValueLift

데이터 마이닝을 통한

마약사범 단속의 향상도(Lift Value)

47

데이터 마이닝과 마이닝 도구

A B C D

데이터 마이닝 담당자

데이터 마이닝 도구(S/W)

48

데이터 마이닝 도구들

SAS: Enterprise Miner

SPSS: Clementine

S-Plus: Stat Server

NCR: Tera Miner

R-project: R

MS: Excel(VBA) – 개인적, 소규모

www.r-project.org

49

R-Project

50

R-Commander

51

R

R-Project

대부분의 통계분석 기법이 있음

SAS나 SPSS에 비해 뒤지지 않으며 오히려 최신의 마이

닝 기법(SVM, 등)이 제공됨

R-Commander

R-Project의 일부 기능을 초보자도 쉽게 사용할 수 있

도록 GUI 방식을 지원

52

53

데이터 마이닝 수행

마이닝 도구 (S/W)

OLAP

DW

Computer (DB, DW 전문가)

Statistics, A. I. (Miner)

경영전략, 마케팅 (MBA)

+

Customer Relationship Management

54

학제적 연계

Data Mining

Database Technology

Statistics

Other Disciplines

Information Science

Machine Learning

Visualization

마케팅 Bio

55

Dataware House

DB DW

OLAP

Data Mining

최적의 의사결정

운영계 DB 분석계 DB

다양한 데이터 소스

데이터 마트

80~90%

10~20%

운영계 DB와 분석계 DB

56

57

“Data Warehousing Enables Data Mining

Data Mining Justifies Data Warehousing.”

Synergy

데이터 웨어하우스가 없다고 해서

데이터 마이닝을 할 수 없는 것은 아니지만…

58

KDD Process

Data Cleaning

Data Integration

Databases

Data Warehouse

Task-relevant Data

Selection

Data Mining

Pattern Evaluation

59

Effort Required for Data Mining

“Data Understanding and Preparation takes 50-80% of project effort.”

60

Data Mining as …

“Data Mining is

an Art and a Science.”

61

Data Mining is a Science

Mathematical Methods

Statistical Analysis

Validation Procedures

Generalized Rules

이론가, 학자, …

62

Data Mining is an Art

Technical Experience

Experience in Content Domain Area

현업종사자, 실무자

Data Mining is an Art and a Science

CASE 1

현업실무자가 데이터 마이닝 이론을 습득

CASE 2

데이터 마이닝 이론가가 현업에 채용

CASE 3

현업부서가 데이터마이닝 전문가 집단의 컨설팅을 받

음

CASE 3-1 : 전적으로 컨설팅 그룹에 의존함

CASE 3-2 : 현업실무자가 컨설팅 그룹과 함께 프로젝트 수행

63

Chapter 1delab.cju.ac.kr/lecture/datamining/dm2016_1.pdf · 2016-09-07 · 빅 데이터(Big Data)...

Documents

Transcript of Chapter 1delab.cju.ac.kr/lecture/datamining/dm2016_1.pdf · 2016-09-07 · 빅 데이터(Big Data)...