Introduction Au Data Mining
-
Upload
med-mohamed -
Category
Documents
-
view
13 -
download
0
Transcript of Introduction Au Data Mining
-
7/13/2019 Introduction Au Data Mining
1/47
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1
Ricco RakotomalalaUniversit Lumire Lyon 2
-
7/13/2019 Introduction Au Data Mining
2/47
Ricco Rakotomalala
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 2
http://chiroule.univ-lyon2.fr/!ricco/cours/"ulications# ressources# liens# lo$iciels# %
-
7/13/2019 Introduction Au Data Mining
3/47
"lan
&. 'u(est ce )ue le *ata +inin$ ,
2. pcificits u *ata +inin$
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 3
. 'uel)ues e0emples1. ypolo$ie es mthoes e *ata +inin$
3. Ressources 4 ites 5e et ilio$raphie
-
7/13/2019 Introduction Au Data Mining
4/47
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 4
Une marche plus )u(une thorie 6
-
7/13/2019 Introduction Au Data Mining
5/47
Exemple introductif : demande de crdit bancaire
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 5
ivorc
3 enfants 7 char$e ch8meur en fin e roit compte 7 couvert
-
7/13/2019 Introduction Au Data Mining
6/47
coteuse en stockage
Exprience de lentreprise : ses clients et leur comportement
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 6
Comment et quelles fins utiliser cette exprienceaccumule
inexploite
-
7/13/2019 Introduction Au Data Mining
7/47
Echantillonnage Prparation des donnes
Visualisation des donnes
Graphes d'Induction Rseaux de neurones Analyse discriminante Rgression logistique
Tests statistiques Re-chantillonnage
table modles Connaissances
Le processus ECD (Extraction de connaissances partir de donnes)KDD Knowledge discovery in Databases
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 7
Fouille des
donnes (Data mining)Bases dedonnes
Mise en forme desConnaissances
DploiementExploitation
Dfinition : Processus non-trivial d identification de structures inconnues, valides et
potentiellement exploitables dans les bases de donnes (Fayyad, 199!
-
7/13/2019 Introduction Au Data Mining
8/47
Source: CRISP-DM 1.0, Step-by-step Data Mining Guide, SPSS Publication
9ous ne pouve pas travailler seul.ravailler en syner$ie avec l(e0pertu omaine est primorial 6
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 8
-
7/13/2019 Introduction Au Data Mining
9/47
mergence de lECD : domaines dapplications
Domaine des assurances analyse des risques (caractrisation des clients hauts risques, etc.)
automatisation du traitement des demandes (diagnostic des dgtset dtermination automatique du montant des indemnits)
Services financiers
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 9
consentements de prts automatiss, support la dcision de crdit dtection des fraudes
Grande distribution profils de consommateurs et modles dachats constitution des rayonnages marketing cibl
-
7/13/2019 Introduction Au Data Mining
10/47
*finition :
"rocessus non-trivial (ientification e structures inconnues# valieset potentiellement e0ploitales ans les ases e onnes ;?
Est-ce vraiment nouveau ?
*ata +inin$ : Une nouvelle faon e faire e la statisti)ue ,http://ceric.cnam.fr/!saporta/*+.pfL(analyse es onnes est un outil pour $a$er e la $an$ue es onnes le
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 10
pur amant e a v r )ue nature.A . . en cr
he asic steps for evelopin$ an effective process moel ,http://555.itl.nist.$ov/ivE=E/hanook/pm/section1/pm1&.htm
&. +oel selection2. +oel fittin$. +oel valiation
-
7/13/2019 Introduction Au Data Mining
11/47
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 11
;&? ources e onnes;2? echni)ues utilises;? +ultiplicit es supports
-
7/13/2019 Introduction Au Data Mining
12/47
ources e onnes valoriser les fichiers e l(entreprise construire es entrep8ts moifier le schma or$anisationnel
echni)ues utilises (
Spcificits du Data Mining
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 12
Glar$issement es supports e0t minin$ Fma$e minin$
% +ultimia minin$
-
7/13/2019 Introduction Au Data Mining
13/47
Les sources de donnes
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 13
"toc#a$e orientation analyse historises
non-volatilesProduction orientation service;ventes# comptailit#marketin$%? volatiles
-
7/13/2019 Introduction Au Data Mining
14/47
Lorganisation du flux dinformations et les acteurs
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 14
-
7/13/2019 Introduction Au Data Mining
15/47
Systmes de gestion
(oprationnel)
Systmes dcisionnels
(analyse)
Objectifddi au mtier et la productionex: facturation, stock, personnel
ddi au management de l'entreprise(pilotage et prise de dcision)
donnes volatiles
'
donnes historises
Systmes de gestion et systmes dcisionnels
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 15
(perennit)
temps
prix, introduction d'une information dat
Optimisation
pour les oprations associes
ex: passage en caisse (lecture de
code barre)
pour l'analyse et la rcapitulation
ex: quels les produits achets
ensembles
Granularit
des donnes
totale, on accde directement aux
informations atomiques
agrgats, niveau de synthse selon les
besoins de l'analyse
-
7/13/2019 Introduction Au Data Mining
16/47
Data Mining vs. Informatique Dcisionnelle (Business Intelligence)
L(informati%ue dcisionnelle ;% CF pour Cusiness Fntelli$ence? si$ne les moyens# lesoutils et les mthoes )ui permettent e collecter# consolier# moliser et restituerles onnes Hune entreprise en vue Hoffrir une aie 7 la cision et e permettreau0 responsales e la strat$ie Hune entreprise (avoir une vue (ensemle el(activit traite.;http://fr.5ikipeia.or$/5iki/Fnformati)ueIcisionnelle?
lectionner les onnes ;par rapport 7 un suJet et/ouune prioe?
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 16
#
critres Glaorer es calculs rcapitulatifs K simples A ;totau0#moyennes conitionnelles# etc.? "rsenter les rsultats e manire synthti)ue;$raphi)ue et/ou taleau0 e or? R"MRFNO
http://www.commentcamarche.net/entreprise/business-intelligence.php3
Le *ata +inin$ est proche e ce care# mais elleintrouit une imension supplmentaire )ui est lamolisation K e0ploratoire A ;tection es liens ecause 7 effet# valiation e leur reprouctiilit?
-
7/13/2019 Introduction Au Data Mining
17/47
Spcificits du Data Mining
echni)ues (e0ploration e onnes *es techni)ues (ori$ines iverses# issues e cultures iffrentes %mais )ui traitent es prolmes similaires
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 17
et )ui partent touJours (un taleau e onnes
-
7/13/2019 Introduction Au Data Mining
18/47
Techniques utilises selon leur origine
tatisti)ueshorie e l(estimation# testsGconomtrie+a0imum e vraisemlance et moinres carrsR$ression lo$isti)ue# %
Pnalyse e onnes;tatisti)ue e0ploratoire?*escription factorielle*iscriminationQlusterin$
+thoes $omtri)ues# proailitsPQ"# PQ+# Pnalyse iscriminante# QP# %
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 18
Fnformati)ue;Fntelli$ence artificielle?Ppprentissa$e symoli)ueReconnaissance e formes
Une tape e l(intelli$ence artificielleRseau0 e neurones# al$orithmes $nti)ues%
Fnformati)ue;Case e onnes?0ploration es ases e onnes
9olumtrieR$les (association# motifs fr)uents# %
rs souvent# ces mthoes reviennent 7 optimiser les mSmes critres#mais avec es approches / formulations iffrentes
-
7/13/2019 Introduction Au Data Mining
19/47
Techniques issues de lIntelligence Artificielle
Les rseaux de neurones artificiels
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 19
capacit d apprentissage(universel) structuration / classement
-
7/13/2019 Introduction Au Data Mining
20/47
Techniques en provenance des BD
If MARITAL_STMARITAL_STMARITAL_STMARITAL_ST is DivorcedDivorcedDivorcedDivorcedThen
SPOUSE_TITSPOUSE_TITSPOUSE_TITSPOUSE_TIT is NoneNoneNoneNone
Rule's probability: 0.9520.9520.9520.952The rule exists in 40404040 records.
If MARITAL_STMARITAL_STMARITAL_STMARITAL_ST is DivorcedDivorcedDivorcedDivorcedand LOAN_LENGTLOAN_LENGTLOAN_LENGTLOAN_LENGT = 4.004.004.004.00Then
Les rgles dassociation
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 20
GUARANTEEGUARANTEEGUARANTEEGUARANTEE is NoNoNoNoRule's probability: 0.9660.9660.9660.966The rule exists in 28282828 records.
AAAA = B + 2.00B + 2.00B + 2.00B + 2.00where: AAAA = FAMILY_COUFAMILY_COUFAMILY_COUFAMILY_COU
BBBB = CHILDRENCHILDRENCHILDRENCHILDREN
Accuracy level : 0.960.960.960.96The rule exists in 397397397397 records.
traitement omnibus connaissance interprtable
-
7/13/2019 Introduction Au Data Mining
21/47
Spcificits du Data Mining
Glar$issement es supports e0t minin$ Fma e minin
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 21
%autres%L(apprhension es sources multiples
-
7/13/2019 Introduction Au Data Mining
22/47
largir les supports
"rictiontructuration
R8le fonamental e laprparation es onnes
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 22
escr p on
Pssociation
Les applications
-
7/13/2019 Introduction Au Data Mining
23/47
Data Mining vs. Big data (1/3) - http://fr.wikipedia.org/wiki/Big_data
Les i$ ata# littralement les $rosses onnes# est une e0pressionan$lophone utilise pour si$ner es ensemles e onnes )uieviennent tellement volumineu0 )uHils en eviennent ifficiles 7travailler avec es outils classi)ues e $estion e ase e onnes oue $estion e lHinformation.
Le Ci$ *ata sHaccompa$ne u veloppement Happlications 7 viseanalyti)ue# )ui traitent les onnes pour en tirer u sens. Qes
DEFINITIO
N
DEFINITIO
N
DEFINITIO
N
DEFINITIO
N
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 23
ana yses son appe es $ na y cs ou roya$e e onn es . es
portent sur es onnes )uantitatives comple0es avec es mthoese calcul istriu.
n 2VV un rapport e recherche u +P Oroup ;evenu Oartner?finit les enJeu0 inhrents 7 la croissance es onnes comme tanttri-imensionnels : les analyses comple0es rponent en effet 7 lar$le ite es K 9 A# volume# vlocit et varit. Qe mole estencore lar$ement utilis auJourHhui pour crire ce phnomne.
ENJEUX
ENJEUX
ENJEUX
ENJEUX
-
7/13/2019 Introduction Au Data Mining
24/47
Data Mining vs. Big Data (2/3) Les 3 V
VOLUME
VOLUME
VOLUME
VOLUME Mutils e recueil e onnes e plus en plus prsents# ans lesinstallations scientifi)ues# mais aussi et surtout ans notre vie e tous
les Jours ;e0. cookies# O"# rseau0 sociau0 Wex. lien like - profils X#cartes e filit# etc.?.Fl faut pouvoir les ;onnes? traiter 6
TETETETE
ources# formes et es formats trs iffrents# structures ou non-structures : on parle $alement e onnes comple0es ;e0. te0te en
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 24
VAR
I
VAR
I
VAR
I
VAR
I provenance u 5e# ima$es# liste (achats# onnes e $olocalisation#etc.?.Fl faut les traiter simultanment 6
VELOCIT
E
VELOCITE
VELOCITE
VELOCIT
E
+ises 7 Jour fr)uentes# onnes arrivant en flu0# osolescence rapiee certaines onnes% ncessit (analyses en )uasi temps rel ;e0.tection / prvention es faillances# $estion e file (attente?Fl faut les traiter rapiement 6
D t Mi i Bi D t (3/3)
-
7/13/2019 Introduction Au Data Mining
25/47
Data Mining vs. Big Data (3/3)
BigBigBigBigd
atavs.BI?
d
atavs.BI?
d
atavs.BI?
d
atavs.BI?
;Yikipia? ...la maturation u suJet fait apparaitre un autre critre plusfonamental e iffrence (avec le Cusiness Fntelli$ence et concernantles onnes et leur utilisation : Cusiness Fntelli$ence : utilisation e statisti)ue escriptive Wreportin$#taleau0 e or#%X# sur es onnes 7 forte ensit en information afine mesurer es phnomnes# tecter es tenances% Z
Ci$ *ata : utilisation e statisti)ue infrentielle# sur es onnes 7faile ensit en information ont le $ran volume permet (infrer eslois ;r$ressions%.? onnant s lors ;avec les limites e l(infrence? aui$ ata es capacits prictives Wmolisation# analyse prictive#%X.
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 25
Mais alorsMais alorsMais alorsMais alors BIG DATA = DATA MINING ++++++++
Avec de nouveauxAvec de nouveauxAvec de nouveauxAvec de nouveaux dfisdfisdfisdfistechnologiquestechnologiquestechnologiquestechnologiques ////mthodologiques lis auxmthodologiques lis auxmthodologiques lis auxmthodologiques lis aux3 3 3 3 VVVV
Cloud computing (ex. APACHE
HADOOP / MAHOUT) Fouille de donnes complexes Data stream mining
Etc.
-
7/13/2019 Introduction Au Data Mining
26/47
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 26
;&? Qila$e e clientle : le scorin$;2? Gti)ueta$e automati)ue e K nouvelles A
-
7/13/2019 Introduction Au Data Mining
27/47
Ciblage de clientle par publipostage (1/2)
Can)ue franaise
MJectif : Pu$menter l(ahsion 7 un service en li$ne ;tau0 (aonnement actuel 1[?
Case marketin$ : plusieurs centaines e milliers e clients#!2VV variales ;=3[ sont )uantitatives?
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 27
+thoe : isoler es $roupes (inivius se ressemlant ans le)uel
le tau0 (aonnement est lev
les non-aonns ans ces $roupes seront ;certainement ,? sensiles 7 une offre cile;hypothse : s(ils ne sont pas aonns# c(est )u(ils n(ont pas reu l(information?
techni)ue : arre e cision avec chantillonna$e )uilir sur cha)ue noeu
-
7/13/2019 Introduction Au Data Mining
28/47
valuation : dpasser le taux (cot) derreur, mesurer la qualit du ciblage meilleur ciblage : toutes les personnes contactes ont souscrit un contrat
0.4
0.6
0.8
1
ulative%o
f"rare
"
Optimal
BLS-10000
BLS-500
BLS-300
BgS-10000
Ciblage de clientle par publipostage (2/2)
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 28
0
0.2
0 0.2 0.4 0.6 0.8 1
Cumulative % of the population
Cu
BgS-2000
Random
Individu
Probabilitde
souscrire
Pourc. Ind.
cumul
Pourc. Cibls
Cumul Pourc. Cibl
4 0.95 10% 19% 0.19
9 0.9 20% 37% 0.18
10 0.8 30% 53% 0.16
6 0.65 40% 66% 0.13
3 0.6 50% 78% 0.127 0.5 60% 88% 0.1
2 0.35 70% 95% 0.07
5 0.25 80% 100% 0.05
8 0 90% 100% 0
1 0 100% 100% 0
5.00
T t Mi i C t i ti d ll (1/3)
-
7/13/2019 Introduction Au Data Mining
29/47
Text Mining Catgorisation de nouvelles (1/3)
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 29
T t Mi i C t i ti d ll (2/3)
-
7/13/2019 Introduction Au Data Mining
30/47
Text Mining Catgorisation de nouvelles (2/3)
Codage de texte en tableau de donnes
Les chercheurs qui cherchent, on en trouve
Mais les chercheurs qui trouvent, on en cherche
Mots cls lemmatisation sto words
Phrase Les Chercheurs Qui Cherchent On En Trouve Mais Trouvent Cherche
1 1 1 1 1 1 1 1 0 0 0
2 1 1 1 0 1 1 0 1 1 1
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 30
3-grams corresp. avec les mots
problme du sens
Phrase Les es s c ch che her rch eur
1 1 1 1 2 4 2 2 1
2 1 1 1 1 4 2 2 1
T t Mi i C t i ti d ll (3/3)
-
7/13/2019 Introduction Au Data Mining
31/47
Text Mining Catgorisation de nouvelles (3/3)
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 31
Exemple : appartenance au sujet crude (ptrole brut)
-
7/13/2019 Introduction Au Data Mining
32/47
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 32
'uelle mthoe utiliser par rapport : au0 oJectifs e l(tue ,
au0 onnes isponiles ,
Tableau de donnes
-
7/13/2019 Introduction Au Data Mining
33/47
Tableau de donnes
Success Wages Job Refunding
Y 0 Unemployed Slow
N 2000 Skilled Worker Slow
N 1400 Worker Slow
Variables, caractres, attributs,Descripteurs, champs, etc.
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 33
Y 2776 Skilled Worker Slow
N 2439 Retired FastN 862 Office employee Slow
Y 1400 Salesman Slow
N 1700 Skilled Worker Slow
Y 785 Employee Fast
Y 1274 Worker Slow
N 960 Employee Fast
N 1656 Worker FastN 0 Unemployed Slow
Individus, observations, objets, enregistrements, etc.
Types de variables
-
7/13/2019 Introduction Au Data Mining
34/47
donnes nominales ;e0. success# Jo%? nomre e cas nomrales cos pour istin$uer les moalits aucune relation (orre entre les coes oprateurs arithmti)ues/mathmati)ues inapplicales
donnes ordinales ;e0. Refunin$%? nomre e cas nomrales cos pour istin$uer les moalits il e iste une relation (orre entre les moalits
Types de variables
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 34
les carts ne sont pas )uantifiales cos sous forme e ran$s# on peut appli)uer es calculs donnes numri%ues ou continues ;e0. Ya$es%?
nomre e cas thori)uementinfini il e0iste une relation (orre entre les valeurs les carts sont )uantifiales istinction entre chelle proportionnelle et non-proportionnelle;e0. 2V\Q/&V\Q ] 2 et >E\ : non proportionnelle Z k$ et livres : proportionnelle ? calculs autoriss# al$ri)ues
Distinguer les types de variables
-
7/13/2019 Introduction Au Data Mining
35/47
Distinguer les types de variables
Mn peut istin$uer les iffrents types e onnes 7 partir ela finition e l (oprateur iffrence :
Nominale :
==
ba
ba
AB
xxsi
xxsid
,1
,0
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 35
Ordinale :
+
=
ba
ba
ba
AB
xxsi
xxsi
xxsi
d
,1
,0
,1
Continue : baAB xxd =
Qualitatives vers continues
-
7/13/2019 Introduction Au Data Mining
36/47
Qoa$e isJonctif complet
*onnes continues*onnes )ualitatives ;nominales# orinales?
Refunding
Qualitatives vers continues
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 36
Fast
SlowFast
Normal
Slow
_ _ _
0 0 1
1 0 0
0 0 1
0 1 0
1 0 0
on per l (information (orre sur les onnes orinales
Continues vers ordinales
-
7/13/2019 Introduction Au Data Mining
37/47
Continues vers ordinales
Donnes ordinalesDonnes continues
Discrtisation par expert automatique non-contextuelle automatique contextuelle
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 37
age
1000
age
vieuxadultejeune
on perd l information sur les carts on peut traiter des relations non-linaires
Continues vers continues
-
7/13/2019 Introduction Au Data Mining
38/47
Donnes continuesDonnes continues
Standardisation centrage ex : taille = 2m20, taille = 0m50 au dessus de la moyenne rduction ex : taille = 0m50 ou taille = 50cm au dessus de la moyenne
Continues vers continues
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 38
Transformation distributionnelle
Var Orig.
0
6
12
1824
30
36
42
48
54
60
66
72
78
14
Var Transf.
0
2
4
6
8
10
12
14
16
18
20
22
24
3
)ln(12
xx =
Tpologie !es mtho!es selon les ob"ectifs
-
7/13/2019 Introduction Au Data Mining
39/47
p g "
Description :trouver un rsum es
onnes )ui soit plus intelli$ile statisti)ue escriptive analyse factorielle
L0 : moyenne (^$e es personnesprsentant un cancer u sein
"tructuration :
-
7/13/2019 Introduction Au Data Mining
40/47
#ous tpologie selon le tpe !e !onnes : la pr!iction / explication
0plication
no$ne continue
no$ne continue0o$nes iscrtes
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 40
)$ression
no$ne iscrte0o$nes )uelcon)ues
'pprentissa$e supervis
'nalyse de variance
-
7/13/2019 Introduction Au Data Mining
41/47
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 41
;&? Lo$iciels;2? Muvra$es et ressources en li$ne
Logiciels de DATA MINING Fonctionnalits
-
7/13/2019 Introduction Au Data Mining
42/47
g
Pccs et prparation es onnesPccer 7 un fichier / une C*Rassemler es sources iffrentes
+thoes e
-
7/13/2019 Introduction Au Data Mining
43/47
g g
Commerciaux
SPAD
SAS Enterprise miner
SPSS Clementine
STATISTICA Data Miner
IBM Intelligent Miner
RAPIDMINER (*)
implicit u pilota$e ;filire - ia$ramme? echni)ues varies
*ploiement Mutils e K reportin$ A
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 43
KNIME (*)
Universitaires
R (*)
TANAGRASIPINA v2.5 & Recherche
WEKA (*)
ORANGE
pcifi)ue 7 certaines techni)ues echni)ues rfrences - pulies Mutils e valiation
Conclusion
-
7/13/2019 Introduction Au Data Mining
44/47
La marche *PP +FNFNO
formalisation es oJectifs ac)uisition es onnes
prparation es onnes apprentissa$e 4 application es mthoes interprtation 4 e0plication
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 44
ploiement
"as e miracle si :
Les oJectifs sont mal finisLes onnes isponiles ne conviennent pasLes onnes sont mal K prpares AMn n(utilise pas les techni)ues appropries
Bibliographie : pratique du Data Mining
-
7/13/2019 Introduction Au Data Mining
45/47
K Le *ata minin$ A# R. Lefeure et O. 9enturi# e. yrolles# 2VV&.
"eu techni)ue# point e vue $nral# trs on recul# complet
K *ata +inin$ et statisti)ue cisionnelle A# . uffry# e. techni)ue# 2VV>.
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 45
# #
K Pnalyse iscriminante 4 Ppplication au ris)ue et au scorin$ financier A# +.Caros# e. *uno# 2VV&.2echni)ue prati)ue# avec e ons repres thori)ues# tourn vers les applications
Bibliographique : comprhension des mthodes
-
7/13/2019 Introduction Au Data Mining
46/47
K *ata +inin$ : "ractical machine learnin$ tools an techni)ues 5ith Bava
implementations A# F. Yitten an .
-
7/13/2019 Introduction Au Data Mining
47/47
ites 5e et portails : http://chiroule.univ-lyon2.fr/!ricco/ata-minin$
Un portail pour la ocumentation : liens# supports e cours en li$ne# lo$iciels# onnes *ata +inin$ i0it Yikipia : http://fr.5ikipeia.or$/5iki/0plorationIeIonnes
ite es tutoriels :
Ricco RakotomalalaTutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 47
- - . .
http://555.knu$$ets.comK Le A portail u *PP +FNFNO# avec toute l(actualit u omaine
Ci$ ata i0it P : http://555.sas.com/i$-ata/