Présentation memo
-
Upload
cheikh-tidiane-thiandoum -
Category
Business
-
view
476 -
download
0
Transcript of Présentation memo
1
République du Sénégal
Un Peuple – Un But – Une Foi
UNIVERSITE CHEIKH ANTA DIOP DE DAKAR
FACULTE DES SCIENCES ET TECHNIQUESDEPARTEMENT MATHS /INFO
SECTION INFORMATIQUEOPTION : S.I.R
MEMOIRE DE MASTER II INFORMATIQUE
Présenté et soutenu par:Cheikh Tidiane THIANDOUM
Encadreur: M. Alphonse Diombo THIAKANE
Consultant en systèmes d’informationExpert en Business Intelligence [Année académique 2009-2010]
OUTIL DE DATA MINING :Les Arbres de décision et l’Analyse des
Correspondances sur une plateforme web
applicable a un entrepôt de données.
PLAN2
PRESENTATION DU SUJET
• INTRODUCTION• PRESENTATION ET PROBLEMATIQUE DU SUJET
PREMIERE PARTIE
• ETAT DE L’ART DU DATA MINING
DEUXIEME PARTIE
• LES ARBRES DE DECISION• L’ANALYSE DES CORRESPONDANCES
TROISIEME PARTIE
• CONCEPTION ET MISE EN ŒUVRE DE L’OUTIL• CONCLUSION
INTRODUCTION3
Production des entreprises en un temps record d’une masse importante de données.
Nécessité de développer de nouveaux outils
Objet de ce mémoire: les arbres de décision et l’analyse des correspondances (simples).
•Le DM comme discipline salvatrice des entreprises: techniques dérivées de différents domaines.
TRAVAIL A FAIRE
4
PRESENTATION ET PROBLEMATIQUE DU SUJET
PLATEFORME WEB
ARBRES DE DÉCISION
ANALYSE DES CORRESPONDANCES
Facteurs:
5
La croissance exponentielle de la collecte des données,
Augmentation des capacités de stockage des données (disques durs de giga octets);
Prolifération en parallèle des capacités de traitements des données;
L’émergence des entrepôts de données;
La disponibilité des données grâce aux réseaux (intranet et internet);
ETAT DE L’ART DU DATA MINING
Le Data mining comme domaine pluridisciplinaire
Deux types de DM: supervisé et non supervisé.
GENÈSE ET DÉFINITION DU DM
A P P L I C A T I O N SMETIERS DU DM
PROCESSUS STANDARD D’UNE ETUDE DE DM
LE DM DANS LE PROCESSUS KDD
TECHNIQUES ET LOGICIELS DU DM
Définition:
Marketing/stratégie: prévisions de ventes, ciblage de clientèle, des besoins, des relations entres les différents produits
6
Secteur bancaire : scoring; cibler les
propositions de prêts et éviter les surendettements
Relations clientes: évaluer les risques, anticiper les
attentes futures
Secteur de la téléphonie : prédiction de l’attrition
Scientifique : identification et classification
d'objets célestes.
Sécurité informatique: recherche de
transactions frauduleuses par la police
ETAT DE L’ART DU DATA MINING
Grande distribution: analyse du panier de la
ménagère
Médical: analyse de résultat d’une expérimentation
GENÈSE ET DÉFINITION DU DM
A P P L I C A T I O N SMETIERS DU DM
PROCESSUS STANDARD D’UNE ETUDE DE DM
LE DM DANS LE PROCESSUS KDD
TECHNIQUES ET LOGICIELS DU DM
7ETAT DE L’ART DU DATA MINING
PROCESSUS du DATA MINING
Acteurs Étapes Phases
Maître
d’œuvre
Objectifs 1 : Compréhension du métier
Données
2 : Compréhension des données
3 : Préparation des données
Traitements
4 : Modélisation
5 : Évaluation de la modélisation
Maître d’ouvrage Déploiement 6 : Déploiement des résultats de
l’étude
PRESENTATION DU CRISP-DM GENÈSE ET DÉFINITION DU DM
A P P L I C A T I O N SMETIERS DU DM
PROCESSUS STANDARD D’UNE ETUDE DE DM
LE DM DANS LE PROCESSUS KDD
TECHNIQUES ET LOGICIELS DU DM
8ETAT DE L’ART DU DATA MINING
Préparation des données (Collecte, Sélection, Nettoyage ,codage)
Consultation des données
Application des techniques DM
GENÈSE ET DÉFINITION DU DM
A P P L I C A T I O N SMETIERS DU DM
PROCESSUS STANDARD D’UNE ETUDE DE DM
LE DM DANS LE PROCESSUS KDD
TECHNIQUES ET LOGICIELS DU DM
9ETAT DE L’ART DU DATA MINING
Puissance
Lisibilité
Raisonnement à base de cas
Association
Arbre de decision
Réseaux de neurone
Algo génétique
Réseau Bayésien
Domaine
Statistique
IA
Limite IA/STAT
Fig : Rapport entre le pouvoir de prédiction et la lisibilité
Score,Regression,clusters
GENÈSE ET DÉFINITION DU DM
A P P L I C A T I O N SMETIERS DU DM
PROCESSUS STANDARD D’UNE ETUDE DE DM
LE DM DANS LE PROCESSUS KDD
TECHNIQUES ET LOGICIELS DU DM
10
APM,
techniques:
Arbres de décision
Réseaux bayésiens;
ETAT DE L’ART DU DATA MINING
Réseaux de neurone,
Raisonnement à base de cas
Statistiques
logiciels:
Clémentine de SPSS, Entreprise Miner de SAS, ORACLE , XL Miner , Statistica Data Miner de StatSoft .
TANAGRA, ORANGE, WEKA.
GENÈSE ET DÉFINITION DU DM
A P P L I C A T I O N SMETIERS DU DM
PROCESSUS STANDARD D’UNE ETUDE DE DM
LE DM DANS LE PROCESSUS KDD
TECHNIQUES ET LOGICIELS DU DM
HISTORIQUE
DEFINITION
HYPOTHESES ET OBJECTIFS
METHODOLOGIE DES ARBRES DE DECISION
TABLEAU COMPARATIVE DES ALGORITHMES
L’ALGORITHME ID3;
AVANTAGES ET INCONVENIENTS
Paternité à Morgan et Sonquist (1963) avec les arbres de régression dans un processus de prédiction et d’explication AID
11
Apogée avec la méthode CART de Breiman et al
la méthode ID3 de Quinlan 1979
C4.5 dans les années 90
LES ARBRES DE DECISION
famille d’algorithmes d’apprentissage non paramétriques structurés avec des arbres
12
Chacun des nœuds de l’arbre est soit une branche spécifiant un test sur une valeur d’un attribut ou une feuille dénotant une décision.
LES ARBRES DE DECISION
Exemple:Logement
Salaire Salaire co emp
Locataire FamillePropriétaire
OUI
NONOUINON OUI
Moyen Elevé Faible Elevé
HISTORIQUE
DEFINITION
HYPOTHESES ET OBJECTIFS
METHODOLOGIE DES ARBRES DE DECISION
TABLEAU COMPARATIVE DES ALGORITHMES
L’ALGORITHME ID3;
AVANTAGES ET INCONVENIENTS
DONNEES• N individus• P variables décrivant ces individus
13
VARIABLE CIBLE (ou à prédire) Variable classe/groupe (Qualitative)
VARIABLES EXPLICATIVES
Autres variables (Qualitatives et Quantitatives):
LES ARBRES DE DECISIONHISTORIQUE
DEFINITION
HYPOTHESES ET OBJECTIFS
METHODOLOGIE DES ARBRES DE DECISION
TABLEAU COMPARATIVE DES ALGORITHMES
L’ALGORITHME ID3;
AVANTAGES ET INCONVENIENTS
Hypothèses
Objectifs:
Obtenir un critère de séparation
Prendre une décision sur un nouvel exemple
Produire des groupes d’individus les plus homogènes possibles du point de vue de la variable à prédire.
Choisir la variable de segmentation sur un sommet.
14
surajustement du modèle
Pré-élagage
LES ARBRES DE DECISION
Post-élagage.
HISTORIQUE
DEFINITION
HYPOTHESES ET OBJECTIFS
METHODOLOGIE DES ARBRES DE DECISION
TABLEAU COMPARATIVE DES ALGORITHMES
L’ALGORITHME ID3;
AVANTAGES ET INCONVENIENTS
Taille de l’arbre
Le traitement des variables continues
15LES ARBRES DE DECISION
HISTORIQUE
DEFINITION
HYPOTHESES ET OBJECTIFS
METHODOLOGIE DES ARBRES DE DECISION
TABLEAU COMPARATIVE DES ALGORITHMES
L’ALGORITHME ID3;
AVANTAGES ET INCONVENIENTS
Algorith
me
Surajuste
ment
Critère de
segmentation
Type
d’arbre
généré
Type de
variables
CART Post-
élagage
Indice de GINI arbres
binaires
continues et
nominatives
ID3 Pré-élagage Entropie de
Shannon
Arbre n-
aire
nominatives
C4.5 Post-
élagage
Entropie de
Shannon et
gain ratio
Arbre n-
aire
continues et
nominatives
C5 Post-
élagage
Entropie de
Shannon
Arbre n-
aire
continues et
nominatives
CHAID Pré-élagage Test du chi-2 Arbre n-
aire
continues et
nominatives
SLIQ Post-
élagage
indice de Gini Arbre n-
aire
continues et
nominatives
16
fonction ID3(exemples, attributCible, attributsNonCibles)si exemples est vide alors /* Nœud terminal */
retourner un nœud Erreursinon si attributsNonCibles est vide alors /* Nœud terminal */
retourner un nœud ayant la valeur la plus représentée pour attributCible
sinon si tous les exemples ont la même valeur pour attributCiblealors /* Nœud terminal */
retourner un nœud ayant cette valeursinon /* Nœud intermédiaire */
attributSélectionné = attribut maximisant le gain d'information parmi attributsNonCibles
attributsNonCiblesRestants = suppressionListe (attributsNonCibles, attributSélectionné)
nouveauNœud = nœud étiqueté avec attributSélectionné
pour chaque valeur de attributSélectionné faireexemplesFiltrés =filtreExemplesAyantValeurPourAttribut
(exemples, attributSélectionné, valeur)nouveauNœud->fils (valeur) = ID3 (exemplesFiltrés,
attributCible, attributsNonCiblesRestants)finpour
retourner nouveauNœud
LES ARBRES DE DECISIONHISTORIQUE
DEFINITION
HYPOTHESES ET OBJECTIFS
METHODOLOGIE DES ARBRES DE DECISION
TABLEAU COMPARATIVE DES ALGORITHMES
L’ALGORITHME ID3;
AVANTAGES ET INCONVENIENTS
• Notion d’entropie (Shannon): permet de mesurer le degré de mélange des exemples entre les différentes classes ;
17
Soit un ensemble X d'exemples/p+ est
positifs et p- est négatifs/(p+)+(p- )= 1.
LES ARBRES DE DECISION
H(X) = -(p+) log2 (p+)Ŕ(p-) log2 (p-)
Entropie
0 1 2 3 4 5 6 7 8 9 10
10 9 8 7 6 5 4 3210
P=p/(p+n)=n/(n+p)=0.5
équiprobable
H(X) = -∑k={1..c} P(k/X) × log(P(k/X))
HISTORIQUE
DEFINITION
HYPOTHESES ET OBJECTIFS
METHODOLOGIE DES ARBRES DE DECISION
TABLEAU COMPARATIVE DES ALGORITHMES
L’ALGORITHME ID3;
AVANTAGES ET INCONVENIENTS
Gain d'information :
18
une population d'exemples X. Le gain d'information de X par rapport à un attribut aj donné est la réduction d'entropie causée par la partition de X selon aj :
LES ARBRES DE DECISION
|Xaj=v|Gain(X,aj)=H(X)- ∑ --------H(Xaj=v)
(v€Valeur(aj) ) |X|
HISTORIQUE
DEFINITION
HYPOTHESES ET OBJECTIFS
METHODOLOGIE DES ARBRES DE DECISION
TABLEAU COMPARATIVE DES ALGORITHMES
L’ALGORITHME ID3;
AVANTAGES ET INCONVENIENTS
Avantages
19
lisibilité.
Robuste au bruit et aux valeurs manquantes
Sensibles au nombre de classes: performances se dégradent
LES ARBRES DE DECISION
capacité à sélectionner automatiquement les variables.
Inconvénients
Nécessité d’un grand nombre d’individus
Evolutivité dans le temps: si les données évoluent
dans le temps, il est nécessaire de relance la phase d’apprentissage
Classification rapide(parcours d’un chemin dans un arbre)
HISTORIQUE
DEFINITION
HYPOTHESES ET OBJECTIFS
METHODOLOGIE DES ARBRES DE DECISION
TABLEAU COMPARATIVE DES ALGORITHMES
L’ALGORITHME ID3;
AVANTAGES ET INCONVENIENTS
HISTORIQUE ET GENERALITES SUR LA METHODE
HYPOTHESES ET OBJECTIFS
METHODOLOGIE
développée par le franco-libanais Benzecri à la fin des années 60 pour des applications linguistiques
20
décrire de manière synthétique un tableau de contingence
L’ANALYSE DES CORRESPONDANCES
Y1 j p
1 k11 k1j k1p
X i ki1 kij kip ki.
n kn1 knj knp
k.j k
Profil-ligne i : fJi = {kij/ki.}
Profil-colonne j : fIj = {kij/k.j}
Tableau de contingence d’abord
21
Pas de cases vides
Que des valeurs positives
Objectifs:
L’ANALYSE DES CORRESPONDANCES
Déterminer et à hiérarchiser les dépendances entre lignes et entre colonnes;
révéler les interrelations entre caractères
HISTORIQUE ET GENERALITES SUR LA METHODE
HYPOTHESES ET OBJECTIFS
METHODOLOGIE
Mettre en évidence "ressemblances" / "dissemblances"
Hypothéses
le test du khi-deux
22
l'hypothèse H0 => indépendance
H1 => dépendance
Calcul du khi-2
avec
L’ANALYSE DES CORRESPONDANCES
HISTORIQUE ET GENERALITES SUR LA METHODE
HYPOTHESES ET OBJECTIFS
METHODOLOGIE
k
kkE
ji
ij
..
ddl/alpha 1% 2% 5% 10%
1 6,6350 5,4120 3,8410 2,7060
2 9,2100 7 ,8240 5,9910 4,6050
3 11,3450 9,8370 7,8150 6,2510
4 13 ,2770 11,6680 9,4880 7,7090
5 15,0860 13,3880 11,0700 9,2360
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
n
Khi-2 théoriqueddl= (Nb lignes -1) x (Nb colonnes -1).
L'Analyse Factorielle des Correspondances
23
L'AFC du tableau de contingence: K, est l'ACP du tableau: X, des profils en ligne
Règles d’interprétation des profils :
profils proches => deux modalités de X ayant des distributions (répartitions) suivant les modalités de Y assez semblables.
L’ANALYSE DES CORRESPONDANCES
HISTORIQUE ET GENERALITES SUR LA METHODE
HYPOTHESES ET OBJECTIFS
METHODOLOGIE
)(/)'()',(tan 2
1
jkjxixijiicedisp
j
profils éloignés => deux modalités de X dont les distributions suivant les modalités de Y sont très différentes
24
• DIAGRAMMES DE CAS
D’UTILISATION
• DIAGRAMME DE SEQUENCES
• MODELE DE LA BASE DE
DONNEES
• PRESENTATION DE UMLCONCEPTION ET MISE EN ŒUVRE DE L’OUTIL
CONCEPTION
OUTILS DE DEVELOPPEMENT
PRESENTATION DE L’OUTIL
MODELE DE LA BASE DE DONNEES25
0..*
0..*
0..*
0..*
0..1
0..*
0..*
1..1
0..1
0..*
0..1
0..*
Methode_score
+
+
+
+
+
code_MS
nom
table
TypeMS
Residu
: String
: String
: String
: String
: String
MS_fait
+
+
+
coefficient
MS_X
MS_Y
: double
: float
: float
variablemere
+
+
+
+
+
codeVMere
libelle
sommeil
ordre
typevar
: String
: String
: int
: int
: String
MS_dimension
+
+
MS_X
MS_Y
: float
: float
Distance
+ Dist_valeur : float
modalite
+
+
+
+
code_mod
libelle_mode
MS_X
MS_Y
: String
: String
: float
: float
Utilisateurs
+
+
+
+
+
+
id_user
login
pass
nom
prenom
privilége
: int
: String
: String
: String
: String
: String
DIAGRAMME DES CAS D’UTILISATION
26
<<extend>>
<<extend>>
<<extend>>
<<extend>>
<<include>>
<<include>>
<<include>>
<<extend>>
<<extend>>
Administrateur
Utilisateur
Gestion des utilisateur
Analyse avec les arbres de decision
Analyse des correspondances
Connexion
Supprimer utilisateur
Créer utilisateur
Faire un apprentissage
Faire une simulation
DIAGRAMME DE SEQUENCES SIMULATION ARBRE DE DECISION
27
envoi de la cible
interface des variables de l'apprentissage
création des intervalles des variables explicativesvalidation
création apprentissage
selection résultats
vérification apprentissage
si exite variables explicatives numériques
fin si
création des intervalles de la ciblesi cible numérique
fin si
proposition de création de l'apprentissage avec les variable de la simulationsi apprentissage existe pas
fin si
selection axes d'analyses compatibles
selection faits compatibles
selection fait
envoi cible
Fin Sienvoi fait associé à la cible
interface de selection des variables explicatives
selection et rensegnement variables explicatives
selection cible
Renvoie des résultats simulation
si cible qualitative
Demande de simulation
interface de selection de cible selection dimensions et faits
interface de selection fait associé a la cible
Administrateur/Utilisateur
outil
envoi de la cible
interface des variables de l'apprentissage
création des intervalles des variables explicativesvalidation
création apprentissage
selection résultats
vérification apprentissage
création des intervalles de la cible
proposition de création de l'apprentissage avec les variable de la simulation
selection axes d'analyses compatibles
selection faits compatibles
selection fait
envoi cible
envoi fait associé à la cible
interface de selection des variables explicatives
selection et rensegnement variables explicatives
selection cible
Renvoie des résultats simulation
Demande de simulation
interface de selection de cible selection dimensions et faits
interface de selection fait associé a la cible
DIAGRAMME DE SEQUENCES ANALYSE DES CORRESPONDANCES
28
Demande d'analyse
Selection dimensions
resultat selection
selection des deux variables à analyser
Selection faits en rapport avec ces deux variables
resultat selection
selection du fait pour l'analyse
selection données puis application de la methode si possible
Resultat analyse
Administrateur / Utilisateur
outil
Demande d'analyse
Selection dimensions
resultat selection
selection des deux variables à analyser
Selection faits en rapport avec ces deux variables
resultat selection
selection du fait pour l'analyse
selection données puis application de la methode si possible
Resultat analyse
29
WAMP SERVER
PHP
HTML
JAVASCRIPT
CSS
NOTEPAD++
AUTRES OUTILSCONCEPTION ET MISE EN ŒUVRE DE L’OUTIL
CONCEPTION
OUTILS DE DEVELOPPEMENT
PRESENTATION DE L’OUTIL
30
DEMONSTRATION
PARTIELLE DE L’OUTIL
CONCEPTION ET MISE EN ŒUVRE DE L’OUTIL
CONCEPTION
OUTILS DE DEVELOPPEMENT
PRESENTATION DE L’OUTIL
CE QUE NOUS AVONS RÉUSSIT:
31
CONCLUSION
ANALYSER DES DONNÉES D’UN ENTREPÔT AVEC LA TECHNIQUE DES ARBRES DE DÉCISION (APPRENTISSAGE ET SIMULATION)
P E R S P E C T I V E S : fichiers, visualiser l’arbre , ACM, visualiser les profils
ANALYSER DES DONNÉES D’UN ENTREPÔT AVEC LA TECHNIQUE DE L’ANALYSE DES CORRESPONDANCES DE DEUX VARIABLES
GESTION DES UTILISATEURS
32
MERCI DE VOTRE ATTENTION