Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD...

Post on 20-Jul-2020

6 views 0 download

Transcript of Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD...

Classification et BD M1:MASS-IMM

Francois.Kauffmann@math.unicaen.fr

30 janvier 2008

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 1 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Premiere partie I

Classification non supervisee

IntroductionStructures des donnees

TablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de VoronoıAlgorithme des nuees dynamiques

DefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 2 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 3 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Objectifs

Les missions :

I Gerer l’information, bases de donnees

I Analyser, modeliser les liens, classification, regression, datamining

I Aider a la decision, predire les risques associe a unedecision statistique

I Communiquer, simplifier, exposer les resultats

Les secteurs concernes :

I distribution

I telecommunications

I banque

I assurance

I etudes medicales et pharmaceutiques

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 4 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Les metiers

I responsable logistique du traitement et de l’analyse desetudes

I charge d’etudes junior : prise en charge de ladocumentation, codage des questionnaires, traitementstatistiques simples.

I charge d’etudes senior, assistant du charge d’etude, priseen main d’une etude de marche.

I analyste statisticien, etudes quantitatives, aide a ladecision, expert en statistiques, il supervise l’analyse desdonnees.

I chef de projet, supervise le groupe et les projets.

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 5 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Les mots cles

I marketing

I etudes quantitatives

I statistique, aide a la decision

I systemes d’information de l’entreprise

I reporting

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 6 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Exemples

I analyse de resultats d’enquetes (Demarche Marketing,Opininion Way)

I identification des prospects (banque, telephonie mobile, ...)

I identification des clients susceptibles de partir a laconcurrence (Bouygues)

I determination des lieux de ventes (distributeurs de billets)

I politique tarifaire (TODD)

I analyser, identifier les risques (degats des eaux MAAF)

I analyser des donnees textuelles, reponse a des questionsouvertes.

I ...

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 7 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Programme

Classification et bases de donnees, fouille de donnees, (datamining).

I Classification non supervisee (clustering)

I Analyse discriminante, regression logistique,...(classification)

I Bases de donnees, Standard Query Language SQL (databases)

I Arbre de decisions (decision trees)

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 8 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Les outils

I vous, vos connaissances, vos neurones

I les outils de gestions de l’information SQL, PostGreSQL,SAS, enseigne en M2-MASS Silog, Access, d’autresOracle, SAP.

I les outils d’analyses SAS, SAS Entreprise Guide, SASEntreprise Miner, R (SPLUS), en M2-MASS, Sphynx,Alceste et d’autres SPAD, SPSS.

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 9 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Bibliographie I

Alan Agresti.An introduction to categorical data Analysis.Wiley Series in probability and statistics, 2007.

Max Bramer.Principles of Data mining.Spinger Verlag, 2007.

Michael Falk, Frank Marohn, and Bernward Tewes.Foundations of statistical Analyses and Applications withSAS.Birkhauser Verlag, 2002.

Jiawei Han and Micheline Kamber.Data Mining : concepts and techniques.Morgan Kaufmann publishers, 2004.

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 10 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Bibliographie II

Naresh Malhotra.Etudes Marketing avec SPSS.Pearson Eduction, 2004.

Stephane Tuffery.Data Mining et statistique decisionnelle.Editions TECHNIP, 2005.

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 11 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 12 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 13 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Les tablesPour un individu 1 ≤ i ≤ n, on observe

Xi ∈ E = E1 × E2 × · · · × Ep.

Pour 1 ≤ j ≤ p l’ensemble Ej peut etre

I R l’addition et la multiplication usuelle ont un sens pourles valeurs observees, les valeurs sont dites quantitatives.

I un ensemble fini, les valeurs sont dites qualitatives.

Les donnees sont rangees dans une table ou relation X

X ∈ (E1 × E2 × · · · × En)n = En

I n lignes appelees individus ou observations ou tuples ouenregistrements ou records

I p colonnes appelees variables ou attributs ou champs.

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 14 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Exemple quantitatif

Si E = E1 × E2 × · · · × Ep = R× · · · × R = Rp, alorsX ∈ En = (Rp)n ∼Mn,p(R), X est une matrice a coefficientsreels a n lignes et p colonnes.

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 15 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Exemple mixte

couleur cru region prix quantite

rose sancerre loire 4 0rouge volnay Bourgogne 9 5rouge mercurey Bourgogne 8.5 0blanc gewurtztraminer alsace 4 3

Pour la variable

I couleur , on peut choisir comme ensemble de valeursE1 = {′rose ′,′ rouge ′,′ blanc ′} mais aussi l’ensemble deschaines de caracteres

I prix on peut choisir comme ensemble de valeurs E4 = RI region on peut choisir comme ensemble de valeurs E5 = N

ou E5 = RX est ici une table a 4 lignes et 5 colonnes.

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Structure informatique

La notion de table generalise la notion de matrice ou le type dedonnees est le meme pour toutes les donnees : on parle dematrice a coefficients reels, de matrice a coefficients entiers, acoefficients binaires.

I Liste de vecteurs

I dans SAS c’est une table SAS

I dans R c’est une data.frame

I dans un gestionnaire de bases de donnees c’est aussi unetable.

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 17 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 18 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Dissimilarites

Soit E un ensemble, on appelle dissimilarite sur E

d :

{E × E → R+

(x , y) 7−→ d(x , y)

et qui verifie

I symetrie ∀(x , y) ∈ E 2, d(x , y) = d(y , x)

I ∀x ∈ E , d(x , x) = 0

Si d est une distance sur un ensemble E alors c’est aussi unedissimilarite, la distance verifie en plus la proriete dited’inegalite triangulaire. Soit (Xi )1≤i≤n ∈ En et d unedissimilarite de E , alors D = (d(i , j))1≤i ,j≤n est appeleematrice de dissimilarite entre individus. Plus les individus x et ysont eloignes plus la dissimilarite entre x et y doit etre grande.

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 19 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Variables quantitatives

On suppose que l’on a trois mesuresx1 = (0, 0), x2 = (1, 0), x3 = (5, 5), alors la matrice desdistances pour la norme d(x , y) = ‖x − y‖1 est unedissimilarite : 0 1 10

1 0 910 9 0

La matrice des carres des distances euclidienned(x , y) = ‖x − y‖2

2 est dissimilarite : 0 1 501 0 4150 41 0

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 20 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Normalisation variables numeriques

Il est preferable de renormaliser les variables avant de calculerune matrice de dissimilarite entre individus. Soit sxi la varianceempirique de la variable xi posonsD = diag(1/sx1 , 1/sx1 , · · · , 1/sxn), alors on peut prendrecomme distance

d(x , y) = (x − y)tD(x − y) =< x − y , x − y >D

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 21 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Tableau de contingence

Soit (xi ,j)1≤i≤n,1≤j≤p un tableau de contingence, et I samatrice de liaison alors la distance entre deux lignes i1 et i2 dutableau de contingence peut etre definie grace a la distance duχ2 :

d2(i1, i2) =

j=p∑j=1

1x.,j

x.,.

(xi1,j

xi1,.−

xi2,j

xi2,.

)2

= ‖Ii1 − Ii2‖2diag(f.,j )

=

j=p∑j=1

f.,j

(fi1,j

f.,j fi ,.−

fi2,jf.,j fi ,.

)2

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 22 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Donnees binaires

On suppose que l’espace des observations est E = {0, 1}p

(toutes las variables sont binaires), soient x et y deux individusde E , soit

1. a1 le nombre de composantes qui verifie xi = yi = 1

2. a2 le nombre de composantes qui verifie xi = 0, yi = 1

3. a3 le nombre de composantes qui verifie xi = 1, yi = 0

4. a4 le nombre de composantes qui verifie xi = 0, yi = 0

On construit des indices de dissimilarites entre individus par

d(x , y) =λ(a2 + a3)

a1 + δa4 + λ(a2 + a3)

Pour δ = 0, λ = 1, on parle d’indice de Jaccard, c’est laproportion d’indices qui different.

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 23 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Donnees qualitatives

Si l’ensemble E = E1× · · · × Ep des observations est constituede variables qualitatives, alors la dissimilarite entre deuxindividus x et y est definit par la proportion de differencesentre les deux individus :

d(x , y) =p −m

p

avec

I p est le nombre de variables

I m est le nombre de composantes identiques.

On peut prendre aussi une distance euclidienne calculee a partirdes coordonnees des individus dans une base factorielle d’uneanalyse en composantes multiples.

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 24 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Qualitatives ordonnees

Soit y ∈Mn,1(m1 ≤ m2 ≤ · · · ≤ mq)} une variable qualitativeordonnee , soit rangy ∈ [1, q] le rang de y , on appelle rangnormalise de y

zy =rangy − 1

q − 1∈ [0, 1]

On peut alors comparer ces valeurs numeriques entre elles parl’intermediaires de distances euclidiennes. Si on a une tableX = Table(Y = [TB,P,B,TB]) on aE1 = {m1 = P ≤ m2 = AB ≤ m3 = B ≤ m4 = TB} AlorsrangY = [4, 1, 3, 4] et

zY = [1, 0, 2/3, 1]

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 25 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Cas mixte

On veut construire une dissimilarite entre individus quand lesvariables ne sont pas de type identique. On suppose que latable X est la reunion des tables (Zl)1≤l≤L :

X = [Z1,Z2, · · · ,Zl ]

On suppose que pour chaque sous-table Zl on a construit unedissimilarite dl , alors on peut construire une dissimilarite entredeux indivdius i et j de X en faisant une moyenne ponderee desdissimilarites

d(i , j) =

∑l=Ll=1 αldl(j , j)∑l=L

l=1 αl

avec α ∈ (R+)L

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 26 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 27 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 28 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Classification non supervisee

Soit I = {1, · · · , n} un ensemble d’individus, on appelleclassification en q groupes une famille (Gg )1≤g≤q de partiesl’ensemble des individus I qui verifie :

I Tout individu i ∈ I appartienne a au moins un groupe,

I Il n’existe pas d’individu i ∈ I appartenant a deux groupesdifferents.

On dit que ((Gg )1≤g≤q est une partition de I

{G1, · · · ,Gq} ⊂ P(I)

∀1 ≤ g , g ′′ ≤ q, g 6= g ′ ⇒ Gg ∩ Gg ′ = ∅∪1≤g≤qGq = I

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 29 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Classification non supervisee

I Les donnees sont rangees dans une tableindividus × variables.

I Le but est de creer et de caracteriser des groupes ouclasses d’individus disjoints.

I Les individusI d’un meme groupe doivent proches les uns des autresI de deux groupes distincts doivent etre eloignes les uns des

autres

I La classification est non supervisee car on ne connait pas apriori les groupes.

I C’est une methode multidimensionnelle. Pour un individu,on dispose de plusieurs variables.

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 30 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Classifier quoi ?

La classification peut etre faite sur les donnees brutes

1. Les variables peuvent etre uniquement quantitatives

2. Les variables peuvent etre uniquement qualitatives

3. Les variables peuvent etre quantitatives ou qualitatives

La classification peut etre faite sur des donnees intermediaires

1. Dans le cas de deux variables qualitatives sur des tableauxde contingences (analyse factorielle des correspondances)

2. Dans le cas de plusieurs variables qualitatives sur desscores obtenus par une analyse des correspondancesmultiples.

3. Sur des tableaux de distances entre individus.

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 31 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 32 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Qualite d’une partition dans unespace euclidien

Soit (Gg )1≤g≤q la partition en groupe de l’ensemble desindividus I = {1, · · · , n}. On a pour chaque individu i lesobservations quantitatives xi ∈ (Mp,1(R), <, . >M). L’espacedes observation est suppose euclidien. Soit pi > 0 le poids del’individu i ∈ I et on note xg le centre de gravite du groupeGg . On definit :

inertie totale Itotale =∑

i∈I pi‖xi − x‖2

inertie intra Iintra =∑

1≤g≤q

∑i∈Gq

pi‖xi − xg‖2

inertie inter Iinter =∑

1≤g≤q(∑

i∈Gqpi )‖xg − x‖2

On a alors la decomposition suivante ou theoreme deHuyghens :

Itotale = Iintra + Iinter

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 33 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Qualite d’une partition

Quand la somme des poids vaut 1, alors on peut interpreter

inertie totale comme la moyenne des carres de la distanceentre les individus et le centre de gravite

inertie intra comme la moyenne des carres de la distance entreles observations et le centre de gravite du groupeauquel appartient l’individu

inertie inter comme la moyenne des carres de la distancemoyenne entre le centre de gravite et les centresde gravites des groupes.

Un rapport eleve de l’inertie inter sur l’inertie intra estsynonyme de bonne separation.

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 34 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Bons groupes, mauvaise separation

−2 −1 0 1 2

−2

−1

01

2

x

y A

A

A

A

A

A

A

A

A

A

A

A

A

A

A

A

B

B

B

B

B

B

B

B

B

B

B

B

B

B

B

B

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

GroupesA = 4B = 4C = 4

Inertie 2=50(intra%)+50(inter%)

On a ici d(G ,Gi ) = 1, d(Gi , xj) = 1

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 35 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Bons groupes, bonne separation

−4 −2 0 2 4 6

−6

−4

−2

02

46

x

y A

A

A

A

A

A

A

A

A

A

A

A

A

A

A

A

B

B

B

B

B

B

B

B

B

B

B

B

B

B

B

B

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

GroupesA = 4B = 4C = 4

Inertie 17=5.88(intra%)+94.1176(inter%)

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 36 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Mauvais groupes

−4 −2 0 2 4 6

−6

−4

−2

02

46

x

y AA

A

A

AA

A

A

AA

A

A

AA

A

A

B

B

B

B

B

B

B

B

B

B

B

B

B

B

B

B

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

GroupesA = 4B = 4C = 4

Inertie 17=73.79(intra%)+26.2079(inter%)

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 37 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 38 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Constructions de partitions

On suppose que l’on a N resultats de classifications sous formede partition de l’ensemble des individus

I (G 11 , · · · ,G 1

n1) une partition en n1 groupes

I (G 21 , · · · ,G 2

n2) une partition en n2 groupes

I · · ·I (GN

1 , · · · ,GNnN

) une partition en nN groupes

La partition en formes fortes consiste a ne retenir que lesclasses d’individus n’ayant jamais ete separes. Les classes necontenant qu’un seul individu ne sont pas d’un grand interet.

(G 1i1 ∩ G 2

i2 ∩ G 3i3 ∩ · · · ∩ GN

iN)(i1,··· ,iN)∈Πj=N

j=1 [0,nj ]

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 39 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Exemple de forme forte

i Part1 Part2 Part3 Forte1 1 1 1 12 1 1 1 13 1 1 1 14 2 1 1 25 2 1 1 26 2 2 2 37 3 3 2 48 3 3 2 49 3 4 3 510 4 4 4 611 4 4 3 712 4 4 4 6

Forte = {{1, 2, 3}{4, 5}, {6}, {7, 8}, {9}, {10, 12}, {11}}

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 40 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 41 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Methodes de classification

Pre-traitements

Classification

������

HHHHHH

Hiearchique

��

��H

HHH

Ascendante Descendante

NueesDynamiques

Exhaustif

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 42 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Classification exhaustive

Cette methode consiste a enumerer toutes les partitionspossibles. Si il y a n individus, le nombre de partitions a kgroupes ou ensembles est :

1

k!

i=k∑i=0

C ik(−1)k−i in

C’est le nombre de surjections de l’ensemble {1, · · · , n} vers{1, · · · , k} divise par k!. A chaque individu i ∈ {1, · · · , n} onfait correspondre sa classe g ∈ {1, · · · , k}.

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 43 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Nombre de partitions

n k nb

12 3 86526

24 3 47063200806

36 3 25015738189761486

48 3 13294407038741263288566Quand le nombre de partitions est petit, il est possibled’envisager d’enumerer toutes les partitions.

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 44 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 45 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Creation de partitions

Il existe des classifications simples, mais pas souventinteressantes. Ces partitions servent de conditions initiales ades algorithmes plus sophistiques.

I On considere la classification ou chaque groupe contientexactement un individu.

I On considere la classification constituee d’un uniquegroupe l’ensemble des individus.

I On choisit le nombre de groupe et on affecte au hasard lesindividus a ces groupes.

I On choisit q centres, et pour chaque centre on choisit lesindividus ayant des observations plus pres de ce centre quedes autres(mosaique de Voronoi).

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 46 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Classification elementaire

−4 −2 0 2 4 6

−6

−4

−2

02

46

x

y

1

2

3

4

5

6

7

8

9

10

11

12

1

2

3

4

5

6

7

8

9

10

11

12

1

2

3

4

5

6

7

8

9

10

11

12

1

2

3

4

5

6

7

8

9

10

11

12

1

2

3

4

5

6

7

8

9

10

11

12

1

2

3

4

5

6

7

8

9

10

11

12

1

2

3

4

5

6

7

8

9

10

11

12

1

2

3

4

5

6

7

8

9

10

11

12

1

2

3

4

5

6

7

8

9

10

11

12

1

2

3

4

5

6

7

8

9

10

11

12

1

2

3

4

5

6

7

8

9

10

11

12

1

2

3

4

5

6

7

8

9

10

11

12

GroupesA = 12

Classification en un groupe

−4 −2 0 2 4 6

−6

−4

−2

02

46

x

y

1

2

3

4

5

6

7

8

9

10

11

12

GroupesA = 1B = 1C = 1D = 1E = 1F = 1G = 1H = 1I = 1J = 1K = 1L = 1

Classification en douze groupes

G1 = {1, · · · , 12} G1 = {1}, · · · ,G12 = {12}

Les deux classifications correspondent a

I un seul groupe

I un seul individu par groupe

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 47 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Classification en 3 groupes

−4 −2 0 2 4 6

−6

−4

−2

02

46

x

y

1

2

3

4

1

2

3

4

1

2

3

4

1

2

3

4

5

6

7

8

5

6

7

8

5

6

7

8

5

6

7

8

9

10

11

12

9

10

11

12

9

10

11

12

9

10

11

12

GroupesA = 4B = 4C = 4

Classification en trois groupes

−4 −2 0 2 4 6

−6

−4

−2

02

46

x

y

1

6

7

1

6

7

1

6

7

3

5

9

10

3

5

9

10

3

5

9

10

3

5

9

10

2

4

8

11

12

2

4

8

11

12

2

4

8

11

12

2

4

8

11

12

2

4

8

11

12

GroupesA = 3B = 4C = 5

Classification en trois groupes

G1 = {1, 2, 3, 4}, · · · G1 = {1, 6, 7}, · · ·

Partition en 3 groupes :

I la partition qui semble la meilleure

I on affecte aleatoirement les individus aux groupes.

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 48 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Mosaique de Voronoi

Soit I = {1, · · · , n} l’ensemble des individus et (xi )i∈Il’ensemble des observations E . On suppose que l’ensemble desobservations est muni d’une distance d . Soit (cg )1≤g≤q unensemble de q centres dans E . On definit le groupe G (i) del’individu i par

G (i) := argmin1≤g≤q(d(xi , cg ))

Le groupe de l’individu i est le numero du centre le plus prochede xi . Si la distance est deduite d’un produit scalaire. Lesregions definissant les groupes sont des intersections dedemi-plan delimites par des mediatrices entre deux centres.

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 49 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

100 centres dans [0,1]x[0,1]

Voronoi mosaic

v

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 50 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 51 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 52 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Nuees dynamiques

On cherche une partition qui minimise l’inertie intra groupe ouqui maximise l’inertie inter groupe. L’idee est de construirepour chaque centre l’ensemble des individus les plus proche dece centre. Ces ensembles constitueront la partition associee aces centres.

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 53 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Parametres

distance il faut choisir une distance entre individus

nombre de groupes il faut choisir le nombre de groupes a priori

centre de gravite il faut choisir des centres de gravites qui vontservir de conditions initiales.

difficulte la partition depend des centres de gravitesinitiaux.

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 54 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Algorithme

Algorithme iteratif :a un centre on associe l’ensemble desindivius les plus proches.

Initialisation choix de centres

Boucle tant que la partition est modifiee :

1. affecter les individus aux groupes definis parles centres,

2. calculer les centres de gravites des groupes,3. prendre comme centres les centres de gravite

des nouveaux groupes.

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 55 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 56 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Bonne classification

−4 −2 0 2 4 6

−6

−4

−2

02

46

x

y

GroupesA = 4B = 4C = 4

Algorithme nuées dynamiquesInertie 17=87.22(intra%)+14.061(inter%)

−4 −2 0 2 4 6

−6

−4

−2

02

46

x

y

GroupesA = 4B = 4C = 4

Algorithme nuées dynamiquesInertie 17=5.88(intra%)+94.1176(inter%)

I Convergence en deux iterations.

I Inertie intra classe vaut 6 pourcent de l’inertie totale.

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 57 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Convergence

−4 −2 0 2 4 6

−6

−4

−2

02

46

x

y

GroupesA = 6B = 4C = 2

Algorithme nuées dynamiquesInertie 17=68.94(intra%)+48.3571(inter%)

−4 −2 0 2 4 6

−6

−4

−2

02

46

x

y

GroupesA = 4B = 4C = 4

Algorithme nuées dynamiquesInertie 17=17.98(intra%)+75.1008(inter%)

−4 −2 0 2 4 6

−6

−4

−2

02

46

x

y

GroupesA = 4B = 4C = 4

Algorithme nuées dynamiquesInertie 17=5.88(intra%)+94.1176(inter%)

I Convergence en trois iterations.

I Inertie intra classe vaut 6 pourcent de l’inertie totale.

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 58 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Autre classification

−4 −2 0 2 4 6

−6

−4

−2

02

46

x

y

GroupesA = 2B = 2C = 8

Algorithme nuées dynamiquesInertie 17=65.98(intra%)+20.3542(inter%)

−4 −2 0 2 4 6

−6

−4

−2

02

46

x

y

GroupesA = 2B = 2C = 8

Algorithme nuées dynamiquesInertie 17=51.96(intra%)+48.0392(inter%)

−4 −2 0 2 4 6

−6

−4

−2

02

46

x

y

GroupesA = 2B = 2C = 8

Algorithme nuées dynamiquesInertie 17=51.96(intra%)+48.0392(inter%)

I Convergence en trois iterations.

I Inertie intra classe vaut 52 pourcent de l’inertie totale.

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 59 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 60 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Parametres

Nb de groupes c’est le premier parametres a choisir

Conditions initiales Mettre le plus possible de connaissances apriori dans le choix des centres. Faire de nombreuxessais en choisissant des centres aleatoirement.

Nombre d’iterations limiter dans un premier temps

Rapidite Algorithme tres rapide meme avec un grandnombre d’individus et un grand nombre devariables.

Facilite d’utilisation Present dans les logiciels R kmeans, dansSAS fastclus

distance Dans R, c’est la distance canonique euclidienne,dans SAS on peut choisir des distances lp

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 61 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Resultats

bonne solution ? L’algorithme des nuees dynamiques rechercheun minimum local. On ne peut etre sur que c’estla meilleure solution.

valeurs aberrantes Elles seront regroupees dans des groupescomposes d’un unique individu (loin de toutes lesautres valeurs). On peut se servir de cetalgorithme pour la recherche de valeursaberrantes.

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 62 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 63 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 64 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Dissimilarite entre individus

Soit E = E 1 × E 2 × · · · × Ep l’espace des observations.d unedissimilarite de l’ensemble E . Soit X la table des observationsdes n individus (Xi )1≤i≤n et

D ∈Mn,n(R+)

la matrice de dissimilarite entre ces individus

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 65 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 66 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Classifications hierachiques

Les techniques hierarchiques de classification consistent aconstruire une arbre de partitions en partant de partitionselementaires :

I de la partition la plus fine : celle consituee de classes necontenant qu’un seul individu vers la partition la plusgrossiere : une seule classe contenant tous les individus.On agglomere les classes et on parle d’analyse hierachiqueascendante.

I de la partition la plus grossiere : vers la partition la plusfine : on decoupe les classes, on parle d’analysehierarchique descendante ou d’arbre de decision.

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 67 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Arborescence des partitions

{a, b, c , d , e}

����

HHHH

{a, b}�� HH

{a} {b}

{c , d , e}���

HHH

{c , d}�� HH

{c} {d}

{e}

La partition la plus fine est P1 = {{a}, {b}, {c}, {d}, {e}}.Une partion intermediaire est P2 = {{a}, {b}, {c , d}, {e}}.La partition la plus grossiere est P4 = {{a, b, c , d , e}}.

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 68 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 69 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Distance moyenne entre classes

Soit I l’espace des individus, on suppose que l’on a un mesurede dissimilarite ou distances dans l’espace des individus d . Onveut definir une mesure de dissimilarites ou distance D entre lesdeux groupes

D :

{P(I) → R+

(C ,C ′) 7−→ D(C ,C ′)

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 70 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Distance moyenne

La distance moyenne (method=average SAS,R) entre deuxgroupes est la moyenne des distances entre les individus dugroupe C d’effectif c et les individus du groupe C ′ d’effectif c ′.On a :

D(C ,C ′) =1

cc ′

∑i∈C ,i ′∈C ′

d(xi , xi ′)

Soient A et B eux groupes d’effectifs a, b respectivement alorson a la formule d’agregation :

D(C ,A ∪ B) =aD(C ,A) + bD(C ,B)

a + b

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 71 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Distance minimale

La distance minimale (method=single SAS,R) entre deuxgroupes est la plus petite des distances entre les individus dugroupe C et les individus du groupe C ′. On a :

D(C ,C ′) = Mini∈C ,i ′∈C ′d(xi , xi ′)

D(C ,A ∪ B) = Min(D(C ,A),D(C ,B))

I Construction de grands groupes

I Deux groupes seront reunis si deux individus sont proches.

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 72 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Distance maximale

La distance maximale (method=complete SAS,R) entre deuxgroupes est la plus grande des distances entre les individus dugroupe C et les individus du groupe C ′. On a :

D(C ,C ′) = Maxi∈C ,i ′∈C ′d(xi , xi ′)

D(C ,A ∪ B) = Max(D(C ,A),D(C ,B))

I Creation de classe de meme diametre (plus grandedistance entre deux points de la meme classe)

I Sensiblite aux valeurs aberantes.

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 73 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Distance des centres de gravites

La distance entre individus est le carre d’une distanceeuclidienne. La distance des centres de gravite(method=centroid SAS,R) entre deux groupes est le carre dela distance entre les deux centres de gravite xC des (xi )i∈C etxC ′ des (xi )i∈C ′ . On a :

D(C ,C ′) = d(xC , xC ′)

D(C ,A ∪ B) =a

a + bD(C ,A) +

b

a + bD(C ,B)

− ab

(a + b)2D(A,B)

I robuste vis a vis de valeurs aberantes.

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 74 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Distance des centres de gravites

Si la distance dans entre individus est le carre d’une distanceeuclidienne, la formule d’agregation est exacte. Soient A,B,C 3points d’un espace affine euclidien et G le barycentre de(B, b), (C , c) avec b ≥ 0, c ≥ 0, b + c = 1, alors

‖AG‖2 = ‖b ~AB + c ~AC‖2

= b2‖ ~AB‖2 + c2‖ ~AC‖2 + 2bc < ~AB, ~AC >

De plus

b‖ ~AB‖2 + c‖AC‖2 − bc‖ ~BC‖2

= b‖ ~AB‖2 + c‖AC‖2 − bc < ~BA + ~AC , ~BA + ~AC >

= (b − bc)‖ ~AB‖2 + (c − bc)‖AC‖2 + 2bc < ~AB, ~AC >

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 75 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Wald : perte d’inertieOn cherche pour chaque etape d’aglomeration a obtenir une partitiion qui minimise l’inertie intra classeparmi toutes les partitions obtenues en agregant deux parties A et B de la precedente partition. Soit gA etgB les centre de gravite A et B de poids a =

Pi∈A pi ≥ 0 et b

Pi∈B pi ≥ 0 avec a + b = 1. Soit G le

barycentre de (gA, a) et de (gB , b) alors :

I intraA∪B =

Xi∈A∪B

pi‖xi − G‖2

=Xi∈A

pi‖xi − G‖2 +Xi∈B

pi‖xi − G‖2

=Xi∈A

pi‖(xi − gA) + (gA − G)‖2 +Xi∈B

pi‖(xi − gB ) + (gB − G)‖2

=Xi∈A

pi‖xi − gA‖2 +

Xi∈B

pi‖xi − gB‖2 + (

Xi∈A

pi )‖gA − G‖2 + (Xi∈B

pi )‖gB − G‖2

On a donc

I intraA∪B − I intra

A,B = a‖gA − G‖2 + b‖gB − G‖2

= a ∗ 0 + b‖gB − gA)‖2 + (a + b)‖gA − G‖2

a(I intra

A∪B − I intraA,B )

a + b=

ab

a + b‖gB − gA)‖2 + a‖gA − G‖2

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 76 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Distance de Ward

Minimiser l’ecart entre les partitions avant et apresaglomeration de l’inertie intra classe revient a chercher la classeB qui rend minimum l’expression suivanteab

a+b‖gB − gA‖2 + a‖gA − G‖2. On prend come mesure d’ecartau sens de Wald

D(A,B) =ab

a + b‖gB − gA‖2.

Dans le cas ou l’on prendrait une distance plus generale pourmesurer l’ecart entre les centres de gravites , on pose

D(A,B) =ab

a + bd(gB , gA).

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 77 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Ward : Formule d’agregation

Le poids des classes (A, B, C) vallent respectivement (a, b, c)

D(A, B ∪ C) =a(b + c)

a + b + c‖gA − gA∪B‖

2

=a(b + c)

a + b + c

b

b + c‖gA − gB‖

2 +c

(b + c)‖gA − gC‖

2 −bc

(b + c)2‖gB − gC‖

2

!

=a + b

a + b + c

ab

a + b‖gA − gB‖

2 +a + c

a + b + c

ac

a + c‖gA − gC‖

2

−a

a + b + c

cb

b + c‖gB − gC‖

2

=a + b

a + b + cD(A, B) +

a + c

a + b + cD(A, C) −

a

a + b + cD(B, C)

La formule

I construit des classes d’egal effectif,

I et est sensible aux donnees aberantes.

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 78 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Algorithme d’agregation

initialisation :

I Construire la partition la plus fineI Construire la matrice de distance

tant que qu’il reste plus de 2 parties :

I Rechercher les deux classes les plus proches,I Aggreger ces deux classes,I Construire la matrice des distances de cette

nouvelle partition en utilisant les formulesd’agregation

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 79 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Remarques

L’algorithme de classification hierachique ascendant depend

I de la mesure de dissimilarites entre individus

I du choix de la mesure entre classes.

I f : R → R croissante alors la suite des partitions estinchangee si l’on change d en f ◦ d (distance ou distanceau carre).

I Si on a n individus la hauteur de l’arbre est au maximumde n − 1.

I On determine la partition en coupant l’arbre des partitionsa une hauteur h ou bien en donnant le nombre de classesdesirees.

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 80 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Ex : distance euclidienne

Distance euclidienne dans l’espace des individus. La matrice dedissimilarite est la matrice constitue des carres des elements dela matrice des distances. On choisit la methode d’aglomerationpar saut minimum.

cah-distance-euc A B C D E F

A 0.00 0.57 3.22 4.17 1.35 2.19B 0.57 0.00 2.66 3.61 0.78 1.68C 3.22 2.66 0.00 1.08 1.89 1.17D 4.17 3.61 1.08 0.00 2.83 2.24E 1.35 0.78 1.89 2.83 0.00 1.00F 2.19 1.68 1.17 2.24 1.00 0.00

Tab.: Distance euclidienne

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 81 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 82 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Condition initiale

{A} {B} {C} {D} {E} {F}A B C D E F

A 0.0 0.3 10 17. 1.8 4.8B 0.3 0.0 7.1 13. 0.6 2.8C 10. 7.1 0.0 1.2 3.6 1.4D 17. 13. 1.2 0.0 8.0 5.0E 1.8 0.6 3.6 8.0 0.0 1.0F 4.8 2.8 1.4 5.0 1.0 0.0

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 83 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Iteration 1

{A, B, C , D, E , F}

��������

����

HHHH

XXXXXXXX

{A, B}�� HH

{A} {B} {C} {D} {E} {F}B,A C D E F

B,A 0.0 7.1 13. 0.6 2.8C 7.1 0.0 1.2 3.6 1.4D 13. 1.2 0.0 8.0 5.0E 0.6 3.6 8.0 0.0 1.0F 2.8 1.4 5.0 1.0 0.0

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 84 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Iteration 2 et 3

{A, B, C , D, E , F}

�������

���

@@@

PPPPPPP

{A, B, E}

�� HH{A, B}�� HH

{A} {B}

{E}

{C} {D} {F}

A.. C D FA.. 0.0 3.6 8.0 1.0C 3.6 0.0 1.2 1.4D 8.0 1.2 0.0 5.0F 1.0 1.4 5.0 0.0

{A, B, C , D, E , F}

���

��

HHH

HH

{A, B, E , F}

���

HHH

{A, B, E}

�� HH{A, B}�� HH

{A} {B}

{E}

{F}

{C} {D} F.. C DF,E,B,A 0.0 1.4 5.0C 1.4 0.0 1.2D 5.0 1.2 0.0

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 85 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Iteration 4

{A, B, C , D, E , F}

���

HHH

{A, B, E , F}

���HHH

{A, B, E}

�� HH{A, B}�� HH

{A} {B}

{E}

{F}

{C , D}�� HH

{C} {D}D,C F,E,B,A

D,C 0.00 1.36F,E,B,A 1.36 0.00

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 86 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Arbres binaires

F E A B C D

0.2

0.4

0.6

0.8

1.0

1.2

1.4

minimum & euclidien

hclust (*, "single")minimum

haut

eur F

E

A B

C D

0.2

0.4

0.6

0.8

1.0

1.2

1.4

minimum & euclidien

hclust (*, "single")minimum

haut

eur

Arbre binaire de classification hierarchique

I Les niveaux des palliers correspondent a la valeur du saut.D({A,B,E ,F}, {C ,D}) = 1.36

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 87 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 88 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Saut minimal

−6 −4 −2 0 2 4 6 8

−4

−2

02

46

x

y

GroupesA = 50B = 25

68 52 56 75 59 64 53 62 71 66 70 69 73 57 63 61 72 58 54 55 60 67 51 65 74 10 5 6 44 43 31 24 45 20 30 4 7 18 36 14 15 29 34 33 35 26 50 27 12 25 37 49 17 22 9 16 39 46 21 40 11 19 32 28 8 48 13 41 42 1 23 3 2 38 47

01

23

45

67

euclidean single

hclust (*, "single")minimum

haut

eur

L’algorithme d’agregation avec le saut minimal favorise lechainage et est tres sensible aux points aberrants.

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 89 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Saut minimal : 2 et 3 groupes

−6 −4 −2 0 2 4 6 8

−4

−2

02

46

x

y

Groupes1 = 502 = 25

euclidean single groupes= 2

−6 −4 −2 0 2 4 6 8

−4

−2

02

46

x

y

Groupes1 = 492 = 13 = 25

euclidean single groupes= 3

Les groupes bien separes ( grande inertie inter par rapport al’inertie intra) sont bien regroupes. Avec 3 groupes on apercoitdes points isoles ou aberrants.

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 90 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Chainage

−2 0 2 4

−4

−2

02

46

x

y

GroupesA = 50B = 25C = 303

chainage euclidean ward

683

681

682

693

691

692

703

701

702

715

711

713 22 723

721

722

733

731

732

743

741

742

753

751

752

633

631

632

643

641

642

673

671

672

653

651

652

663

661

662

573

571

572

583

581

582

553

551

552

563

561

562

593

591

592

603

601

602

615

611

613

623

621

622

852 85 851

862 86 861

892 89 891

902 90 901

872 87 871 52 882 88 881

762 76 761

772 77 771

782 78 781

792 79 791

802 80 801

814 81 812

842 84 841

822 82 821

832 83 831 69 74 73 66 72 61 68 56 58 71 67 64 65 53 57 75 59 70 51 62

1012 101

1011 992 99 991

1002 100

1001 60 63 972 97 971

982 98 981 55 952 95 951

962 96 961

914 91 912 54 922 92 921

932 93 931

942 94 941 32 19 46 233

231

232

215

211

213

223

221

222

243

241

242

253

251

252

263

261

262

273

271

272

283

281

282

293

291

292

303

301

302

315

311

313

323

321

322

333

331

332 28 343

341

342 2 17 42 353

351

352

363

361

362

373

371

372

383

381

382

433

431

432

443

441

442

415

411

413

423

421

422

393

391

392

403

401

402

473

471

472

483

481

482

453

451

452

463

461

462

533

531

532

543

541

542

493

491

492

503

501

502 49 515

511

513

523

521

522 23 45 1 24 6 40 41 26 44 27 7 18 21 33 14 30 31 16 3 13 48 34 8 38 43 25 11 10 39 5 37 4 35 15 36 104

102

103

813

810

811

913

910

911

115

111

113

123

121

122

133

131

132

143

141

142 12 203

201

202

183

181

182

193

191

192

173

171

172

153

151

152

163

161

162

114

110

112

214

210

212

614

610

612

714

710

712

314

310

312

414

410

412

514

510

512 9 50 20 29 47

020

040

060

080

010

0012

00

euclidean wardInertie 3.0531=18.96(intra%)+81.0353(inter%)

hclust (*, "ward")minimum

haut

eur

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 91 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Chainage minimal/ward 2 groupes

−2 0 2 4

−4

−2

02

46

x

yGroupes1 = 1752 = 1

euclidean single groupes= 2Inertie 4.357=93.69(intra%)+6.3072(inter%)

−2 0 2 4

−4

−2

02

46

x

y

Groupes1 = 2112 = 167

euclidean ward groupes= 2Inertie 3.0531=35.23(intra%)+64.7679(inter%)

Saut minimal Saut de Ward

Saut minimal, deux individus de deux groupes soient prochesalors les deux groupes sont agreges.

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 92 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

maximal/ward 4 groupes

−6 −4 −2 0 2 4 6 8

−4

−2

02

46

x

y

Groupes1 = 372 = 103 = 34 = 25

euclidean complete groupes= 4Inertie 8.9341=21.1(intra%)+78.9011(inter%)

−6 −4 −2 0 2 4 6 8

−4

−2

02

46

x

y

Groupes1 = 212 = 193 = 104 = 25

euclidean ward groupes= 4Inertie 8.9341=18.61(intra%)+81.3918(inter%)

Saut maximal Saut de Ward

Saut maximal : pas de chainage, classes compactes. Saut deWard classes d’effectif egaux.

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 93 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 94 / 95

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Conclusion classification

Les algorithmes de classification non supervises sont divises endeux groupes : d’une part les algorithmes de partitionnement,l’algorithme des nuees dynamiques et d’autres part lesalgorithmes de classification hiearchique.

nuees dynamique algorithme iteratif : conditions initiales choixde centres, arret a la stabilite. correspond a unchoix de centres, puis a un algorithme iteratif.

hiearchique algorithme iteratif : conditions initiales partitionla plus fine possible, arret quand le nombre degroupes desire est atteint.

Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 95 / 95