Classification et BD M1:MASS-IMM · Francois.Kauff[email protected] Classification et BD...

95
Classification et BD M1:MASS-IMM Francois.Kauff[email protected] 30 janvier 2008 Francois.Kauff[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 1 / 95

Transcript of Classification et BD M1:MASS-IMM · Francois.Kauff[email protected] Classification et BD...

Page 1: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classification et BD M1:MASS-IMM

[email protected]

30 janvier 2008

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 1 / 95

Page 2: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Premiere partie I

Classification non supervisee

IntroductionStructures des donnees

TablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de VoronoıAlgorithme des nuees dynamiques

DefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 2 / 95

Page 3: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 3 / 95

Page 4: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Objectifs

Les missions :

I Gerer l’information, bases de donnees

I Analyser, modeliser les liens, classification, regression, datamining

I Aider a la decision, predire les risques associe a unedecision statistique

I Communiquer, simplifier, exposer les resultats

Les secteurs concernes :

I distribution

I telecommunications

I banque

I assurance

I etudes medicales et pharmaceutiques

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 4 / 95

Page 5: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Les metiers

I responsable logistique du traitement et de l’analyse desetudes

I charge d’etudes junior : prise en charge de ladocumentation, codage des questionnaires, traitementstatistiques simples.

I charge d’etudes senior, assistant du charge d’etude, priseen main d’une etude de marche.

I analyste statisticien, etudes quantitatives, aide a ladecision, expert en statistiques, il supervise l’analyse desdonnees.

I chef de projet, supervise le groupe et les projets.

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 5 / 95

Page 6: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Les mots cles

I marketing

I etudes quantitatives

I statistique, aide a la decision

I systemes d’information de l’entreprise

I reporting

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 6 / 95

Page 7: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Exemples

I analyse de resultats d’enquetes (Demarche Marketing,Opininion Way)

I identification des prospects (banque, telephonie mobile, ...)

I identification des clients susceptibles de partir a laconcurrence (Bouygues)

I determination des lieux de ventes (distributeurs de billets)

I politique tarifaire (TODD)

I analyser, identifier les risques (degats des eaux MAAF)

I analyser des donnees textuelles, reponse a des questionsouvertes.

I ...

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 7 / 95

Page 8: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Programme

Classification et bases de donnees, fouille de donnees, (datamining).

I Classification non supervisee (clustering)

I Analyse discriminante, regression logistique,...(classification)

I Bases de donnees, Standard Query Language SQL (databases)

I Arbre de decisions (decision trees)

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 8 / 95

Page 9: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Les outils

I vous, vos connaissances, vos neurones

I les outils de gestions de l’information SQL, PostGreSQL,SAS, enseigne en M2-MASS Silog, Access, d’autresOracle, SAP.

I les outils d’analyses SAS, SAS Entreprise Guide, SASEntreprise Miner, R (SPLUS), en M2-MASS, Sphynx,Alceste et d’autres SPAD, SPSS.

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 9 / 95

Page 10: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Bibliographie I

Alan Agresti.An introduction to categorical data Analysis.Wiley Series in probability and statistics, 2007.

Max Bramer.Principles of Data mining.Spinger Verlag, 2007.

Michael Falk, Frank Marohn, and Bernward Tewes.Foundations of statistical Analyses and Applications withSAS.Birkhauser Verlag, 2002.

Jiawei Han and Micheline Kamber.Data Mining : concepts and techniques.Morgan Kaufmann publishers, 2004.

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 10 / 95

Page 11: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Bibliographie II

Naresh Malhotra.Etudes Marketing avec SPSS.Pearson Eduction, 2004.

Stephane Tuffery.Data Mining et statistique decisionnelle.Editions TECHNIP, 2005.

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 11 / 95

Page 12: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 12 / 95

Page 13: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 13 / 95

Page 14: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Les tablesPour un individu 1 ≤ i ≤ n, on observe

Xi ∈ E = E1 × E2 × · · · × Ep.

Pour 1 ≤ j ≤ p l’ensemble Ej peut etre

I R l’addition et la multiplication usuelle ont un sens pourles valeurs observees, les valeurs sont dites quantitatives.

I un ensemble fini, les valeurs sont dites qualitatives.

Les donnees sont rangees dans une table ou relation X

X ∈ (E1 × E2 × · · · × En)n = En

I n lignes appelees individus ou observations ou tuples ouenregistrements ou records

I p colonnes appelees variables ou attributs ou champs.

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 14 / 95

Page 15: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Exemple quantitatif

Si E = E1 × E2 × · · · × Ep = R× · · · × R = Rp, alorsX ∈ En = (Rp)n ∼Mn,p(R), X est une matrice a coefficientsreels a n lignes et p colonnes.

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 15 / 95

Page 16: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Exemple mixte

couleur cru region prix quantite

rose sancerre loire 4 0rouge volnay Bourgogne 9 5rouge mercurey Bourgogne 8.5 0blanc gewurtztraminer alsace 4 3

Pour la variable

I couleur , on peut choisir comme ensemble de valeursE1 = {′rose ′,′ rouge ′,′ blanc ′} mais aussi l’ensemble deschaines de caracteres

I prix on peut choisir comme ensemble de valeurs E4 = RI region on peut choisir comme ensemble de valeurs E5 = N

ou E5 = RX est ici une table a 4 lignes et 5 colonnes.

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95

Page 17: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Structure informatique

La notion de table generalise la notion de matrice ou le type dedonnees est le meme pour toutes les donnees : on parle dematrice a coefficients reels, de matrice a coefficients entiers, acoefficients binaires.

I Liste de vecteurs

I dans SAS c’est une table SAS

I dans R c’est une data.frame

I dans un gestionnaire de bases de donnees c’est aussi unetable.

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 17 / 95

Page 18: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 18 / 95

Page 19: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Dissimilarites

Soit E un ensemble, on appelle dissimilarite sur E

d :

{E × E → R+

(x , y) 7−→ d(x , y)

et qui verifie

I symetrie ∀(x , y) ∈ E 2, d(x , y) = d(y , x)

I ∀x ∈ E , d(x , x) = 0

Si d est une distance sur un ensemble E alors c’est aussi unedissimilarite, la distance verifie en plus la proriete dited’inegalite triangulaire. Soit (Xi )1≤i≤n ∈ En et d unedissimilarite de E , alors D = (d(i , j))1≤i ,j≤n est appeleematrice de dissimilarite entre individus. Plus les individus x et ysont eloignes plus la dissimilarite entre x et y doit etre grande.

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 19 / 95

Page 20: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Variables quantitatives

On suppose que l’on a trois mesuresx1 = (0, 0), x2 = (1, 0), x3 = (5, 5), alors la matrice desdistances pour la norme d(x , y) = ‖x − y‖1 est unedissimilarite : 0 1 10

1 0 910 9 0

La matrice des carres des distances euclidienned(x , y) = ‖x − y‖2

2 est dissimilarite : 0 1 501 0 4150 41 0

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 20 / 95

Page 21: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Normalisation variables numeriques

Il est preferable de renormaliser les variables avant de calculerune matrice de dissimilarite entre individus. Soit sxi la varianceempirique de la variable xi posonsD = diag(1/sx1 , 1/sx1 , · · · , 1/sxn), alors on peut prendrecomme distance

d(x , y) = (x − y)tD(x − y) =< x − y , x − y >D

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 21 / 95

Page 22: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Tableau de contingence

Soit (xi ,j)1≤i≤n,1≤j≤p un tableau de contingence, et I samatrice de liaison alors la distance entre deux lignes i1 et i2 dutableau de contingence peut etre definie grace a la distance duχ2 :

d2(i1, i2) =

j=p∑j=1

1x.,j

x.,.

(xi1,j

xi1,.−

xi2,j

xi2,.

)2

= ‖Ii1 − Ii2‖2diag(f.,j )

=

j=p∑j=1

f.,j

(fi1,j

f.,j fi ,.−

fi2,jf.,j fi ,.

)2

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 22 / 95

Page 23: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Donnees binaires

On suppose que l’espace des observations est E = {0, 1}p

(toutes las variables sont binaires), soient x et y deux individusde E , soit

1. a1 le nombre de composantes qui verifie xi = yi = 1

2. a2 le nombre de composantes qui verifie xi = 0, yi = 1

3. a3 le nombre de composantes qui verifie xi = 1, yi = 0

4. a4 le nombre de composantes qui verifie xi = 0, yi = 0

On construit des indices de dissimilarites entre individus par

d(x , y) =λ(a2 + a3)

a1 + δa4 + λ(a2 + a3)

Pour δ = 0, λ = 1, on parle d’indice de Jaccard, c’est laproportion d’indices qui different.

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 23 / 95

Page 24: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Donnees qualitatives

Si l’ensemble E = E1× · · · × Ep des observations est constituede variables qualitatives, alors la dissimilarite entre deuxindividus x et y est definit par la proportion de differencesentre les deux individus :

d(x , y) =p −m

p

avec

I p est le nombre de variables

I m est le nombre de composantes identiques.

On peut prendre aussi une distance euclidienne calculee a partirdes coordonnees des individus dans une base factorielle d’uneanalyse en composantes multiples.

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 24 / 95

Page 25: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Qualitatives ordonnees

Soit y ∈Mn,1(m1 ≤ m2 ≤ · · · ≤ mq)} une variable qualitativeordonnee , soit rangy ∈ [1, q] le rang de y , on appelle rangnormalise de y

zy =rangy − 1

q − 1∈ [0, 1]

On peut alors comparer ces valeurs numeriques entre elles parl’intermediaires de distances euclidiennes. Si on a une tableX = Table(Y = [TB,P,B,TB]) on aE1 = {m1 = P ≤ m2 = AB ≤ m3 = B ≤ m4 = TB} AlorsrangY = [4, 1, 3, 4] et

zY = [1, 0, 2/3, 1]

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 25 / 95

Page 26: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Cas mixte

On veut construire une dissimilarite entre individus quand lesvariables ne sont pas de type identique. On suppose que latable X est la reunion des tables (Zl)1≤l≤L :

X = [Z1,Z2, · · · ,Zl ]

On suppose que pour chaque sous-table Zl on a construit unedissimilarite dl , alors on peut construire une dissimilarite entredeux indivdius i et j de X en faisant une moyenne ponderee desdissimilarites

d(i , j) =

∑l=Ll=1 αldl(j , j)∑l=L

l=1 αl

avec α ∈ (R+)L

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 26 / 95

Page 27: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 27 / 95

Page 28: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 28 / 95

Page 29: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Classification non supervisee

Soit I = {1, · · · , n} un ensemble d’individus, on appelleclassification en q groupes une famille (Gg )1≤g≤q de partiesl’ensemble des individus I qui verifie :

I Tout individu i ∈ I appartienne a au moins un groupe,

I Il n’existe pas d’individu i ∈ I appartenant a deux groupesdifferents.

On dit que ((Gg )1≤g≤q est une partition de I

{G1, · · · ,Gq} ⊂ P(I)

∀1 ≤ g , g ′′ ≤ q, g 6= g ′ ⇒ Gg ∩ Gg ′ = ∅∪1≤g≤qGq = I

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 29 / 95

Page 30: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Classification non supervisee

I Les donnees sont rangees dans une tableindividus × variables.

I Le but est de creer et de caracteriser des groupes ouclasses d’individus disjoints.

I Les individusI d’un meme groupe doivent proches les uns des autresI de deux groupes distincts doivent etre eloignes les uns des

autres

I La classification est non supervisee car on ne connait pas apriori les groupes.

I C’est une methode multidimensionnelle. Pour un individu,on dispose de plusieurs variables.

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 30 / 95

Page 31: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Classifier quoi ?

La classification peut etre faite sur les donnees brutes

1. Les variables peuvent etre uniquement quantitatives

2. Les variables peuvent etre uniquement qualitatives

3. Les variables peuvent etre quantitatives ou qualitatives

La classification peut etre faite sur des donnees intermediaires

1. Dans le cas de deux variables qualitatives sur des tableauxde contingences (analyse factorielle des correspondances)

2. Dans le cas de plusieurs variables qualitatives sur desscores obtenus par une analyse des correspondancesmultiples.

3. Sur des tableaux de distances entre individus.

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 31 / 95

Page 32: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 32 / 95

Page 33: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Qualite d’une partition dans unespace euclidien

Soit (Gg )1≤g≤q la partition en groupe de l’ensemble desindividus I = {1, · · · , n}. On a pour chaque individu i lesobservations quantitatives xi ∈ (Mp,1(R), <, . >M). L’espacedes observation est suppose euclidien. Soit pi > 0 le poids del’individu i ∈ I et on note xg le centre de gravite du groupeGg . On definit :

inertie totale Itotale =∑

i∈I pi‖xi − x‖2

inertie intra Iintra =∑

1≤g≤q

∑i∈Gq

pi‖xi − xg‖2

inertie inter Iinter =∑

1≤g≤q(∑

i∈Gqpi )‖xg − x‖2

On a alors la decomposition suivante ou theoreme deHuyghens :

Itotale = Iintra + Iinter

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 33 / 95

Page 34: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Qualite d’une partition

Quand la somme des poids vaut 1, alors on peut interpreter

inertie totale comme la moyenne des carres de la distanceentre les individus et le centre de gravite

inertie intra comme la moyenne des carres de la distance entreles observations et le centre de gravite du groupeauquel appartient l’individu

inertie inter comme la moyenne des carres de la distancemoyenne entre le centre de gravite et les centresde gravites des groupes.

Un rapport eleve de l’inertie inter sur l’inertie intra estsynonyme de bonne separation.

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 34 / 95

Page 35: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Bons groupes, mauvaise separation

−2 −1 0 1 2

−2

−1

01

2

x

y A

A

A

A

A

A

A

A

A

A

A

A

A

A

A

A

B

B

B

B

B

B

B

B

B

B

B

B

B

B

B

B

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

GroupesA = 4B = 4C = 4

Inertie 2=50(intra%)+50(inter%)

On a ici d(G ,Gi ) = 1, d(Gi , xj) = 1

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 35 / 95

Page 36: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Bons groupes, bonne separation

−4 −2 0 2 4 6

−6

−4

−2

02

46

x

y A

A

A

A

A

A

A

A

A

A

A

A

A

A

A

A

B

B

B

B

B

B

B

B

B

B

B

B

B

B

B

B

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

GroupesA = 4B = 4C = 4

Inertie 17=5.88(intra%)+94.1176(inter%)

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 36 / 95

Page 37: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Mauvais groupes

−4 −2 0 2 4 6

−6

−4

−2

02

46

x

y AA

A

A

AA

A

A

AA

A

A

AA

A

A

B

B

B

B

B

B

B

B

B

B

B

B

B

B

B

B

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

C

GroupesA = 4B = 4C = 4

Inertie 17=73.79(intra%)+26.2079(inter%)

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 37 / 95

Page 38: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 38 / 95

Page 39: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Constructions de partitions

On suppose que l’on a N resultats de classifications sous formede partition de l’ensemble des individus

I (G 11 , · · · ,G 1

n1) une partition en n1 groupes

I (G 21 , · · · ,G 2

n2) une partition en n2 groupes

I · · ·I (GN

1 , · · · ,GNnN

) une partition en nN groupes

La partition en formes fortes consiste a ne retenir que lesclasses d’individus n’ayant jamais ete separes. Les classes necontenant qu’un seul individu ne sont pas d’un grand interet.

(G 1i1 ∩ G 2

i2 ∩ G 3i3 ∩ · · · ∩ GN

iN)(i1,··· ,iN)∈Πj=N

j=1 [0,nj ]

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 39 / 95

Page 40: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Exemple de forme forte

i Part1 Part2 Part3 Forte1 1 1 1 12 1 1 1 13 1 1 1 14 2 1 1 25 2 1 1 26 2 2 2 37 3 3 2 48 3 3 2 49 3 4 3 510 4 4 4 611 4 4 3 712 4 4 4 6

Forte = {{1, 2, 3}{4, 5}, {6}, {7, 8}, {9}, {10, 12}, {11}}

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 40 / 95

Page 41: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 41 / 95

Page 42: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Methodes de classification

Pre-traitements

Classification

������

HHHHHH

Hiearchique

��

��H

HHH

Ascendante Descendante

NueesDynamiques

Exhaustif

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 42 / 95

Page 43: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Classification exhaustive

Cette methode consiste a enumerer toutes les partitionspossibles. Si il y a n individus, le nombre de partitions a kgroupes ou ensembles est :

1

k!

i=k∑i=0

C ik(−1)k−i in

C’est le nombre de surjections de l’ensemble {1, · · · , n} vers{1, · · · , k} divise par k!. A chaque individu i ∈ {1, · · · , n} onfait correspondre sa classe g ∈ {1, · · · , k}.

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 43 / 95

Page 44: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Nombre de partitions

n k nb

12 3 86526

24 3 47063200806

36 3 25015738189761486

48 3 13294407038741263288566Quand le nombre de partitions est petit, il est possibled’envisager d’enumerer toutes les partitions.

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 44 / 95

Page 45: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 45 / 95

Page 46: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Creation de partitions

Il existe des classifications simples, mais pas souventinteressantes. Ces partitions servent de conditions initiales ades algorithmes plus sophistiques.

I On considere la classification ou chaque groupe contientexactement un individu.

I On considere la classification constituee d’un uniquegroupe l’ensemble des individus.

I On choisit le nombre de groupe et on affecte au hasard lesindividus a ces groupes.

I On choisit q centres, et pour chaque centre on choisit lesindividus ayant des observations plus pres de ce centre quedes autres(mosaique de Voronoi).

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 46 / 95

Page 47: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Classification elementaire

−4 −2 0 2 4 6

−6

−4

−2

02

46

x

y

1

2

3

4

5

6

7

8

9

10

11

12

1

2

3

4

5

6

7

8

9

10

11

12

1

2

3

4

5

6

7

8

9

10

11

12

1

2

3

4

5

6

7

8

9

10

11

12

1

2

3

4

5

6

7

8

9

10

11

12

1

2

3

4

5

6

7

8

9

10

11

12

1

2

3

4

5

6

7

8

9

10

11

12

1

2

3

4

5

6

7

8

9

10

11

12

1

2

3

4

5

6

7

8

9

10

11

12

1

2

3

4

5

6

7

8

9

10

11

12

1

2

3

4

5

6

7

8

9

10

11

12

1

2

3

4

5

6

7

8

9

10

11

12

GroupesA = 12

Classification en un groupe

−4 −2 0 2 4 6

−6

−4

−2

02

46

x

y

1

2

3

4

5

6

7

8

9

10

11

12

GroupesA = 1B = 1C = 1D = 1E = 1F = 1G = 1H = 1I = 1J = 1K = 1L = 1

Classification en douze groupes

G1 = {1, · · · , 12} G1 = {1}, · · · ,G12 = {12}

Les deux classifications correspondent a

I un seul groupe

I un seul individu par groupe

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 47 / 95

Page 48: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Classification en 3 groupes

−4 −2 0 2 4 6

−6

−4

−2

02

46

x

y

1

2

3

4

1

2

3

4

1

2

3

4

1

2

3

4

5

6

7

8

5

6

7

8

5

6

7

8

5

6

7

8

9

10

11

12

9

10

11

12

9

10

11

12

9

10

11

12

GroupesA = 4B = 4C = 4

Classification en trois groupes

−4 −2 0 2 4 6

−6

−4

−2

02

46

x

y

1

6

7

1

6

7

1

6

7

3

5

9

10

3

5

9

10

3

5

9

10

3

5

9

10

2

4

8

11

12

2

4

8

11

12

2

4

8

11

12

2

4

8

11

12

2

4

8

11

12

GroupesA = 3B = 4C = 5

Classification en trois groupes

G1 = {1, 2, 3, 4}, · · · G1 = {1, 6, 7}, · · ·

Partition en 3 groupes :

I la partition qui semble la meilleure

I on affecte aleatoirement les individus aux groupes.

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 48 / 95

Page 49: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Mosaique de Voronoi

Soit I = {1, · · · , n} l’ensemble des individus et (xi )i∈Il’ensemble des observations E . On suppose que l’ensemble desobservations est muni d’une distance d . Soit (cg )1≤g≤q unensemble de q centres dans E . On definit le groupe G (i) del’individu i par

G (i) := argmin1≤g≤q(d(xi , cg ))

Le groupe de l’individu i est le numero du centre le plus prochede xi . Si la distance est deduite d’un produit scalaire. Lesregions definissant les groupes sont des intersections dedemi-plan delimites par des mediatrices entre deux centres.

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 49 / 95

Page 50: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

100 centres dans [0,1]x[0,1]

Voronoi mosaic

v

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 50 / 95

Page 51: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 51 / 95

Page 52: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 52 / 95

Page 53: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Nuees dynamiques

On cherche une partition qui minimise l’inertie intra groupe ouqui maximise l’inertie inter groupe. L’idee est de construirepour chaque centre l’ensemble des individus les plus proche dece centre. Ces ensembles constitueront la partition associee aces centres.

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 53 / 95

Page 54: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Parametres

distance il faut choisir une distance entre individus

nombre de groupes il faut choisir le nombre de groupes a priori

centre de gravite il faut choisir des centres de gravites qui vontservir de conditions initiales.

difficulte la partition depend des centres de gravitesinitiaux.

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 54 / 95

Page 55: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Algorithme

Algorithme iteratif :a un centre on associe l’ensemble desindivius les plus proches.

Initialisation choix de centres

Boucle tant que la partition est modifiee :

1. affecter les individus aux groupes definis parles centres,

2. calculer les centres de gravites des groupes,3. prendre comme centres les centres de gravite

des nouveaux groupes.

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 55 / 95

Page 56: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 56 / 95

Page 57: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Bonne classification

−4 −2 0 2 4 6

−6

−4

−2

02

46

x

y

GroupesA = 4B = 4C = 4

Algorithme nuées dynamiquesInertie 17=87.22(intra%)+14.061(inter%)

−4 −2 0 2 4 6

−6

−4

−2

02

46

x

y

GroupesA = 4B = 4C = 4

Algorithme nuées dynamiquesInertie 17=5.88(intra%)+94.1176(inter%)

I Convergence en deux iterations.

I Inertie intra classe vaut 6 pourcent de l’inertie totale.

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 57 / 95

Page 58: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Convergence

−4 −2 0 2 4 6

−6

−4

−2

02

46

x

y

GroupesA = 6B = 4C = 2

Algorithme nuées dynamiquesInertie 17=68.94(intra%)+48.3571(inter%)

−4 −2 0 2 4 6

−6

−4

−2

02

46

x

y

GroupesA = 4B = 4C = 4

Algorithme nuées dynamiquesInertie 17=17.98(intra%)+75.1008(inter%)

−4 −2 0 2 4 6

−6

−4

−2

02

46

x

y

GroupesA = 4B = 4C = 4

Algorithme nuées dynamiquesInertie 17=5.88(intra%)+94.1176(inter%)

I Convergence en trois iterations.

I Inertie intra classe vaut 6 pourcent de l’inertie totale.

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 58 / 95

Page 59: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Autre classification

−4 −2 0 2 4 6

−6

−4

−2

02

46

x

y

GroupesA = 2B = 2C = 8

Algorithme nuées dynamiquesInertie 17=65.98(intra%)+20.3542(inter%)

−4 −2 0 2 4 6

−6

−4

−2

02

46

x

y

GroupesA = 2B = 2C = 8

Algorithme nuées dynamiquesInertie 17=51.96(intra%)+48.0392(inter%)

−4 −2 0 2 4 6

−6

−4

−2

02

46

x

y

GroupesA = 2B = 2C = 8

Algorithme nuées dynamiquesInertie 17=51.96(intra%)+48.0392(inter%)

I Convergence en trois iterations.

I Inertie intra classe vaut 52 pourcent de l’inertie totale.

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 59 / 95

Page 60: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 60 / 95

Page 61: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Parametres

Nb de groupes c’est le premier parametres a choisir

Conditions initiales Mettre le plus possible de connaissances apriori dans le choix des centres. Faire de nombreuxessais en choisissant des centres aleatoirement.

Nombre d’iterations limiter dans un premier temps

Rapidite Algorithme tres rapide meme avec un grandnombre d’individus et un grand nombre devariables.

Facilite d’utilisation Present dans les logiciels R kmeans, dansSAS fastclus

distance Dans R, c’est la distance canonique euclidienne,dans SAS on peut choisir des distances lp

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 61 / 95

Page 62: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Resultats

bonne solution ? L’algorithme des nuees dynamiques rechercheun minimum local. On ne peut etre sur que c’estla meilleure solution.

valeurs aberrantes Elles seront regroupees dans des groupescomposes d’un unique individu (loin de toutes lesautres valeurs). On peut se servir de cetalgorithme pour la recherche de valeursaberrantes.

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 62 / 95

Page 63: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 63 / 95

Page 64: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 64 / 95

Page 65: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Dissimilarite entre individus

Soit E = E 1 × E 2 × · · · × Ep l’espace des observations.d unedissimilarite de l’ensemble E . Soit X la table des observationsdes n individus (Xi )1≤i≤n et

D ∈Mn,n(R+)

la matrice de dissimilarite entre ces individus

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 65 / 95

Page 66: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 66 / 95

Page 67: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Classifications hierachiques

Les techniques hierarchiques de classification consistent aconstruire une arbre de partitions en partant de partitionselementaires :

I de la partition la plus fine : celle consituee de classes necontenant qu’un seul individu vers la partition la plusgrossiere : une seule classe contenant tous les individus.On agglomere les classes et on parle d’analyse hierachiqueascendante.

I de la partition la plus grossiere : vers la partition la plusfine : on decoupe les classes, on parle d’analysehierarchique descendante ou d’arbre de decision.

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 67 / 95

Page 68: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Arborescence des partitions

{a, b, c , d , e}

����

HHHH

{a, b}�� HH

{a} {b}

{c , d , e}���

HHH

{c , d}�� HH

{c} {d}

{e}

La partition la plus fine est P1 = {{a}, {b}, {c}, {d}, {e}}.Une partion intermediaire est P2 = {{a}, {b}, {c , d}, {e}}.La partition la plus grossiere est P4 = {{a, b, c , d , e}}.

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 68 / 95

Page 69: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 69 / 95

Page 70: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Distance moyenne entre classes

Soit I l’espace des individus, on suppose que l’on a un mesurede dissimilarite ou distances dans l’espace des individus d . Onveut definir une mesure de dissimilarites ou distance D entre lesdeux groupes

D :

{P(I) → R+

(C ,C ′) 7−→ D(C ,C ′)

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 70 / 95

Page 71: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Distance moyenne

La distance moyenne (method=average SAS,R) entre deuxgroupes est la moyenne des distances entre les individus dugroupe C d’effectif c et les individus du groupe C ′ d’effectif c ′.On a :

D(C ,C ′) =1

cc ′

∑i∈C ,i ′∈C ′

d(xi , xi ′)

Soient A et B eux groupes d’effectifs a, b respectivement alorson a la formule d’agregation :

D(C ,A ∪ B) =aD(C ,A) + bD(C ,B)

a + b

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 71 / 95

Page 72: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Distance minimale

La distance minimale (method=single SAS,R) entre deuxgroupes est la plus petite des distances entre les individus dugroupe C et les individus du groupe C ′. On a :

D(C ,C ′) = Mini∈C ,i ′∈C ′d(xi , xi ′)

D(C ,A ∪ B) = Min(D(C ,A),D(C ,B))

I Construction de grands groupes

I Deux groupes seront reunis si deux individus sont proches.

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 72 / 95

Page 73: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Distance maximale

La distance maximale (method=complete SAS,R) entre deuxgroupes est la plus grande des distances entre les individus dugroupe C et les individus du groupe C ′. On a :

D(C ,C ′) = Maxi∈C ,i ′∈C ′d(xi , xi ′)

D(C ,A ∪ B) = Max(D(C ,A),D(C ,B))

I Creation de classe de meme diametre (plus grandedistance entre deux points de la meme classe)

I Sensiblite aux valeurs aberantes.

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 73 / 95

Page 74: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Distance des centres de gravites

La distance entre individus est le carre d’une distanceeuclidienne. La distance des centres de gravite(method=centroid SAS,R) entre deux groupes est le carre dela distance entre les deux centres de gravite xC des (xi )i∈C etxC ′ des (xi )i∈C ′ . On a :

D(C ,C ′) = d(xC , xC ′)

D(C ,A ∪ B) =a

a + bD(C ,A) +

b

a + bD(C ,B)

− ab

(a + b)2D(A,B)

I robuste vis a vis de valeurs aberantes.

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 74 / 95

Page 75: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Distance des centres de gravites

Si la distance dans entre individus est le carre d’une distanceeuclidienne, la formule d’agregation est exacte. Soient A,B,C 3points d’un espace affine euclidien et G le barycentre de(B, b), (C , c) avec b ≥ 0, c ≥ 0, b + c = 1, alors

‖AG‖2 = ‖b ~AB + c ~AC‖2

= b2‖ ~AB‖2 + c2‖ ~AC‖2 + 2bc < ~AB, ~AC >

De plus

b‖ ~AB‖2 + c‖AC‖2 − bc‖ ~BC‖2

= b‖ ~AB‖2 + c‖AC‖2 − bc < ~BA + ~AC , ~BA + ~AC >

= (b − bc)‖ ~AB‖2 + (c − bc)‖AC‖2 + 2bc < ~AB, ~AC >

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 75 / 95

Page 76: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Wald : perte d’inertieOn cherche pour chaque etape d’aglomeration a obtenir une partitiion qui minimise l’inertie intra classeparmi toutes les partitions obtenues en agregant deux parties A et B de la precedente partition. Soit gA etgB les centre de gravite A et B de poids a =

Pi∈A pi ≥ 0 et b

Pi∈B pi ≥ 0 avec a + b = 1. Soit G le

barycentre de (gA, a) et de (gB , b) alors :

I intraA∪B =

Xi∈A∪B

pi‖xi − G‖2

=Xi∈A

pi‖xi − G‖2 +Xi∈B

pi‖xi − G‖2

=Xi∈A

pi‖(xi − gA) + (gA − G)‖2 +Xi∈B

pi‖(xi − gB ) + (gB − G)‖2

=Xi∈A

pi‖xi − gA‖2 +

Xi∈B

pi‖xi − gB‖2 + (

Xi∈A

pi )‖gA − G‖2 + (Xi∈B

pi )‖gB − G‖2

On a donc

I intraA∪B − I intra

A,B = a‖gA − G‖2 + b‖gB − G‖2

= a ∗ 0 + b‖gB − gA)‖2 + (a + b)‖gA − G‖2

a(I intra

A∪B − I intraA,B )

a + b=

ab

a + b‖gB − gA)‖2 + a‖gA − G‖2

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 76 / 95

Page 77: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Distance de Ward

Minimiser l’ecart entre les partitions avant et apresaglomeration de l’inertie intra classe revient a chercher la classeB qui rend minimum l’expression suivanteab

a+b‖gB − gA‖2 + a‖gA − G‖2. On prend come mesure d’ecartau sens de Wald

D(A,B) =ab

a + b‖gB − gA‖2.

Dans le cas ou l’on prendrait une distance plus generale pourmesurer l’ecart entre les centres de gravites , on pose

D(A,B) =ab

a + bd(gB , gA).

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 77 / 95

Page 78: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Ward : Formule d’agregation

Le poids des classes (A, B, C) vallent respectivement (a, b, c)

D(A, B ∪ C) =a(b + c)

a + b + c‖gA − gA∪B‖

2

=a(b + c)

a + b + c

b

b + c‖gA − gB‖

2 +c

(b + c)‖gA − gC‖

2 −bc

(b + c)2‖gB − gC‖

2

!

=a + b

a + b + c

ab

a + b‖gA − gB‖

2 +a + c

a + b + c

ac

a + c‖gA − gC‖

2

−a

a + b + c

cb

b + c‖gB − gC‖

2

=a + b

a + b + cD(A, B) +

a + c

a + b + cD(A, C) −

a

a + b + cD(B, C)

La formule

I construit des classes d’egal effectif,

I et est sensible aux donnees aberantes.

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 78 / 95

Page 79: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Algorithme d’agregation

initialisation :

I Construire la partition la plus fineI Construire la matrice de distance

tant que qu’il reste plus de 2 parties :

I Rechercher les deux classes les plus proches,I Aggreger ces deux classes,I Construire la matrice des distances de cette

nouvelle partition en utilisant les formulesd’agregation

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 79 / 95

Page 80: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Remarques

L’algorithme de classification hierachique ascendant depend

I de la mesure de dissimilarites entre individus

I du choix de la mesure entre classes.

I f : R → R croissante alors la suite des partitions estinchangee si l’on change d en f ◦ d (distance ou distanceau carre).

I Si on a n individus la hauteur de l’arbre est au maximumde n − 1.

I On determine la partition en coupant l’arbre des partitionsa une hauteur h ou bien en donnant le nombre de classesdesirees.

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 80 / 95

Page 81: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Ex : distance euclidienne

Distance euclidienne dans l’espace des individus. La matrice dedissimilarite est la matrice constitue des carres des elements dela matrice des distances. On choisit la methode d’aglomerationpar saut minimum.

cah-distance-euc A B C D E F

A 0.00 0.57 3.22 4.17 1.35 2.19B 0.57 0.00 2.66 3.61 0.78 1.68C 3.22 2.66 0.00 1.08 1.89 1.17D 4.17 3.61 1.08 0.00 2.83 2.24E 1.35 0.78 1.89 2.83 0.00 1.00F 2.19 1.68 1.17 2.24 1.00 0.00

Tab.: Distance euclidienne

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 81 / 95

Page 82: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 82 / 95

Page 83: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Condition initiale

{A} {B} {C} {D} {E} {F}A B C D E F

A 0.0 0.3 10 17. 1.8 4.8B 0.3 0.0 7.1 13. 0.6 2.8C 10. 7.1 0.0 1.2 3.6 1.4D 17. 13. 1.2 0.0 8.0 5.0E 1.8 0.6 3.6 8.0 0.0 1.0F 4.8 2.8 1.4 5.0 1.0 0.0

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 83 / 95

Page 84: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Iteration 1

{A, B, C , D, E , F}

��������

����

HHHH

XXXXXXXX

{A, B}�� HH

{A} {B} {C} {D} {E} {F}B,A C D E F

B,A 0.0 7.1 13. 0.6 2.8C 7.1 0.0 1.2 3.6 1.4D 13. 1.2 0.0 8.0 5.0E 0.6 3.6 8.0 0.0 1.0F 2.8 1.4 5.0 1.0 0.0

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 84 / 95

Page 85: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Iteration 2 et 3

{A, B, C , D, E , F}

�������

���

@@@

PPPPPPP

{A, B, E}

�� HH{A, B}�� HH

{A} {B}

{E}

{C} {D} {F}

A.. C D FA.. 0.0 3.6 8.0 1.0C 3.6 0.0 1.2 1.4D 8.0 1.2 0.0 5.0F 1.0 1.4 5.0 0.0

{A, B, C , D, E , F}

���

��

HHH

HH

{A, B, E , F}

���

HHH

{A, B, E}

�� HH{A, B}�� HH

{A} {B}

{E}

{F}

{C} {D} F.. C DF,E,B,A 0.0 1.4 5.0C 1.4 0.0 1.2D 5.0 1.2 0.0

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 85 / 95

Page 86: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Iteration 4

{A, B, C , D, E , F}

���

HHH

{A, B, E , F}

���HHH

{A, B, E}

�� HH{A, B}�� HH

{A} {B}

{E}

{F}

{C , D}�� HH

{C} {D}D,C F,E,B,A

D,C 0.00 1.36F,E,B,A 1.36 0.00

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 86 / 95

Page 87: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Arbres binaires

F E A B C D

0.2

0.4

0.6

0.8

1.0

1.2

1.4

minimum & euclidien

hclust (*, "single")minimum

haut

eur F

E

A B

C D

0.2

0.4

0.6

0.8

1.0

1.2

1.4

minimum & euclidien

hclust (*, "single")minimum

haut

eur

Arbre binaire de classification hierarchique

I Les niveaux des palliers correspondent a la valeur du saut.D({A,B,E ,F}, {C ,D}) = 1.36

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 87 / 95

Page 88: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 88 / 95

Page 89: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Saut minimal

−6 −4 −2 0 2 4 6 8

−4

−2

02

46

x

y

GroupesA = 50B = 25

68 52 56 75 59 64 53 62 71 66 70 69 73 57 63 61 72 58 54 55 60 67 51 65 74 10 5 6 44 43 31 24 45 20 30 4 7 18 36 14 15 29 34 33 35 26 50 27 12 25 37 49 17 22 9 16 39 46 21 40 11 19 32 28 8 48 13 41 42 1 23 3 2 38 47

01

23

45

67

euclidean single

hclust (*, "single")minimum

haut

eur

L’algorithme d’agregation avec le saut minimal favorise lechainage et est tres sensible aux points aberrants.

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 89 / 95

Page 90: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Saut minimal : 2 et 3 groupes

−6 −4 −2 0 2 4 6 8

−4

−2

02

46

x

y

Groupes1 = 502 = 25

euclidean single groupes= 2

−6 −4 −2 0 2 4 6 8

−4

−2

02

46

x

y

Groupes1 = 492 = 13 = 25

euclidean single groupes= 3

Les groupes bien separes ( grande inertie inter par rapport al’inertie intra) sont bien regroupes. Avec 3 groupes on apercoitdes points isoles ou aberrants.

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 90 / 95

Page 91: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Chainage

−2 0 2 4

−4

−2

02

46

x

y

GroupesA = 50B = 25C = 303

chainage euclidean ward

683

681

682

693

691

692

703

701

702

715

711

713 22 723

721

722

733

731

732

743

741

742

753

751

752

633

631

632

643

641

642

673

671

672

653

651

652

663

661

662

573

571

572

583

581

582

553

551

552

563

561

562

593

591

592

603

601

602

615

611

613

623

621

622

852 85 851

862 86 861

892 89 891

902 90 901

872 87 871 52 882 88 881

762 76 761

772 77 771

782 78 781

792 79 791

802 80 801

814 81 812

842 84 841

822 82 821

832 83 831 69 74 73 66 72 61 68 56 58 71 67 64 65 53 57 75 59 70 51 62

1012 101

1011 992 99 991

1002 100

1001 60 63 972 97 971

982 98 981 55 952 95 951

962 96 961

914 91 912 54 922 92 921

932 93 931

942 94 941 32 19 46 233

231

232

215

211

213

223

221

222

243

241

242

253

251

252

263

261

262

273

271

272

283

281

282

293

291

292

303

301

302

315

311

313

323

321

322

333

331

332 28 343

341

342 2 17 42 353

351

352

363

361

362

373

371

372

383

381

382

433

431

432

443

441

442

415

411

413

423

421

422

393

391

392

403

401

402

473

471

472

483

481

482

453

451

452

463

461

462

533

531

532

543

541

542

493

491

492

503

501

502 49 515

511

513

523

521

522 23 45 1 24 6 40 41 26 44 27 7 18 21 33 14 30 31 16 3 13 48 34 8 38 43 25 11 10 39 5 37 4 35 15 36 104

102

103

813

810

811

913

910

911

115

111

113

123

121

122

133

131

132

143

141

142 12 203

201

202

183

181

182

193

191

192

173

171

172

153

151

152

163

161

162

114

110

112

214

210

212

614

610

612

714

710

712

314

310

312

414

410

412

514

510

512 9 50 20 29 47

020

040

060

080

010

0012

00

euclidean wardInertie 3.0531=18.96(intra%)+81.0353(inter%)

hclust (*, "ward")minimum

haut

eur

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 91 / 95

Page 92: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Chainage minimal/ward 2 groupes

−2 0 2 4

−4

−2

02

46

x

yGroupes1 = 1752 = 1

euclidean single groupes= 2Inertie 4.357=93.69(intra%)+6.3072(inter%)

−2 0 2 4

−4

−2

02

46

x

y

Groupes1 = 2112 = 167

euclidean ward groupes= 2Inertie 3.0531=35.23(intra%)+64.7679(inter%)

Saut minimal Saut de Ward

Saut minimal, deux individus de deux groupes soient prochesalors les deux groupes sont agreges.

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 92 / 95

Page 93: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

maximal/ward 4 groupes

−6 −4 −2 0 2 4 6 8

−4

−2

02

46

x

y

Groupes1 = 372 = 103 = 34 = 25

euclidean complete groupes= 4Inertie 8.9341=21.1(intra%)+78.9011(inter%)

−6 −4 −2 0 2 4 6 8

−4

−2

02

46

x

y

Groupes1 = 212 = 193 = 104 = 25

euclidean ward groupes= 4Inertie 8.9341=18.61(intra%)+81.3918(inter%)

Saut maximal Saut de Ward

Saut maximal : pas de chainage, classes compactes. Saut deWard classes d’effectif egaux.

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 93 / 95

Page 94: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Plan

Introduction

Structures des donneesTablesDissimilarites

ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes

Classification de Voronoı

Algorithme des nuees dynamiquesDefinitionExemplesDiscussion

Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion

Conclusion

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 94 / 95

Page 95: Classification et BD M1:MASS-IMM · Francois.Kauffmann@math.unicaen.fr Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95. Classif Introduction Les donn´ees Tables Dissimilarit´es

Classif

Introduction

Les donnees

Tables

Dissimilarites

Classification

Partitionnement

Inertie

Fusion

Algorithmes

Voronoı

Nuees dyn.

Definition

Exemples

Discussion

Hierarchique

Definitions

Agregation

Distances

Exemple

Discussion

Conclusion

Conclusion classification

Les algorithmes de classification non supervises sont divises endeux groupes : d’une part les algorithmes de partitionnement,l’algorithme des nuees dynamiques et d’autres part lesalgorithmes de classification hiearchique.

nuees dynamique algorithme iteratif : conditions initiales choixde centres, arret a la stabilite. correspond a unchoix de centres, puis a un algorithme iteratif.

hiearchique algorithme iteratif : conditions initiales partitionla plus fine possible, arret quand le nombre degroupes desire est atteint.

[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 95 / 95