Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé...

44
Constuction de l’arbre maximal Elaguage de l’arbre maximal Chapitre III Arbres de classification M2 MAS - Université de Bordeaux 2016-2017 Chapitre 3 Apprentissage supervisé 1/44

Transcript of Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé...

Page 1: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

Chapitre IIIArbres de classification

M2 MAS - Université de Bordeaux

2016-2017

Chapitre 3 Apprentissage supervisé 1/44

Page 2: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

IntroductionDeux approches possibles pour constuire une règle de classification g .

Approche basée sur un modèle.Apprentissage de Loi(Y |X) puis déduction de gExemples : analyse discriminante linéaire, bayésien naïf, régressionlogistique, etc.

Approche de type prototype.

Apprentissage direct de la règle classification gExemples : k-plus proches voisins, arbres de classification, forêtsaléatoires, etc.

Dans ce chapitre :- Méthode CART : Classification and regression trees.L. Breiman, J. H. Friedman, R.A. Olshen, and C. J. Stone, Chapman &Hall, 1984.

- En français on parle d’arbres de classification ou d’arbres de régression ouplus généralement d’ arbres de décision.

Chapitre 3 Apprentissage supervisé 2/44

Page 3: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

Introduction

Variables d’entrées quantitatives ou qualitatives X = (X1, . . . ,Xp) ∈ X .Variable de sortie Y qualitative à K modalités..La règle de classification g : X → {1, . . . ,K} est un un arbre constuit àpartir des données d’apprentissage (Xi ,Yi ), i = 1, . . . , n.

Exemple :

Chapitre 3 Apprentissage supervisé 3/44

Page 4: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

Plan

1 Constuction de l’arbre maximal

2 Elaguage de l’arbre maximal

Chapitre 3 Apprentissage supervisé 4/44

Page 5: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

Construction de l’arbre maximal

La méthode CART construit un arbre binaire dont les noeuds sont dessous-échantillons des données d’apprentissage.

1 Le noeud racine contient toutes les données d’apprentissage.2 A chaque étape un un noeud est divisé pour construire deux nouveaux

noeuds les plus homogènes possible au sens de la variable à expliquer.3 L’arbre maximal est obtenu lorsqu’aucun noeud ne peux plus être divisé.

Un noeud terminal (qui ne peut plus être divisé) est appellée une feuille.4 Chaque feuille est alors affectée à l’une des modalités de la variable à

expliquer.

Questions :- Comment mesurer la qualité d’une division ?- Comment diviser une classe ?- Quel est le critère d’arrêt des divisions ?- Quel est la règle d’affectation d’une feuille à une modalité ?

Chapitre 3 Apprentissage supervisé 5/44

Page 6: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

Comment mesurer la qualité d’une division ?

L’objectif est de diviser un noeud t en deux classes correspondant au noeud filsgauche tL et au noeud fils droit tR .

On veut que les deux classes soient le plus homogènes possible au sens de lavariable à expliquer et l’hétérogénéité d’un noeud t se mesure par une fonctionnon négative qui doit être :

- nulle si le noeud est homogène i.e. toutes les observations du noeudappartiennent à la même modalité de Y . On considèrera que le noeud estpur.

- maximale si le noeud est hétérogène i.e. lorsque les modalités de Y sontéquiprobables dans le noeud. L’impureté du noeud est alors maximale.

Chapitre 3 Apprentissage supervisé 6/44

Page 7: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

Impureté d’un noeud

Une fonction d’impureté φ est une fonction définie sur l’ensemble des K -upletde nombres (p1, . . . , pK ) satisfaisants pk ≤ 0, k = 1 . . . ,K ,

∑Kk=1 pK = 1 avec

les propriétés :- φ admet un unique maximum en ( 1

K , . . . ,1K )

- φ est minimum aux points (1, 0, . . . , 0), (0, 1, . . . , 0)...- φ est une fonction symétrique de p1, . . . , pK c’est à dire que φ estconstante pour toute permutation depk .

On mesure alors l’impureté d’un noeud t par :

i(t) = φ(pt,1, . . . , pt,K )

avec pt,k = nt,knt

la proportion de la modalité k dans le noeud t. Cetteproportion estime la probabilité de la classe k dans le noeud t.

Chapitre 3 Apprentissage supervisé 7/44

Page 8: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

Deux mesures standard d’impureté d’un noeud sont :- l’indice de Gini :

i(t) =K∑

k=1

pt,k (1− pt,k ) = 1−K∑

k=1

p2t,k

- l’entropie (avec la convention 0 log(0) = 0) :

i(t) = −K∑

k=1

pt,k log2(pt,k )

Chapitre 3 Apprentissage supervisé 8/44

Page 9: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

Par exemple, si la variable Y est binaire, en notant p = pt,1 on a :- Gini : i(t) = 2p(1− p)- Entropie : i(t) = −p log2(p)− (1− p) log2(1− p)

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

p

fonc

tion

d'im

pure

téEntropieGini

Chapitre 3 Apprentissage supervisé 9/44

Page 10: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

Qualité d’une division

On mesure la qualité de la division d’un noeud t en deux noeuds tL et tR par laréduction de l’impureté occasionnée par la division :

∆(tL, tR ) = i(t)− pLi(tL)− pR i(tR )

où pL et pR sont respectivement les proportions d’observations de t partantdans le noeud gauche tL et dans le noeud droit tR .

Une bonne division occasionera une forte diminution de l’impureté. L’objectifsera donc de trouver parmi un ensemble de divisions possibles, celle quimaximise ∆(tL, tR ).

Chapitre 3 Apprentissage supervisé 10/44

Page 11: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

Comment diviser un noeud ?

L’algorithme consiste à choisir parmi toutes les divisions possibles , celle quimaximise la perte d’impureté mesurée par ∆(tL, tR ).

Ici les partitions sont induites par des questions binaires. En effet chaquepartition d’un noeud t de l’arbre repose sur une seule variable Xj .

si Xj ∈ R est quantitative, la question binaire sera du type

Xj ≤ c ?

Il existe une infinité de valeurs de coupures c possibles mais ellesinduisent au maximum nt − 1 partitions différentes.si Xj ∈ {1, . . . ,M} est qualitative, la question binaire sera du type

Xj ⊂ A ?

où A ⊂ {1, . . . ,M}. Il existe 2M−1 − 1 questions binaires et donc aumaximum 2M−1 − 1 partitions différentes.

Chapitre 3 Apprentissage supervisé 11/44

Page 12: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

Quel est le critère d’arrêt des divisions ?

Le critère d’arrêt consiste à ne pas découper un noeud pur. Afin d’éviter undécoupage trop fin, on décide souvent de ne pas découper pas un noeud quicontient moins de nmin données avec souvent nmin compris entre 1 et 5.

Chapitre 3 Apprentissage supervisé 12/44

Page 13: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

Estimation des probabilités à posteriori

Un arbre de classification T définit une partition de l’ensemble de définition Xdes variables d’entrée.

x1 > θ1

x2 > θ3

x1 6 θ4

x2 6 θ2

A B C D E

La probabilité à posteriori P(Y = k|X = x) est alors la probabilité quel’observation soit dans la classe k sachant que x va dans le noeud t. On noterap(k|t) cette probabilité.

Chapitre 3 Apprentissage supervisé 13/44

Page 14: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

On utilise la formule classique suivante :

p(k|t) = p(t|k)πk

p(t)

avec πk la probabilité à priori de la classe k et p(t|k) la probabilité qu’uneobservation de la classe k aille dans le noeud t.

On estime alors ces probabilités :

p̂(t|k) = nt,k

nk,

p̂(t) = nt

n .

Si les probabiliés à priori sont estimées par les proportions des classes nkn , on

aura la simplification suivante

p̂(k|t) = pt,k = nt,k

nt.

Chapitre 3 Apprentissage supervisé 14/44

Page 15: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

La règle de classification g consiste donc à faire descendre une nouvelleobservation x dans l’arbre T et à prédire la classe qui a été affectée à ce noeudterminal.

La règle d’affectation d’une classe à un noeud terminal t est la suivante :- on affecte au noeud t la classe la plus probable à posteriori dans le dansle cas d’une fonction de coût 0-1 :

τ(t) = arg max`∈{1,...,K}

p(k|t)

- on affecte au noeud t la classe la moins risquée dans le cas d’une fonctionde coût quelconque.

τ(t) = arg min`∈{1,...,K}

K∑k=1

Ck` p(k|t)

Chapitre 3 Apprentissage supervisé 15/44

Page 16: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

En partique on estime les probabilités à posteriori p(k|t) par les proportionsp̂(k|t) = nt,k

nton a :

τ(t) = arg min`∈{1,...,K}

K∑k=1

Ck`nt,k

nt.

Dans le cas d’une fonction de coût 0-1, on a

τ(t) = arg max`∈{1,...,K}

nt,k

nt

et c’est donc la règle de la classe majoritaire qui s’applique.

Chapitre 3 Apprentissage supervisé 16/44

Page 17: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

Exemple : données synthétiques

Chapitre 3 Apprentissage supervisé 17/44

Page 18: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

Exemple : données synthétiques

Chapitre 3 Apprentissage supervisé 18/44

Page 19: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

Exemple : données synthétiques

Chapitre 3 Apprentissage supervisé 19/44

Page 20: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

Exemple : données synthétiques

Chapitre 3 Apprentissage supervisé 20/44

Page 21: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

Exemple : données synthétiques

Chapitre 3 Apprentissage supervisé 21/44

Page 22: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

Exemple : données synthétiques

Chapitre 3 Apprentissage supervisé 22/44

Page 23: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

Exemple : données synthétiques

Chapitre 3 Apprentissage supervisé 23/44

Page 24: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

Exemple : données synthétiques

Chapitre 3 Apprentissage supervisé 24/44

Page 25: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

Exemple : spam

Chapitre 3 Apprentissage supervisé 25/44

Page 26: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

Plan

1 Constuction de l’arbre maximal

2 Elaguage de l’arbre maximal

Chapitre 3 Apprentissage supervisé 26/44

Page 27: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

Elaguage de l’arbre maximal

La démarche proposée conduit à des arbres extrêmement raffinés et donc :- à des modèles de prévision très instables car fortement dépendants deséchantillons d’apprentissage qui ont permis leur estimation de l’arbre,

- à une situation de sur-ajustement à éviter au profit de modèles plusparcimonieux donc plus robuste au moment de la prévision.

Cet objectif est obtenu par une procédure d’élagage ou (pruning) de l’arbre quiconsiste à :

- constuire une suite emboîtée de sous-arbres de l’arbre maximal parélagage succesif,

- à choisir parmi cette suite le sous-arbre optimal au sens du critèrecoût-complexité qui mesure un compromis entre la taille de l’arbre et soncoût de mauvais classement.

Chapitre 3 Apprentissage supervisé 27/44

Page 28: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

Risque d’un noeud

Le risque d’un noeud t auquel la classe τ(t) a été affectée est :

r(t) =K∑

k=1

Ckτ(t) p(k|t)

Pour une matrice de coût 0-1, le risque d’un noeud est la probabilité demauvais classement dans le noeud :

r(t) = 1− p(τ(t)|t)

Chapitre 3 Apprentissage supervisé 28/44

Page 29: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

En pratique on estime les probabilités à posteriori p(k|t) par les proportionsp̂(k|t) = nt,k

ntet le risque du noeud t de classe τ(t) est :

r(t) =K∑

k=1

Ckτ(t)nt,k

nt

= 1nt

K∑k=1

Ckτ(t)nt,k

= 1nt

∑x∈t

Cτ(x)τ(t)

où τ(x) est la vraie classe de l’observation x .

Le risque d’un noeud est alors le coût moyen dans le noeud c’est à dire lasomme des coûts de mauvais classement des observations du noeud divisée parle nombre d’observation dans le noeud.

Chapitre 3 Apprentissage supervisé 29/44

Page 30: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

Dans le cas d’une fonction de coût 0-1 le risque du noeud t de classe τ(t) est :

r(t) = 1−nt,τ(t)

nt

= 1nt

(nt − nt,τ(t))

= 1nt

∑x∈t

1τ(t)=τ(x)

Le risque d’un noeud est alors le taux de mauvais classement dans le noeud.

Chapitre 3 Apprentissage supervisé 30/44

Page 31: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

Risque d’un arbre

Le risque d’un arbre T est :

R(T ) =∑t∈T̃

p(t)r(t)

où T̃ est l’ensemble des noeuds terminaux de T .

Chapitre 3 Apprentissage supervisé 31/44

Page 32: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

En pratique on estime les probabilités à priori par les proportions p̂(t) = ntn et

R(T ) =∑t∈T̃

nt

n

K∑k=1

Ckτ(t)nt,k

nt

= 1n

∑t∈T̃

K∑k=1

Ckτ(t)nt,k

= 1n

∑t∈T̃

∑x∈t

Cτ(x)τ(t)

où τ(x) est la vraie classe de l’observation x .

On en conclue que le risque R(T ) d’un arbre est le coût moyen de mauvaisclassement de l’arbre et que nR(T ) est la somme des coûts de mauvaisclassements des observations appellée coût de mauvais classement de l’arbre.

Chapitre 3 Apprentissage supervisé 32/44

Page 33: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

Dans le cas particulier d’une fonction de coût 0-1 :

R(T ) =∑t∈T̃

nt

n (1−nt,τ(t)

nt)

= 1n

∑t∈T̃

(nt − nt,τ(t))

= 1n

∑t∈T̃

∑x∈t

1τ(t)=τ(x)

On en conclue que le risque R(T ) d’un arbre est le taux de mals classés et quenR(T ) le nombre d’observations mal classées.

Chapitre 3 Apprentissage supervisé 33/44

Page 34: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

Critère de coût-complexité

Le critère de coût-complexité repose sur une pénalisation du coût de mauvaisclassement par la complexité de l’arbre :

Cα(T ) = nR(T )− α|T̃ |,

où- |T̃ | est le nombre de noeuds terminaux de T ,- nR(T ) est le nombre de de mal classés (pour une fonction de coût 0-1) etle coût de mauvais classement (pour une fonction de coût quelconque).

La procédure d’élagage se fait alors en deux étapes :- La construction sur les données d’apprentissage d’une séquence d’arbresemboités.

- La recherche du sous-arbre optimal sur les données test.

Chapitre 3 Apprentissage supervisé 34/44

Page 35: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

Construction de la séquence d’arbres

Sur les données d’apprentissage, plus l’arbre est complexe, plus le taux de malclassés (ou le coût moyen de mauvais classement) diminue.

L’abre maximal Tmax minimise donc Cα(T ) pour α = 0. On notera TL l’arbremaximal à L feuilles.

En faisant croître α, l’une des divisions de TL, celle pour laquelle la diminutionde nR(T ) est la plus faible (inférieur à α) apparaît comme superflue et les deuxfeuilles obtenues sont regroupées (élaguées) : TL devient TL−1.

Chapitre 3 Apprentissage supervisé 35/44

Page 36: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

En effet aucune division n’est superflue tant que :

nR(TL) + αL < R(TL−1) + α(L− 1),

donc tant queα < nR(TL−1)− nR(TL),

où nR(TL−1)− nR(TL) est la plus petite diminution du nombre de mals classés(ou du coût de mauvais classement) que l’on peut obtenir en supprimant unedivision. On pose alors

αL = nR(TL−1)− nR(TL)

et pour toute valeur α ∈ [0, αL[ c’est TL qui minimise Cα(T ).

Chapitre 3 Apprentissage supervisé 36/44

Page 37: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

Le procédé est itéré pour obtenir la séquence d’arbres emboités :Tmax = TL ⊃ TL−1 ⊃ . . . ⊃ T1

où T1 est l’arbre réduit au noeud racine qui contient toutes les données.Les arbres de cette séquence minimisent Rα(T ) sur les plages de valeurs de αsuivantes :

αL = 0 < αL−1 < . . . < α1.

Les paramètres de complexités αj de cette séquence mesurent la diminution dunombre de mal classés (ou du coût de mauvais classement) obtenu en élaguantTj+1 pour obtenir Tj :

αj = nR(Tj )− nR(Tj+1)Soit :

[0, αL−1[→ TL

[αL−1, αL−2[→ TL−1

...[α2, α1[→ T2

[α1,∞[→ T1

Chapitre 3 Apprentissage supervisé 37/44

Page 38: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

En pratique, les paramètress de complexités sont calculés pour chaque noeudde l’arbre Tmax .

En effet, si on divise le noeud terminal t d’un arbre Tj à j feuilles, on obtientun arbre Tj+1 et

R(Tj ) = R(Tj+1)− p(tL)r(tL)− p(tR )r(tR ) + p(t)r(t)

On en déduit que le paramètre de complexité associé à ce noeud t est :

αj = nR(Tj )− nR(Tj+1)= np(t)r(t)− np(tL)r(tL)− np(tR )r(tR )

Or on vu qu’on estime p(t) par la proportion ntn et r(t) par le coût moyen de

mauvais classement 1nt

∑x∈t Cτ(x)τ(t) .

Chapitre 3 Apprentissage supervisé 38/44

Page 39: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

Le paramètre de complexité αj associé au noeud t est alors :

αj = err(t)− err(tL)− err(tR )

où err(t) =∑

x∈t Cτ(x)τ(t) est le nombre de mauvais classement (ou le coût demauvais classement) dans t. La somme des erreurs des feuilles d’un arbre estalors le nombre d’observations mal classées par l’arbre.

Pour constuire la séquence de sous-arbres emboités, il suffit de trier par ordrecroissant les noeuds en fonction de leur paramètre de complexité, puis desupprimer successivement les divisions associées à ces noeuds.

Chapitre 3 Apprentissage supervisé 39/44

Page 40: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

Il existe plusieurs définitions équivalentes du paramètre de complexité αj .- Si le critère de coût-complexité est

Cα(T ) = R(T )− α|T̃ |,

alors αj = err(t)− err(tL)− err(tR ) avec

err(t) = 1n

∑x∈t

Cτ(x)τ(t)

La somme des erreurs des feuilles d’un arbre est alors le taux de mauvaisclassement de l’abre.

- Si le critère de coût-complexité est

Cα(T ) = R(T )− α|T̃ |R(T1),

alorsαj = err(t)− err(tL)− err(tR )

err(t1)avec t1 le noeud racine et err(t) est le nombre de mal classés (divisé ounon par n). C’est le paramètre de complexité cp en sortie de la fonctionrpart.

Chapitre 3 Apprentissage supervisé 40/44

Page 41: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

Choix du sous-arbre optimal

Pour choisir un arbre optimal dans la séquence d’arbres que l’on a constuit avecles données d’apprentissage, on calcule le risque R(T ) de chaque sous-arbre surdes données test. On peut alors :

- représenter la décroissance ou éboulis du risque en fonction du nombrecroissant de feuilles dans l’arbre ou, de manière équivalente, en fonctionde la valeur décroissante du paramètre de complexité α.

- choisir le nombre de feuilles du sous-arbre qui minimise R(T ).Si on veut effectuer plusieurs découpages apprentissage-test ou encore faire dela validation croisée, les séquences de sous-arbres seront différentes sur lesdifférents échantillons d’apprentissage.

Comment sélectionner un sous arbre en validation croisée ?

Chapitre 3 Apprentissage supervisé 41/44

Page 42: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

Pour choisir le sous-arbre par validation croisée, la fonction rpart procède dela manière suivante :

1 A partir des coefficients de complexités α1, . . . , αL−1 calculer :

βL = 0βL−1 = √αL−1αL−2

...β2 =

√α2α1

β1 =∞

Chaque coefficient βj est "typique" de l’intervalle [αj , αj−1[ et donc del’arbre élagué Tj à j feuilles.

Chapitre 3 Apprentissage supervisé 42/44

Page 43: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

2 Diviser les données en I groupes G1, . . . ,GI de même taille et pourchaque groupe Gi :

- construire l’arbre maximum T −imax à partir des données privées

du groupe Gi et déterminer pour j = 1, . . . , L les sous-arbresT −i

j et les intervalles [α−ij , α−i

j−1[ associés. Pour chaque βj ,retenir alors le sous-arbres T −i

j associé à l’intervalle [α−ij , α−i

j−1[qui contient βj .

- prédire pour chaque sous-arbre T −ij associé à une valeur βj la

classe des observation du groupe Gi .- calculer le coût de mauvais classement Cτ(t)τ(x) pour chaque

observation de Gi .3 Pour chaque βj sommer les coûts des observations des I groupes pour

obtenir le risque du sous-arbre.4 Sélectionner βj qui donne le risque en validation croisée minimum le plus

petit. Elaguer les branches de Tmax qui partent d’un noeud ayant uncoeffient de complexité inférieur ou égal au coefficient αj correspondant.

Chapitre 3 Apprentissage supervisé 43/44

Page 44: Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé 8/44. Constuction de l’arbre maximal Elaguage de l’arbre maximal Parexemple,silavariableY

Constuction de l’arbre maximalElaguage de l’arbre maximal

Dans rpart, il me semble que la procédure de validation croisée (en 10-folds ?)est répetée xval fois ce qui permet de calculer un risque moyen et unécart-type. Ce risque moyen et cet écart-type sont ensuite divisés par le risquedu noeud racine afin d’obtenir un risque relatif de validation croisée (xerror)et un écart-type relatif (xstd).

La règle du 1-SE (Standard-Error) consiste à retenir parmi tous les βj ceux quiont une erreur de validation croisée à moins d’un écart-type de l’erreurminimum. L’écart-type utilisé est celui associé à cette erreur de validationcroisée minimum. Ensuite, on retient parmi tous les arbres associés à ces βj leplus simple (avec le moins de feuilles).

Chapitre 3 Apprentissage supervisé 44/44