Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé...

Constuction de l’arbre maximalElaguage de l’arbre maximal

Chapitre IIIArbres de classification

M2 MAS - Université de Bordeaux

2016-2017

Chapitre 3 Apprentissage supervisé 1/44


IntroductionDeux approches possibles pour constuire une règle de classification g .

Approche basée sur un modèle.Apprentissage de Loi(Y |X) puis déduction de gExemples : analyse discriminante linéaire, bayésien naïf, régressionlogistique, etc.

Approche de type prototype.

Apprentissage direct de la règle classification gExemples : k-plus proches voisins, arbres de classification, forêtsaléatoires, etc.

Dans ce chapitre :- Méthode CART : Classification and regression trees.L. Breiman, J. H. Friedman, R.A. Olshen, and C. J. Stone, Chapman &Hall, 1984.

- En français on parle d’arbres de classification ou d’arbres de régression ouplus généralement d’ arbres de décision.



Introduction

Variables d’entrées quantitatives ou qualitatives X = (X1, . . . ,Xp) ∈ X .Variable de sortie Y qualitative à K modalités..La règle de classification g : X → {1, . . . ,K} est un un arbre constuit àpartir des données d’apprentissage (Xi ,Yi ), i = 1, . . . , n.

Exemple :



Plan

1 Constuction de l’arbre maximal

2 Elaguage de l’arbre maximal



Construction de l’arbre maximal

La méthode CART construit un arbre binaire dont les noeuds sont dessous-échantillons des données d’apprentissage.

1 Le noeud racine contient toutes les données d’apprentissage.2 A chaque étape un un noeud est divisé pour construire deux nouveaux

noeuds les plus homogènes possible au sens de la variable à expliquer.3 L’arbre maximal est obtenu lorsqu’aucun noeud ne peux plus être divisé.

Un noeud terminal (qui ne peut plus être divisé) est appellée une feuille.4 Chaque feuille est alors affectée à l’une des modalités de la variable à

expliquer.

Questions :- Comment mesurer la qualité d’une division ?- Comment diviser une classe ?- Quel est le critère d’arrêt des divisions ?- Quel est la règle d’affectation d’une feuille à une modalité ?



Comment mesurer la qualité d’une division ?

L’objectif est de diviser un noeud t en deux classes correspondant au noeud filsgauche tL et au noeud fils droit tR .

On veut que les deux classes soient le plus homogènes possible au sens de lavariable à expliquer et l’hétérogénéité d’un noeud t se mesure par une fonctionnon négative qui doit être :

- nulle si le noeud est homogène i.e. toutes les observations du noeudappartiennent à la même modalité de Y . On considèrera que le noeud estpur.

- maximale si le noeud est hétérogène i.e. lorsque les modalités de Y sontéquiprobables dans le noeud. L’impureté du noeud est alors maximale.



Impureté d’un noeud

Une fonction d’impureté φ est une fonction définie sur l’ensemble des K -upletde nombres (p1, . . . , pK ) satisfaisants pk ≤ 0, k = 1 . . . ,K ,

∑Kk=1 pK = 1 avec

les propriétés :- φ admet un unique maximum en ( 1

K , . . . ,1K )

- φ est minimum aux points (1, 0, . . . , 0), (0, 1, . . . , 0)...- φ est une fonction symétrique de p1, . . . , pK c’est à dire que φ estconstante pour toute permutation depk .

On mesure alors l’impureté d’un noeud t par :

i(t) = φ(pt,1, . . . , pt,K )

avec pt,k = nt,knt

la proportion de la modalité k dans le noeud t. Cetteproportion estime la probabilité de la classe k dans le noeud t.



Deux mesures standard d’impureté d’un noeud sont :- l’indice de Gini :

i(t) =K∑

k=1

pt,k (1− pt,k ) = 1−K∑

k=1

p2t,k

- l’entropie (avec la convention 0 log(0) = 0) :

i(t) = −K∑

k=1

pt,k log2(pt,k )



Par exemple, si la variable Y est binaire, en notant p = pt,1 on a :- Gini : i(t) = 2p(1− p)- Entropie : i(t) = −p log2(p)− (1− p) log2(1− p)

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

p

fonc

tion

d'im

pure

téEntropieGini



Qualité d’une division

On mesure la qualité de la division d’un noeud t en deux noeuds tL et tR par laréduction de l’impureté occasionnée par la division :

∆(tL, tR ) = i(t)− pLi(tL)− pR i(tR )

où pL et pR sont respectivement les proportions d’observations de t partantdans le noeud gauche tL et dans le noeud droit tR .

Une bonne division occasionera une forte diminution de l’impureté. L’objectifsera donc de trouver parmi un ensemble de divisions possibles, celle quimaximise ∆(tL, tR ).



Comment diviser un noeud ?

L’algorithme consiste à choisir parmi toutes les divisions possibles , celle quimaximise la perte d’impureté mesurée par ∆(tL, tR ).

Ici les partitions sont induites par des questions binaires. En effet chaquepartition d’un noeud t de l’arbre repose sur une seule variable Xj .

si Xj ∈ R est quantitative, la question binaire sera du type

Xj ≤ c ?

Il existe une infinité de valeurs de coupures c possibles mais ellesinduisent au maximum nt − 1 partitions différentes.si Xj ∈ {1, . . . ,M} est qualitative, la question binaire sera du type

Xj ⊂ A ?

où A ⊂ {1, . . . ,M}. Il existe 2M−1 − 1 questions binaires et donc aumaximum 2M−1 − 1 partitions différentes.



Quel est le critère d’arrêt des divisions ?

Le critère d’arrêt consiste à ne pas découper un noeud pur. Afin d’éviter undécoupage trop fin, on décide souvent de ne pas découper pas un noeud quicontient moins de nmin données avec souvent nmin compris entre 1 et 5.



Estimation des probabilités à posteriori

Un arbre de classification T définit une partition de l’ensemble de définition Xdes variables d’entrée.

x1 > θ1

x2 > θ3

x1 6 θ4

x2 6 θ2

A B C D E

La probabilité à posteriori P(Y = k|X = x) est alors la probabilité quel’observation soit dans la classe k sachant que x va dans le noeud t. On noterap(k|t) cette probabilité.



On utilise la formule classique suivante :

p(k|t) = p(t|k)πk

p(t)

avec πk la probabilité à priori de la classe k et p(t|k) la probabilité qu’uneobservation de la classe k aille dans le noeud t.

On estime alors ces probabilités :

p̂(t|k) = nt,k

nk,

p̂(t) = nt

n .

Si les probabiliés à priori sont estimées par les proportions des classes nkn , on

aura la simplification suivante

p̂(k|t) = pt,k = nt,k

nt.



La règle de classification g consiste donc à faire descendre une nouvelleobservation x dans l’arbre T et à prédire la classe qui a été affectée à ce noeudterminal.

La règle d’affectation d’une classe à un noeud terminal t est la suivante :- on affecte au noeud t la classe la plus probable à posteriori dans le dansle cas d’une fonction de coût 0-1 :

τ(t) = arg max`∈{1,...,K}

p(k|t)

- on affecte au noeud t la classe la moins risquée dans le cas d’une fonctionde coût quelconque.

τ(t) = arg min`∈{1,...,K}

K∑k=1

Ck` p(k|t)



En partique on estime les probabilités à posteriori p(k|t) par les proportionsp̂(k|t) = nt,k

nton a :

τ(t) = arg min`∈{1,...,K}

K∑k=1

Ck`nt,k

nt.

Dans le cas d’une fonction de coût 0-1, on a

τ(t) = arg max`∈{1,...,K}

nt,k

nt

et c’est donc la règle de la classe majoritaire qui s’applique.



Exemple : données synthétiques



Exemple : spam



Plan

1 Constuction de l’arbre maximal

2 Elaguage de l’arbre maximal



Elaguage de l’arbre maximal

La démarche proposée conduit à des arbres extrêmement raffinés et donc :- à des modèles de prévision très instables car fortement dépendants deséchantillons d’apprentissage qui ont permis leur estimation de l’arbre,

- à une situation de sur-ajustement à éviter au profit de modèles plusparcimonieux donc plus robuste au moment de la prévision.

Cet objectif est obtenu par une procédure d’élagage ou (pruning) de l’arbre quiconsiste à :

- constuire une suite emboîtée de sous-arbres de l’arbre maximal parélagage succesif,

- à choisir parmi cette suite le sous-arbre optimal au sens du critèrecoût-complexité qui mesure un compromis entre la taille de l’arbre et soncoût de mauvais classement.



Risque d’un noeud

Le risque d’un noeud t auquel la classe τ(t) a été affectée est :

r(t) =K∑

k=1

Ckτ(t) p(k|t)

Pour une matrice de coût 0-1, le risque d’un noeud est la probabilité demauvais classement dans le noeud :

r(t) = 1− p(τ(t)|t)



En pratique on estime les probabilités à posteriori p(k|t) par les proportionsp̂(k|t) = nt,k

ntet le risque du noeud t de classe τ(t) est :

r(t) =K∑

k=1

Ckτ(t)nt,k

nt

= 1nt

K∑k=1

Ckτ(t)nt,k

= 1nt

∑x∈t

Cτ(x)τ(t)

où τ(x) est la vraie classe de l’observation x .

Le risque d’un noeud est alors le coût moyen dans le noeud c’est à dire lasomme des coûts de mauvais classement des observations du noeud divisée parle nombre d’observation dans le noeud.



Dans le cas d’une fonction de coût 0-1 le risque du noeud t de classe τ(t) est :

r(t) = 1−nt,τ(t)

nt

= 1nt

(nt − nt,τ(t))

= 1nt

∑x∈t

1τ(t)=τ(x)

Le risque d’un noeud est alors le taux de mauvais classement dans le noeud.



Risque d’un arbre

Le risque d’un arbre T est :

R(T ) =∑t∈T̃

p(t)r(t)

où T̃ est l’ensemble des noeuds terminaux de T .



En pratique on estime les probabilités à priori par les proportions p̂(t) = ntn et

R(T ) =∑t∈T̃

nt

n

K∑k=1

Ckτ(t)nt,k

nt

= 1n

∑t∈T̃

K∑k=1

Ckτ(t)nt,k

= 1n

∑t∈T̃

∑x∈t

Cτ(x)τ(t)

où τ(x) est la vraie classe de l’observation x .

On en conclue que le risque R(T ) d’un arbre est le coût moyen de mauvaisclassement de l’arbre et que nR(T ) est la somme des coûts de mauvaisclassements des observations appellée coût de mauvais classement de l’arbre.



Dans le cas particulier d’une fonction de coût 0-1 :

R(T ) =∑t∈T̃

nt

n (1−nt,τ(t)

nt)

= 1n

∑t∈T̃

(nt − nt,τ(t))

= 1n

∑t∈T̃

∑x∈t

1τ(t)=τ(x)

On en conclue que le risque R(T ) d’un arbre est le taux de mals classés et quenR(T ) le nombre d’observations mal classées.



Critère de coût-complexité

Le critère de coût-complexité repose sur une pénalisation du coût de mauvaisclassement par la complexité de l’arbre :

Cα(T ) = nR(T )− α|T̃ |,

où- |T̃ | est le nombre de noeuds terminaux de T ,- nR(T ) est le nombre de de mal classés (pour une fonction de coût 0-1) etle coût de mauvais classement (pour une fonction de coût quelconque).

La procédure d’élagage se fait alors en deux étapes :- La construction sur les données d’apprentissage d’une séquence d’arbresemboités.

- La recherche du sous-arbre optimal sur les données test.



Construction de la séquence d’arbres

Sur les données d’apprentissage, plus l’arbre est complexe, plus le taux de malclassés (ou le coût moyen de mauvais classement) diminue.

L’abre maximal Tmax minimise donc Cα(T ) pour α = 0. On notera TL l’arbremaximal à L feuilles.

En faisant croître α, l’une des divisions de TL, celle pour laquelle la diminutionde nR(T ) est la plus faible (inférieur à α) apparaît comme superflue et les deuxfeuilles obtenues sont regroupées (élaguées) : TL devient TL−1.



En effet aucune division n’est superflue tant que :

nR(TL) + αL < R(TL−1) + α(L− 1),

donc tant queα < nR(TL−1)− nR(TL),

où nR(TL−1)− nR(TL) est la plus petite diminution du nombre de mals classés(ou du coût de mauvais classement) que l’on peut obtenir en supprimant unedivision. On pose alors

αL = nR(TL−1)− nR(TL)

et pour toute valeur α ∈ [0, αL[ c’est TL qui minimise Cα(T ).



Le procédé est itéré pour obtenir la séquence d’arbres emboités :Tmax = TL ⊃ TL−1 ⊃ . . . ⊃ T1

où T1 est l’arbre réduit au noeud racine qui contient toutes les données.Les arbres de cette séquence minimisent Rα(T ) sur les plages de valeurs de αsuivantes :

αL = 0 < αL−1 < . . . < α1.

Les paramètres de complexités αj de cette séquence mesurent la diminution dunombre de mal classés (ou du coût de mauvais classement) obtenu en élaguantTj+1 pour obtenir Tj :

αj = nR(Tj )− nR(Tj+1)Soit :

[0, αL−1[→ TL

[αL−1, αL−2[→ TL−1

...[α2, α1[→ T2

[α1,∞[→ T1



En pratique, les paramètress de complexités sont calculés pour chaque noeudde l’arbre Tmax .

En effet, si on divise le noeud terminal t d’un arbre Tj à j feuilles, on obtientun arbre Tj+1 et

R(Tj ) = R(Tj+1)− p(tL)r(tL)− p(tR )r(tR ) + p(t)r(t)

On en déduit que le paramètre de complexité associé à ce noeud t est :

αj = nR(Tj )− nR(Tj+1)= np(t)r(t)− np(tL)r(tL)− np(tR )r(tR )

Or on vu qu’on estime p(t) par la proportion ntn et r(t) par le coût moyen de

mauvais classement 1nt

∑x∈t Cτ(x)τ(t) .



Le paramètre de complexité αj associé au noeud t est alors :

αj = err(t)− err(tL)− err(tR )

où err(t) =∑

x∈t Cτ(x)τ(t) est le nombre de mauvais classement (ou le coût demauvais classement) dans t. La somme des erreurs des feuilles d’un arbre estalors le nombre d’observations mal classées par l’arbre.

Pour constuire la séquence de sous-arbres emboités, il suffit de trier par ordrecroissant les noeuds en fonction de leur paramètre de complexité, puis desupprimer successivement les divisions associées à ces noeuds.



Il existe plusieurs définitions équivalentes du paramètre de complexité αj .- Si le critère de coût-complexité est

Cα(T ) = R(T )− α|T̃ |,

alors αj = err(t)− err(tL)− err(tR ) avec

err(t) = 1n

∑x∈t

Cτ(x)τ(t)

La somme des erreurs des feuilles d’un arbre est alors le taux de mauvaisclassement de l’abre.

- Si le critère de coût-complexité est

Cα(T ) = R(T )− α|T̃ |R(T1),

alorsαj = err(t)− err(tL)− err(tR )

err(t1)avec t1 le noeud racine et err(t) est le nombre de mal classés (divisé ounon par n). C’est le paramètre de complexité cp en sortie de la fonctionrpart.



Choix du sous-arbre optimal

Pour choisir un arbre optimal dans la séquence d’arbres que l’on a constuit avecles données d’apprentissage, on calcule le risque R(T ) de chaque sous-arbre surdes données test. On peut alors :

- représenter la décroissance ou éboulis du risque en fonction du nombrecroissant de feuilles dans l’arbre ou, de manière équivalente, en fonctionde la valeur décroissante du paramètre de complexité α.

- choisir le nombre de feuilles du sous-arbre qui minimise R(T ).Si on veut effectuer plusieurs découpages apprentissage-test ou encore faire dela validation croisée, les séquences de sous-arbres seront différentes sur lesdifférents échantillons d’apprentissage.

Comment sélectionner un sous arbre en validation croisée ?



Pour choisir le sous-arbre par validation croisée, la fonction rpart procède dela manière suivante :

1 A partir des coefficients de complexités α1, . . . , αL−1 calculer :

βL = 0βL−1 = √αL−1αL−2

...β2 =

√α2α1

β1 =∞

Chaque coefficient βj est "typique" de l’intervalle [αj , αj−1[ et donc del’arbre élagué Tj à j feuilles.



2 Diviser les données en I groupes G1, . . . ,GI de même taille et pourchaque groupe Gi :

- construire l’arbre maximum T −imax à partir des données privées

du groupe Gi et déterminer pour j = 1, . . . , L les sous-arbresT −i

j et les intervalles [α−ij , α−i

j−1[ associés. Pour chaque βj ,retenir alors le sous-arbres T −i

j associé à l’intervalle [α−ij , α−i

j−1[qui contient βj .

- prédire pour chaque sous-arbre T −ij associé à une valeur βj la

classe des observation du groupe Gi .- calculer le coût de mauvais classement Cτ(t)τ(x) pour chaque

observation de Gi .3 Pour chaque βj sommer les coûts des observations des I groupes pour

obtenir le risque du sous-arbre.4 Sélectionner βj qui donne le risque en validation croisée minimum le plus

petit. Elaguer les branches de Tmax qui partent d’un noeud ayant uncoeffient de complexité inférieur ou égal au coefficient αj correspondant.



Dans rpart, il me semble que la procédure de validation croisée (en 10-folds ?)est répetée xval fois ce qui permet de calculer un risque moyen et unécart-type. Ce risque moyen et cet écart-type sont ensuite divisés par le risquedu noeud racine afin d’obtenir un risque relatif de validation croisée (xerror)et un écart-type relatif (xstd).

La règle du 1-SE (Standard-Error) consiste à retenir parmi tous les βj ceux quiont une erreur de validation croisée à moins d’un écart-type de l’erreurminimum. L’écart-type utilisé est celui associé à cette erreur de validationcroisée minimum. Ensuite, on retient parmi tous les arbres associés à ces βj leplus simple (avec le moins de feuilles).


Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé...

Documents

Transcript of Chapitre III Arbres de classificationmchave100p/wordpress/wp...Chapitre 3 Apprentissage supervisé...