Marc Bourotte & Romain Chailan...Twin Solutions [email protected] &...

42
Analyse en Composantes Principales Marc Bourotte & Romain Chailan Twin Solutions [email protected] & [email protected] Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26

Transcript of Marc Bourotte & Romain Chailan...Twin Solutions [email protected] &...

Page 1: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Analyse en Composantes Principales

Marc Bourotte & Romain Chailan

Twin Solutions

[email protected] & [email protected]

Octobre 2017

Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26

Page 2: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Sommaire

1 Introduction

2 Notion d’inertie

3 Deroulement de l’ACP

4 Variables et individus supplementaires

Marc Bourotte & Romain Chailan ACP Octobre 2017 2 / 26

Page 3: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Motivation

Etapes d’un projet de Data Science1 Problematique (clients)

2 Recuperation et preparation du jeu de donnees (format lignes/individus etcolonnes/variables)

3 Analyse exploratoire (comment faire lorsqu’il y a plus de 3 dimensions ?)

4 Modelisation statistique et inference

5 Outils d’aide a la decision

Marc Bourotte & Romain Chailan ACP Octobre 2017 3 / 26

Page 4: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Motivation

Etapes d’un projet de Data Science1 Problematique (clients)

2 Recuperation et preparation du jeu de donnees (format lignes/individus etcolonnes/variables)

3 Analyse exploratoire (comment faire lorsqu’il y a plus de 3 dimensions ?)

4 Modelisation statistique et inference

5 Outils d’aide a la decision

Point 3 −→ Methodes factorielles : reduction de la dimension (2 ou 3 parexemple) tout en limitant la perte d’information i.e. en deformant le moinspossible la realite.

Marc Bourotte & Romain Chailan ACP Octobre 2017 3 / 26

Page 5: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Introduction

Rappel sur les variables :

variables quantitatives → s’expriment en valeurs / discretes ou continues /exemples : age, poids ;

variables qualitatives → s’expriment en modalites / nominales ou ordinales /exemples : sexe (H/F), avis (bon, passable, mauvais).

Methodes d’analyse factorielle :

tableau individus x p variables quantitatives → ACP Analyse en composantesprincipales

tableau contingence 2 variables qualitatives → AFC Analyse factorielle descorrespondances

tableau individus x p variables qualitatives → ACM Analyse factorielle descorrespondances multiples

Marc Bourotte & Romain Chailan ACP Octobre 2017 4 / 26

Page 6: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Introduction

Soit un tableau X croisant des individus (en lignes) et des variables quantitatives(en colonnes) :

X = [xij ]16i6n,16j6p

X =

x11 · · · x1j · · · x1p

......

...xi1 · · · xij · · · xip

......

...xn1 · · · xnj · · · xnp

individu xi· ∈ Rp → espace direct muni de la metrique Mvariable x·j ∈ Rn → espace dual muni de la metrique W = diag(w1, · · · ,wn)

Marc Bourotte & Romain Chailan ACP Octobre 2017 5 / 26

Page 7: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Introduction

Soit un tableau X croisant des individus (en lignes) et des variables quantitatives(en colonnes) :

X = [xij ]16i6n,16j6p

X =

x11 · · · x1j · · · x1p

......

...xi1 · · · xij · · · xip

......

...xn1 · · · xnj · · · xnp

nin

divid

us

individu xi· ∈ Rp → espace direct muni de la metrique M

variable x·j ∈ Rn → espace dual muni de la metrique W = diag(w1, · · · ,wn)

Marc Bourotte & Romain Chailan ACP Octobre 2017 5 / 26

Page 8: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Introduction

Soit un tableau X croisant des individus (en lignes) et des variables quantitatives(en colonnes) :

X = [xij ]16i6n,16j6p

X =

x11 · · · x1j · · · x1p

......

...xi1 · · · xij · · · xip

......

...xn1 · · · xnj · · · xnp

p variables

individu xi· ∈ Rp → espace direct muni de la metrique M

variable x·j ∈ Rn → espace dual muni de la metrique W = diag(w1, · · · ,wn)

Marc Bourotte & Romain Chailan ACP Octobre 2017 5 / 26

Page 9: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Introduction

Soit un tableau X croisant des individus (en lignes) et des variables quantitatives(en colonnes) :

X = [xij ]16i6n,16j6p

X =

x11 · · · x1j · · · x1p

......

...xi1 · · · xij · · · xip

......

...xn1 · · · xnj · · · xnp

p variablesn

ind

ividu

s

individu xi· ∈ Rp → espace direct muni de la metrique Mvariable x·j ∈ Rn → espace dual muni de la metrique W = diag(w1, · · · ,wn)

Marc Bourotte & Romain Chailan ACP Octobre 2017 5 / 26

Page 10: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Presentation

Jeu de donnees : Decathlon (package FactoMineR). 10 variables quantitatives et41 individus.

100m Long.jump Shot.put High.jump 400m 110m.hurdle Discus Pole.vault Javeline 1500m

SEBRLE 11.04 7.58 14.83 2.07 49.81 14.69 43.75 5.02 63.19 291.70CLAY 10.76 7.40 14.26 1.86 49.37 14.05 50.72 4.92 60.15 301.50

KARPOV 11.02 7.30 14.77 2.04 48.37 14.09 48.95 4.92 50.31 300.20BERNARD 11.02 7.23 14.25 1.92 48.93 14.99 40.87 5.32 62.77 280.10

YURKOV 11.34 7.09 15.19 2.10 50.42 15.31 46.26 4.72 63.44 276.40WARNERS 11.11 7.60 14.31 1.98 48.68 14.23 41.10 4.92 51.77 278.10

Resume (Summary) :

Min Q1 Med Mean Q3 Max

100m 10.44 10.85 10.98 11.00 11.14 11.64Long.jump 6.61 7.03 7.30 7.26 7.48 7.96

Shot.put 12.68 13.88 14.57 14.48 14.97 16.36High.jump 1.85 1.92 1.95 1.98 2.04 2.15

400m 46.81 48.93 49.40 49.62 50.30 53.20110m.hurdle 13.97 14.21 14.48 14.61 14.98 15.67

Discus 37.92 41.90 44.41 44.33 46.07 51.65Pole.vault 4.20 4.50 4.80 4.76 4.92 5.40

Javeline 50.31 55.27 58.36 58.32 60.89 70.521500m 262.10 271.02 278.05 279.02 285.10 317.00

Normalisation (rappel moyenne, ecart type)

Pourquoi normaliser ? pour accorder la meme importance a chaquevariable. Par exemple, les unites de mesure sont differentes.

Marc Bourotte & Romain Chailan ACP Octobre 2017 6 / 26

Page 11: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Presentation

Jeu de donnees : Decathlon (package FactoMineR). 10 variables quantitatives et41 individus.

100m Long.jump Shot.put High.jump 400m 110m.hurdle Discus Pole.vault Javeline 1500m

SEBRLE 11.04 7.58 14.83 2.07 49.81 14.69 43.75 5.02 63.19 291.70CLAY 10.76 7.40 14.26 1.86 49.37 14.05 50.72 4.92 60.15 301.50

KARPOV 11.02 7.30 14.77 2.04 48.37 14.09 48.95 4.92 50.31 300.20BERNARD 11.02 7.23 14.25 1.92 48.93 14.99 40.87 5.32 62.77 280.10

YURKOV 11.34 7.09 15.19 2.10 50.42 15.31 46.26 4.72 63.44 276.40WARNERS 11.11 7.60 14.31 1.98 48.68 14.23 41.10 4.92 51.77 278.10

Resume (Summary) :

Min Q1 Med Mean Q3 Max

100m 10.44 10.85 10.98 11.00 11.14 11.64Long.jump 6.61 7.03 7.30 7.26 7.48 7.96

Shot.put 12.68 13.88 14.57 14.48 14.97 16.36High.jump 1.85 1.92 1.95 1.98 2.04 2.15

400m 46.81 48.93 49.40 49.62 50.30 53.20110m.hurdle 13.97 14.21 14.48 14.61 14.98 15.67

Discus 37.92 41.90 44.41 44.33 46.07 51.65Pole.vault 4.20 4.50 4.80 4.76 4.92 5.40

Javeline 50.31 55.27 58.36 58.32 60.89 70.521500m 262.10 271.02 278.05 279.02 285.10 317.00

Normalisation (rappel moyenne, ecart type)

Pourquoi normaliser ? pour accorder la meme importance a chaquevariable. Par exemple, les unites de mesure sont differentes.

Marc Bourotte & Romain Chailan ACP Octobre 2017 6 / 26

Page 12: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Presentation

Jeu de donnees : Decathlon (package FactoMineR). 10 variables quantitatives et41 individus.

100m Long.jump Shot.put High.jump 400m 110m.hurdle Discus Pole.vault Javeline 1500m

SEBRLE 11.04 7.58 14.83 2.07 49.81 14.69 43.75 5.02 63.19 291.70CLAY 10.76 7.40 14.26 1.86 49.37 14.05 50.72 4.92 60.15 301.50

KARPOV 11.02 7.30 14.77 2.04 48.37 14.09 48.95 4.92 50.31 300.20BERNARD 11.02 7.23 14.25 1.92 48.93 14.99 40.87 5.32 62.77 280.10

YURKOV 11.34 7.09 15.19 2.10 50.42 15.31 46.26 4.72 63.44 276.40WARNERS 11.11 7.60 14.31 1.98 48.68 14.23 41.10 4.92 51.77 278.10

Resume (Summary) :

Min Q1 Med Mean Q3 Max

100m 10.44 10.85 10.98 11.00 11.14 11.64Long.jump 6.61 7.03 7.30 7.26 7.48 7.96

Shot.put 12.68 13.88 14.57 14.48 14.97 16.36High.jump 1.85 1.92 1.95 1.98 2.04 2.15

400m 46.81 48.93 49.40 49.62 50.30 53.20110m.hurdle 13.97 14.21 14.48 14.61 14.98 15.67

Discus 37.92 41.90 44.41 44.33 46.07 51.65Pole.vault 4.20 4.50 4.80 4.76 4.92 5.40

Javeline 50.31 55.27 58.36 58.32 60.89 70.521500m 262.10 271.02 278.05 279.02 285.10 317.00

Normalisation (rappel moyenne, ecart type)

Pourquoi normaliser ? pour accorder la meme importance a chaquevariable. Par exemple, les unites de mesure sont differentes.

Marc Bourotte & Romain Chailan ACP Octobre 2017 6 / 26

Page 13: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Sommaire

1 Introduction

2 Notion d’inertie

3 Deroulement de l’ACP

4 Variables et individus supplementaires

Marc Bourotte & Romain Chailan ACP Octobre 2017 7 / 26

Page 14: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Notion d’inertie

Representation du nuage des individus :

xi· = (xi1, · · · , xip)′

j1

j2

j3

xi1

xi3

xi2

O

xi.••

••

Rp,M

L’inertie est la somme ponderee descarres des distances des individus aucentre de gravite (ici O).

IO =∑i

wid2M(xi.,O)

=∑i

wi‖xi.‖2M

=∑i

wi x′i.Mxi.

L’inertie mesure la dispersion totale dunuage de points par rapport a un pointde reference dans un espace metrique.L’inertie est aussi egale a la somme desvariances des variables etudiees.

Marc Bourotte & Romain Chailan ACP Octobre 2017 8 / 26

Page 15: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Notion d’inertie

Representation du nuage des individus :

xi· = (xi1, · · · , xip)′

j1

j2

j3

xi1

xi3

xi2

O

xi.••

••

Rp,M

L’inertie est la somme ponderee descarres des distances des individusau centre de gravite (ici O).

IO =∑i

wid2M(xi.,O)

=∑i

wi‖xi.‖2M

=∑i

wi x′i.Mxi.

L’inertie mesure la dispersion totale dunuage de points par rapport a un pointde reference dans un espace metrique.L’inertie est aussi egale a la somme desvariances des variables etudiees.

Marc Bourotte & Romain Chailan ACP Octobre 2017 8 / 26

Page 16: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Notion d’inertie

Representation du nuage des individus :

xi· = (xi1, · · · , xip)′

j1

j2

j3

xi1

xi3

xi2

O

xi.••

••

Rp,M

L’inertie est la somme ponderee descarres des distances des individus aucentre de gravite (ici O).

IO =∑i

wid2M(xi.,O)

=∑i

wi‖xi.‖2M

=∑i

wi x′i.Mxi.

L’inertie mesure la dispersion totaledu nuage de points par rapport aun point de reference dans unespace metrique.

L’inertie est aussi egale a la somme desvariances des variables etudiees.

Marc Bourotte & Romain Chailan ACP Octobre 2017 8 / 26

Page 17: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Notion d’inertie

Representation du nuage des individus :

xi· = (xi1, · · · , xip)′

j1

j2

j3

xi1

xi3

xi2

O

xi.••

••

Rp,M

L’inertie est la somme ponderee descarres des distances des individus aucentre de gravite (ici O).

IO =∑i

wid2M(xi.,O)

=∑i

wi‖xi.‖2M

=∑i

wi x′i.Mxi.

L’inertie mesure la dispersion totale dunuage de points par rapport a un pointde reference dans un espace metrique.L’inertie est aussi egale a la sommedes variances des variables etudiees.

Marc Bourotte & Romain Chailan ACP Octobre 2017 8 / 26

Page 18: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Notion d’inertie

fi est la projection orthogonale dexi. sur le vecteur M-unitaire< u > (‖u‖2

M = 1)

f la composante sur < u > telleque f = XMu

I<u> =∑

i wi f2i = ‖f ‖2

W

En d’autres termes,I<u> = u′MX ′WXMu

Donc on veut maximiser l’inertie dunuage projete i.e.maxu′Mu=1(u′MX ′WXMu).

Pour des donnees centrees, celaequivaut a maximiser la variance dela composante f.

< u >•O

xi.

fi

Marc Bourotte & Romain Chailan ACP Octobre 2017 9 / 26

Page 19: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Notion d’inertie

fi est la projection orthogonale dexi. sur le vecteur M-unitaire< u > (‖u‖2

M = 1)

f la composante sur < u > telleque f = XMu

I<u> =∑

i wi f2i = ‖f ‖2

W

En d’autres termes,I<u> = u′MX ′WXMu

Donc on veut maximiser l’inertie dunuage projete i.e.maxu′Mu=1(u′MX ′WXMu).

Pour des donnees centrees, celaequivaut a maximiser la variance dela composante f.

< u >•O

xi.

fi

Marc Bourotte & Romain Chailan ACP Octobre 2017 9 / 26

Page 20: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Notion d’inertie

fi est la projection orthogonale dexi. sur le vecteur M-unitaire< u > (‖u‖2

M = 1)

f la composante sur < u > telleque f = XMu

I<u> =∑

i wi f2i = ‖f ‖2

W

En d’autres termes,I<u> = u′MX ′WXMu

Donc on veut maximiser l’inertie dunuage projete i.e.maxu′Mu=1(u′MX ′WXMu).

Pour des donnees centrees, celaequivaut a maximiser la variance dela composante f.

< u >•O

xi.

fi

Marc Bourotte & Romain Chailan ACP Octobre 2017 9 / 26

Page 21: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Notion d’inertie

La recherche d’axes portant le maximum d’inertie equivaut a la constructionde nouvelles variables (auxquelles sont associes ces axes) de variancemaximale.

En d’autres termes, on effectue un changement de repere dans Rp de facon ase placer dans un nouveau systeme de representation ou le premier axeapporte le plus possible de l’inertie totale du nuage, le deuxieme axe le pluspossible de l’inertie non prise en compte par le premier axe, et ainsi de suite.

Cette reorganisation s’appuie sur la diagonalisation de la matrice de d’inertieX ′WXM.

Marc Bourotte & Romain Chailan ACP Octobre 2017 10 / 26

Page 22: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Diagonalisation de la matrice de variance-covariance

La matrice d’inertie X ′WXM est diagonalisable (theoreme spectrale) et peut doncs’ecrire P∆P−1 avec P la matrice de changement de base et ∆ la matricediagonale composee des p valeurs propres λ1, · · · , λp.

On rappelle que : IO = tr(X ′WXM) =∑p

k=1 λk .

La matrice d’inertie correspond a

la matrice de variance-covariance si X est la matrice des donnees centrees

la matrice de correlation si en plus les donnees ont ete reduites .

Dans la suite, X = variables centrees et reduites donc M = Ip etW = 1

n In → ACP normee

⇒ Inertie totale IO = p.

Marc Bourotte & Romain Chailan ACP Octobre 2017 11 / 26

Page 23: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Diagonalisation de la matrice de variance-covariance

La matrice d’inertie X ′WXM est diagonalisable (theoreme spectrale) et peut doncs’ecrire P∆P−1 avec P la matrice de changement de base et ∆ la matricediagonale composee des p valeurs propres λ1, · · · , λp.

On rappelle que : IO = tr(X ′WXM) =∑p

k=1 λk .

La matrice d’inertie correspond a

la matrice de variance-covariance si X est la matrice des donnees centrees

la matrice de correlation si en plus les donnees ont ete reduites .

Dans la suite, X = variables centrees et reduites donc M = Ip etW = 1

n In → ACP normee

⇒ Inertie totale IO = p.

Marc Bourotte & Romain Chailan ACP Octobre 2017 11 / 26

Page 24: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Diagonalisation de la matrice de variance-covariance

La matrice d’inertie X ′WXM est diagonalisable (theoreme spectrale) et peut doncs’ecrire P∆P−1 avec P la matrice de changement de base et ∆ la matricediagonale composee des p valeurs propres λ1, · · · , λp.

On rappelle que : IO = tr(X ′WXM) =∑p

k=1 λk .

La matrice d’inertie correspond a

la matrice de variance-covariance si X est la matrice des donnees centrees

la matrice de correlation si en plus les donnees ont ete reduites .

Dans la suite, X = variables centrees et reduites donc M = Ip etW = 1

n In → ACP normee

⇒ Inertie totale IO = p.

Marc Bourotte & Romain Chailan ACP Octobre 2017 11 / 26

Page 25: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Diagonalisation de la matrice de variance-covariance

1

nX ′Xu1 = λ1u1,

1

nX ′Xu2 = λ2u2,

· · ·1

nX ′Xup = λpup.

On ordonne les valeurs propres parordre decroissant telles que :

λ1 > λ2 > · · · > λp

Les vecteurs propres sont orthogonaux2 a 2 :

u1 ⊥ u2 ⊥ · · · ⊥ up

Le premier axe factoriel < u1 >, engendre par le vecteur propre u1, estassocie a la plus grande valeur propre λ1. L’inertie portee par cet axeest egale a λ1.

Ce premier axe factoriel est associe a la premiere composante principale f1.Cette premiere composante principale est une combinaison lineaire desvariables originelles : f1 = Xu1. Autrement dit, f1 est le vecteur renfermantles coordonnees des projections des individus sur le premier axe.La variance d’une composante principale est egale a l’inertie portee par l’axeprincipal qui lui est associe.Le deuxieme axe ...

Marc Bourotte & Romain Chailan ACP Octobre 2017 12 / 26

Page 26: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Diagonalisation de la matrice de variance-covariance

1

nX ′Xu1 = λ1u1,

1

nX ′Xu2 = λ2u2,

· · ·1

nX ′Xup = λpup.

On ordonne les valeurs propres parordre decroissant telles que :

λ1 > λ2 > · · · > λp

Les vecteurs propres sont orthogonaux2 a 2 :

u1 ⊥ u2 ⊥ · · · ⊥ up

Le premier axe factoriel < u1 >, engendre par le vecteur propre u1, est associea la plus grande valeur propre λ1. L’inertie portee par cet axe est egale a λ1.Ce premier axe factoriel est associe a la premiere composanteprincipale f1. Cette premiere composante principale est unecombinaison lineaire des variables originelles : f1 = Xu1. Autrementdit, f1 est le vecteur renfermant les coordonnees des projections desindividus sur le premier axe.

La variance d’une composante principale est egale a l’inertie portee par l’axeprincipal qui lui est associe.Le deuxieme axe ...

Marc Bourotte & Romain Chailan ACP Octobre 2017 12 / 26

Page 27: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Diagonalisation de la matrice de variance-covariance

1

nX ′Xu1 = λ1u1,

1

nX ′Xu2 = λ2u2,

· · ·1

nX ′Xup = λpup.

On ordonne les valeurs propres parordre decroissant telles que :

λ1 > λ2 > · · · > λp

Les vecteurs propres sont orthogonaux2 a 2 :

u1 ⊥ u2 ⊥ · · · ⊥ up

Le premier axe factoriel < u1 >, engendre par le vecteur propre u1, est associea la plus grande valeur propre λ1. L’inertie portee par cet axe est egale a λ1.

Ce premier axe factoriel est associe a la premiere composante principale f1.Cette premiere composante principale est une combinaison lineaire desvariables originelles : f1 = Xu1. Autrement dit, f1 est le vecteur renfermantles coordonnees des projections des individus sur le premier axe.

La variance d’une composante principale est egale a l’inertie porteepar l’axe principal qui lui est associe.

Le deuxieme axe ...

Marc Bourotte & Romain Chailan ACP Octobre 2017 12 / 26

Page 28: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Diagonalisation de la matrice de variance-covariance

1

nX ′Xu1 = λ1u1,

1

nX ′Xu2 = λ2u2,

· · ·1

nX ′Xup = λpup.

On ordonne les valeurs propres parordre decroissant telles que :

λ1 > λ2 > · · · > λp

Les vecteurs propres sont orthogonaux2 a 2 :

u1 ⊥ u2 ⊥ · · · ⊥ up

Le premier axe factoriel < u1 >, engendre par le vecteur propre u1, est associea la plus grande valeur propre λ1. L’inertie portee par cet axe est egale a λ1.

Ce premier axe factoriel est associe a la premiere composante principale f1.Cette premiere composante principale est une combinaison lineaire desvariables originelles : f1 = Xu1. Autrement dit, f1 est le vecteur renfermantles coordonnees des projections des individus sur le premier axe.

La variance d’une composante principale est egale a l’inertie portee par l’axeprincipal qui lui est associe.

Le deuxieme axe ...Marc Bourotte & Romain Chailan ACP Octobre 2017 12 / 26

Page 29: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Sommaire

1 Introduction

2 Notion d’inertie

3 Deroulement de l’ACP

4 Variables et individus supplementaires

Marc Bourotte & Romain Chailan ACP Octobre 2017 13 / 26

Page 30: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Deroulement de l’ACP

Package FactoMineR

> res_pca

**Results for the Principal Component Analysis (PCA)**

The analysis was performed on 41 individuals, described by 10 variables

*The results are available in the following objects:

name description

1 "$eig" "eigenvalues"

2 "$var" "results for the variables"

3 "$var$coord" "coord. for the variables"

4 "$var$cor" "correlations variables - dimensions"

5 "$var$cos2" "cos2 for the variables"

6 "$var$contrib" "contributions of the variables"

7 "$ind" "results for the individuals"

8 "$ind$coord" "coord. for the individuals"

9 "$ind$cos2" "cos2 for the individuals"

10 "$ind$contrib" "contributions of the individuals"

11 "$call" "summary statistics"

12 "$call$centre" "mean of the variables"

13 "$call$ecart.type" "standard error of the variables"

14 "$call$row.w" "weights for the individuals"

15 "$call$col.w" "weights for the variables"

Marc Bourotte & Romain Chailan ACP Octobre 2017 14 / 26

Page 31: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Deroulement de l’ACP

Comment choisir le nombre de composantes principales ?

eigenvalue percentage of variance cumulative percentage of variance

comp 1 3.27 32.72 32.72comp 2 1.74 17.37 50.09comp 3 1.40 14.05 64.14comp 4 1.06 10.57 74.71comp 5 0.68 6.85 81.56comp 6 0.60 5.99 87.55comp 7 0.45 4.51 92.06comp 8 0.40 3.97 96.03comp 9 0.21 2.15 98.18

comp 10 0.18 1.82 100.00

●●

0

10

20

30

1 2 3 4 5 6 7 8 9 10

Dimensions

Per

cent

age

of e

xpla

ined

var

ianc

es

Scree plotInertie a priori, par exemple 50%. Doncquel h tel que 1/p

∑hk=1 λk ≈ 0.5

La meilleure representation plane →Plan(1,2)

Recherche de cassure dans le screeplot

Inertie = p (ACP normee) donc la valeurmoyenne de λ = 1

Regle de Karlis-Saporta-Spinaki :

λ > 1 + 2√

p−1n−1

(ici seuil = 1.95)

Marc Bourotte & Romain Chailan ACP Octobre 2017 15 / 26

Page 32: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Deroulement de l’ACP

Analyse directe - nuage des individus en plan factoriel (ici 1,2)

●●

●●

SEBRLECLAYKARPOV

BERNARD

YURKOV

WARNERS

ZSIVOCZKY

McMULLEN

MARTINEAUHERNU

BARRAS

NOOL

BOURGUIGNON

Sebrle

Clay

Karpov

Macey

Warners

Zsivoczky

Hernu

Nool

Bernard

Schwarzl

Pogorelov

Schoenbeck

Barras

Smith

Averyanov

Ojaniemi

Smirnov

Qi

Drews

Parkhomenko

Terek

Gomez

Turi

Lorenzo

Karlivans

Korkizoglou

Uldal

Casarsa

−2

0

2

4

−2.5 0.0 2.5 5.0

Dim1 (32.7%)

Dim

2 (1

7.4%

)

Individuals − PCA

• Sorties de FactoMineR concernantles individus

"$ind$coord"

"$ind$cos2"

"$ind$contrib"

Coordonnees des n individus sur les paxes (→ voir calcul matriciel)Les deux derniers sont des indicateursd’aide a l’interpretation

• Contribution apportee par l’individui sur l’axe k

CTRk (i) =wi (f

ki )2

λk

→ a comparer a wi = 1n

(car ACPnormee)

Marc Bourotte & Romain Chailan ACP Octobre 2017 16 / 26

Page 33: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Deroulement de l’ACP

Analyse directe - nuage des individus en plan factoriel (ici 1,2)

●●

●●

SEBRLECLAYKARPOV

BERNARD

YURKOV

WARNERS

ZSIVOCZKY

McMULLEN

MARTINEAUHERNU

BARRAS

NOOL

BOURGUIGNON

Sebrle

Clay

Karpov

Macey

Warners

Zsivoczky

Hernu

Nool

Bernard

Schwarzl

Pogorelov

Schoenbeck

Barras

Smith

Averyanov

Ojaniemi

Smirnov

Qi

Drews

Parkhomenko

Terek

Gomez

Turi

Lorenzo

Karlivans

Korkizoglou

Uldal

Casarsa

−2

0

2

4

−2.5 0.0 2.5 5.0

Dim1 (32.7%)

Dim

2 (1

7.4%

)

Individuals − PCA

• Qualite de la representation del’individu i sur l’axe k

CO2k (i) =(f ki )2

‖xi.‖2

=(f ki )2∑pk=1(f ki )2

Plus la valeur est proche de 1,meilleure est la qualite derepresentation.

Ce critere n’a pas de signification pour

les individus proches de l’origine.

u1

u2

O

•xi.

f 1i

f 2i

τ

Marc Bourotte & Romain Chailan ACP Octobre 2017 17 / 26

Page 34: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Deroulement de l’ACP

Et les variables ???

Marc Bourotte & Romain Chailan ACP Octobre 2017 18 / 26

Page 35: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Deroulement de l’ACP

Analyse duale - nuage des variables en plan factoriel

On peut montrer l’equivalence entre l’ACP directe et l’ACP duale. Il n’est doncpas necessaire de reiterer l’ensemble des calculs faits precedemment.

Il existe des relations de transition/dualite qui permettent de deduire les axesfactoriels de l’analyse duale a partir de ceux de l’analyse directe.

Dans le cas de l’ACP normee → ACP duale (X ′, Ip,W = 1n In)

Les axes factoriels sont les vecteurs propres de XX ′P → p valeurs propres nonnulles → p axes informatifs

Marc Bourotte & Romain Chailan ACP Octobre 2017 19 / 26

Page 36: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Deroulement de l’ACP

Analyse duale - relations de transition/dualite

Pour l’ACP normee :

Coordonnees des variables sur l’axe k

φk =1

n√λk

X ′f k

Ces coordonnees coıncident avec les correlations entre les variables naturellesx.j et les variables synthetiques f k → φjk = ρ(x.j , f

k)

Comparez les deux commandessuivantes :

res_pca$var$coord[, 1 : 3]

cor(decathlon[, 1 : 10],

res_pca$ind$coord)[, 1 : 3]

Dim.1 Dim.2 Dim.3100m -0.77 0.19 -0.18

Long.jump 0.74 -0.35 0.18Shot.put 0.62 0.60 -0.02

High.jump 0.57 0.35 -0.26400m -0.68 0.57 0.13

110m.hurdle -0.75 0.23 -0.09Discus 0.55 0.61 0.04

Pole.vault 0.05 -0.18 0.69Javeline 0.28 0.32 -0.39

1500m -0.06 0.47 0.78

Marc Bourotte & Romain Chailan ACP Octobre 2017 20 / 26

Page 37: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Deroulement de l’ACP

Analyse duale - nuage des variables en plan factoriel (ici 1,2)Le cercle des correlations est la projection du nuage des variables sur le plan descomposantes principales.

100m

Long.jump

Shot.put

High.jump

400m

110m.hurdle

Discus

Pole.vault

Javeline

1500m

−1.0

−0.5

0.0

0.5

1.0

−1.0 −0.5 0.0 0.5 1.0

Dim1 (32.7%)

Dim

2 (1

7.4%

)

Variables − PCA

Attention a l’interpretation !

si proches du centre du cercle ⇒on ne peut rien dire

si proches des bords du cercle ⇒on peut interpreter

"$var$cos2", "$var$contrib"

egalement disponibles (memesformules que pour les individusen adaptant bien les matrices al’ACP duale)

Marc Bourotte & Romain Chailan ACP Octobre 2017 21 / 26

Page 38: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Deroulement de l’ACP

SEBRLECLAYKARPOV

BERNARD

YURKOV

WARNERS

ZSIVOCZKY

McMULLEN

MARTINEAUHERNU

BARRAS

NOOL

BOURGUIGNON

Sebrle

Clay

Karpov

Macey

Warners

Zsivoczky

Hernu

Nool

Bernard

Schwarzl

Pogorelov

Schoenbeck

Barras

Smith

Averyanov

Ojaniemi

Smirnov

Qi

Drews

Parkhomenko

Terek

Gomez

Turi

Lorenzo

Karlivans

Korkizoglou

Uldal

Casarsa

100m

Long.jump

Shot.put

High.jump

400m

110m.hurdle

Discus

Pole.vault

Javeline

1500m

−2

0

2

4

−2.5 0.0 2.5 5.0

Dim1 (32.7%)

Dim

2 (1

7.4%

)

PCA − Biplot

Marc Bourotte & Romain Chailan ACP Octobre 2017 22 / 26

Page 39: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Sommaire

1 Introduction

2 Notion d’inertie

3 Deroulement de l’ACP

4 Variables et individus supplementaires

Marc Bourotte & Romain Chailan ACP Octobre 2017 23 / 26

Page 40: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Ajout de variables supplementaires

Variables quantitatives :

100m

Long.jump

Shot.put

High.jump

400m

110m.hurdle

Discus

Pole.vault

Javeline

1500m

RankPoints

−1.0

−0.5

0.0

0.5

1.0

−1.0 −0.5 0.0 0.5 1.0

Dim1 (32.7%)

Dim

2 (1

7.4%

)

Variables − PCA

Ces variablessupplementaires nesont donc pas actives.Elles ne participent pasa la construction desaxes. En revanche,elles peuvent aider ales interpreter → cercledes correlations.

Sous FactoMineR

$quanti.sup

Marc Bourotte & Romain Chailan ACP Octobre 2017 24 / 26

Page 41: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Ajout de variables supplementaires

Variables qualitatives :

●●

●●

SEBRLECLAYKARPOV

BERNARD

YURKOV

WARNERS

ZSIVOCZKY

McMULLEN

MARTINEAUHERNU

BARRAS

NOOL

BOURGUIGNON

Sebrle

Clay

Karpov

Macey

Warners

Zsivoczky

Hernu

Nool

Bernard

Schwarzl

Pogorelov

Schoenbeck

Barras

Smith

Averyanov

Ojaniemi

Smirnov

Qi

Drews

Parkhomenko

Terek

Gomez

Turi

Lorenzo

Karlivans

Korkizoglou

Uldal

Casarsa

−2

0

2

4

−2.5 0.0 2.5 5.0

Dim1 (32.7%)

Dim

2 (1

7.4%

)

Competition●●a

a

Decastar

OlympicG

Individuals − PCA

L’information de cesvariables peut etreutilisee a titreillustratif. Chaquemodalite de la variablequalitativesupplementaire seplace au barycentre del’ensemble desindividus qui lapossedent → nuagedes individus

Test deFisher-Snedecor

Sous FactoMineR

$quali.sup

Marc Bourotte & Romain Chailan ACP Octobre 2017 25 / 26

Page 42: Marc Bourotte & Romain Chailan...Twin Solutions marc.bourotte@twinsol.com & romain.chailan@twinsol.com Octobre 2017 Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26 Sommaire

Ajout d’individus supplementaires

Individus actifs (wi ) 6= individu supplementaire (poids nul)

●●

●●

SEBRLECLAYKARPOV

BERNARD

YURKOV

WARNERS

ZSIVOCZKY

McMULLEN

MARTINEAUHERNU

BARRAS

NOOL

BOURGUIGNON

Sebrle

Clay

Karpov

Macey

Warners

Zsivoczky

Hernu

Nool

Bernard

Schwarzl

Pogorelov

Schoenbeck

Barras

Smith

Averyanov

Ojaniemi

Smirnov

Qi

Drews

Parkhomenko

Terek

Gomez

Turi

Lorenzo

Karlivans

Korkizoglou

Uldal

Casarsa

Mayer

−2

0

2

4

−2.5 0.0 2.5 5.0

Dim1 (32.7%)

Dim

2 (1

7.4%

)

Competition●●a

a

Decastar

OlympicG

Individuals − PCA Individus collectesapres coup que l’onaimerait situer parrapport a ceux del’echantillond’apprentissage ;

Observations s’averantatypiques ou tropinfluentes dans l’ACPque l’on a prefereecarter. On veutmaintenant pouvoirjuger de leurpositionnement parrapport aux individusactifs.

Sous FactoMineR

$ind.sup

Marc Bourotte & Romain Chailan ACP Octobre 2017 26 / 26