Marc Bourotte & Romain Chailan...Twin Solutions [email protected] &...
Transcript of Marc Bourotte & Romain Chailan...Twin Solutions [email protected] &...
Analyse en Composantes Principales
Marc Bourotte & Romain Chailan
Twin Solutions
[email protected] & [email protected]
Octobre 2017
Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26
Sommaire
1 Introduction
2 Notion d’inertie
3 Deroulement de l’ACP
4 Variables et individus supplementaires
Marc Bourotte & Romain Chailan ACP Octobre 2017 2 / 26
Motivation
Etapes d’un projet de Data Science1 Problematique (clients)
2 Recuperation et preparation du jeu de donnees (format lignes/individus etcolonnes/variables)
3 Analyse exploratoire (comment faire lorsqu’il y a plus de 3 dimensions ?)
4 Modelisation statistique et inference
5 Outils d’aide a la decision
Marc Bourotte & Romain Chailan ACP Octobre 2017 3 / 26
Motivation
Etapes d’un projet de Data Science1 Problematique (clients)
2 Recuperation et preparation du jeu de donnees (format lignes/individus etcolonnes/variables)
3 Analyse exploratoire (comment faire lorsqu’il y a plus de 3 dimensions ?)
4 Modelisation statistique et inference
5 Outils d’aide a la decision
Point 3 −→ Methodes factorielles : reduction de la dimension (2 ou 3 parexemple) tout en limitant la perte d’information i.e. en deformant le moinspossible la realite.
Marc Bourotte & Romain Chailan ACP Octobre 2017 3 / 26
Introduction
Rappel sur les variables :
variables quantitatives → s’expriment en valeurs / discretes ou continues /exemples : age, poids ;
variables qualitatives → s’expriment en modalites / nominales ou ordinales /exemples : sexe (H/F), avis (bon, passable, mauvais).
Methodes d’analyse factorielle :
tableau individus x p variables quantitatives → ACP Analyse en composantesprincipales
tableau contingence 2 variables qualitatives → AFC Analyse factorielle descorrespondances
tableau individus x p variables qualitatives → ACM Analyse factorielle descorrespondances multiples
Marc Bourotte & Romain Chailan ACP Octobre 2017 4 / 26
Introduction
Soit un tableau X croisant des individus (en lignes) et des variables quantitatives(en colonnes) :
X = [xij ]16i6n,16j6p
X =
x11 · · · x1j · · · x1p
......
...xi1 · · · xij · · · xip
......
...xn1 · · · xnj · · · xnp
individu xi· ∈ Rp → espace direct muni de la metrique Mvariable x·j ∈ Rn → espace dual muni de la metrique W = diag(w1, · · · ,wn)
Marc Bourotte & Romain Chailan ACP Octobre 2017 5 / 26
Introduction
Soit un tableau X croisant des individus (en lignes) et des variables quantitatives(en colonnes) :
X = [xij ]16i6n,16j6p
X =
x11 · · · x1j · · · x1p
......
...xi1 · · · xij · · · xip
......
...xn1 · · · xnj · · · xnp
nin
divid
us
individu xi· ∈ Rp → espace direct muni de la metrique M
variable x·j ∈ Rn → espace dual muni de la metrique W = diag(w1, · · · ,wn)
Marc Bourotte & Romain Chailan ACP Octobre 2017 5 / 26
Introduction
Soit un tableau X croisant des individus (en lignes) et des variables quantitatives(en colonnes) :
X = [xij ]16i6n,16j6p
X =
x11 · · · x1j · · · x1p
......
...xi1 · · · xij · · · xip
......
...xn1 · · · xnj · · · xnp
p variables
individu xi· ∈ Rp → espace direct muni de la metrique M
variable x·j ∈ Rn → espace dual muni de la metrique W = diag(w1, · · · ,wn)
Marc Bourotte & Romain Chailan ACP Octobre 2017 5 / 26
Introduction
Soit un tableau X croisant des individus (en lignes) et des variables quantitatives(en colonnes) :
X = [xij ]16i6n,16j6p
X =
x11 · · · x1j · · · x1p
......
...xi1 · · · xij · · · xip
......
...xn1 · · · xnj · · · xnp
p variablesn
ind
ividu
s
individu xi· ∈ Rp → espace direct muni de la metrique Mvariable x·j ∈ Rn → espace dual muni de la metrique W = diag(w1, · · · ,wn)
Marc Bourotte & Romain Chailan ACP Octobre 2017 5 / 26
Presentation
Jeu de donnees : Decathlon (package FactoMineR). 10 variables quantitatives et41 individus.
100m Long.jump Shot.put High.jump 400m 110m.hurdle Discus Pole.vault Javeline 1500m
SEBRLE 11.04 7.58 14.83 2.07 49.81 14.69 43.75 5.02 63.19 291.70CLAY 10.76 7.40 14.26 1.86 49.37 14.05 50.72 4.92 60.15 301.50
KARPOV 11.02 7.30 14.77 2.04 48.37 14.09 48.95 4.92 50.31 300.20BERNARD 11.02 7.23 14.25 1.92 48.93 14.99 40.87 5.32 62.77 280.10
YURKOV 11.34 7.09 15.19 2.10 50.42 15.31 46.26 4.72 63.44 276.40WARNERS 11.11 7.60 14.31 1.98 48.68 14.23 41.10 4.92 51.77 278.10
Resume (Summary) :
Min Q1 Med Mean Q3 Max
100m 10.44 10.85 10.98 11.00 11.14 11.64Long.jump 6.61 7.03 7.30 7.26 7.48 7.96
Shot.put 12.68 13.88 14.57 14.48 14.97 16.36High.jump 1.85 1.92 1.95 1.98 2.04 2.15
400m 46.81 48.93 49.40 49.62 50.30 53.20110m.hurdle 13.97 14.21 14.48 14.61 14.98 15.67
Discus 37.92 41.90 44.41 44.33 46.07 51.65Pole.vault 4.20 4.50 4.80 4.76 4.92 5.40
Javeline 50.31 55.27 58.36 58.32 60.89 70.521500m 262.10 271.02 278.05 279.02 285.10 317.00
Normalisation (rappel moyenne, ecart type)
Pourquoi normaliser ? pour accorder la meme importance a chaquevariable. Par exemple, les unites de mesure sont differentes.
Marc Bourotte & Romain Chailan ACP Octobre 2017 6 / 26
Presentation
Jeu de donnees : Decathlon (package FactoMineR). 10 variables quantitatives et41 individus.
100m Long.jump Shot.put High.jump 400m 110m.hurdle Discus Pole.vault Javeline 1500m
SEBRLE 11.04 7.58 14.83 2.07 49.81 14.69 43.75 5.02 63.19 291.70CLAY 10.76 7.40 14.26 1.86 49.37 14.05 50.72 4.92 60.15 301.50
KARPOV 11.02 7.30 14.77 2.04 48.37 14.09 48.95 4.92 50.31 300.20BERNARD 11.02 7.23 14.25 1.92 48.93 14.99 40.87 5.32 62.77 280.10
YURKOV 11.34 7.09 15.19 2.10 50.42 15.31 46.26 4.72 63.44 276.40WARNERS 11.11 7.60 14.31 1.98 48.68 14.23 41.10 4.92 51.77 278.10
Resume (Summary) :
Min Q1 Med Mean Q3 Max
100m 10.44 10.85 10.98 11.00 11.14 11.64Long.jump 6.61 7.03 7.30 7.26 7.48 7.96
Shot.put 12.68 13.88 14.57 14.48 14.97 16.36High.jump 1.85 1.92 1.95 1.98 2.04 2.15
400m 46.81 48.93 49.40 49.62 50.30 53.20110m.hurdle 13.97 14.21 14.48 14.61 14.98 15.67
Discus 37.92 41.90 44.41 44.33 46.07 51.65Pole.vault 4.20 4.50 4.80 4.76 4.92 5.40
Javeline 50.31 55.27 58.36 58.32 60.89 70.521500m 262.10 271.02 278.05 279.02 285.10 317.00
Normalisation (rappel moyenne, ecart type)
Pourquoi normaliser ? pour accorder la meme importance a chaquevariable. Par exemple, les unites de mesure sont differentes.
Marc Bourotte & Romain Chailan ACP Octobre 2017 6 / 26
Presentation
Jeu de donnees : Decathlon (package FactoMineR). 10 variables quantitatives et41 individus.
100m Long.jump Shot.put High.jump 400m 110m.hurdle Discus Pole.vault Javeline 1500m
SEBRLE 11.04 7.58 14.83 2.07 49.81 14.69 43.75 5.02 63.19 291.70CLAY 10.76 7.40 14.26 1.86 49.37 14.05 50.72 4.92 60.15 301.50
KARPOV 11.02 7.30 14.77 2.04 48.37 14.09 48.95 4.92 50.31 300.20BERNARD 11.02 7.23 14.25 1.92 48.93 14.99 40.87 5.32 62.77 280.10
YURKOV 11.34 7.09 15.19 2.10 50.42 15.31 46.26 4.72 63.44 276.40WARNERS 11.11 7.60 14.31 1.98 48.68 14.23 41.10 4.92 51.77 278.10
Resume (Summary) :
Min Q1 Med Mean Q3 Max
100m 10.44 10.85 10.98 11.00 11.14 11.64Long.jump 6.61 7.03 7.30 7.26 7.48 7.96
Shot.put 12.68 13.88 14.57 14.48 14.97 16.36High.jump 1.85 1.92 1.95 1.98 2.04 2.15
400m 46.81 48.93 49.40 49.62 50.30 53.20110m.hurdle 13.97 14.21 14.48 14.61 14.98 15.67
Discus 37.92 41.90 44.41 44.33 46.07 51.65Pole.vault 4.20 4.50 4.80 4.76 4.92 5.40
Javeline 50.31 55.27 58.36 58.32 60.89 70.521500m 262.10 271.02 278.05 279.02 285.10 317.00
Normalisation (rappel moyenne, ecart type)
Pourquoi normaliser ? pour accorder la meme importance a chaquevariable. Par exemple, les unites de mesure sont differentes.
Marc Bourotte & Romain Chailan ACP Octobre 2017 6 / 26
Sommaire
1 Introduction
2 Notion d’inertie
3 Deroulement de l’ACP
4 Variables et individus supplementaires
Marc Bourotte & Romain Chailan ACP Octobre 2017 7 / 26
Notion d’inertie
Representation du nuage des individus :
xi· = (xi1, · · · , xip)′
j1
j2
j3
xi1
xi3
xi2
O
xi.••
•
••
•
Rp,M
L’inertie est la somme ponderee descarres des distances des individus aucentre de gravite (ici O).
IO =∑i
wid2M(xi.,O)
=∑i
wi‖xi.‖2M
=∑i
wi x′i.Mxi.
L’inertie mesure la dispersion totale dunuage de points par rapport a un pointde reference dans un espace metrique.L’inertie est aussi egale a la somme desvariances des variables etudiees.
Marc Bourotte & Romain Chailan ACP Octobre 2017 8 / 26
Notion d’inertie
Representation du nuage des individus :
xi· = (xi1, · · · , xip)′
j1
j2
j3
xi1
xi3
xi2
O
xi.••
•
••
•
Rp,M
L’inertie est la somme ponderee descarres des distances des individusau centre de gravite (ici O).
IO =∑i
wid2M(xi.,O)
=∑i
wi‖xi.‖2M
=∑i
wi x′i.Mxi.
L’inertie mesure la dispersion totale dunuage de points par rapport a un pointde reference dans un espace metrique.L’inertie est aussi egale a la somme desvariances des variables etudiees.
Marc Bourotte & Romain Chailan ACP Octobre 2017 8 / 26
Notion d’inertie
Representation du nuage des individus :
xi· = (xi1, · · · , xip)′
j1
j2
j3
xi1
xi3
xi2
O
xi.••
•
••
•
Rp,M
L’inertie est la somme ponderee descarres des distances des individus aucentre de gravite (ici O).
IO =∑i
wid2M(xi.,O)
=∑i
wi‖xi.‖2M
=∑i
wi x′i.Mxi.
L’inertie mesure la dispersion totaledu nuage de points par rapport aun point de reference dans unespace metrique.
L’inertie est aussi egale a la somme desvariances des variables etudiees.
Marc Bourotte & Romain Chailan ACP Octobre 2017 8 / 26
Notion d’inertie
Representation du nuage des individus :
xi· = (xi1, · · · , xip)′
j1
j2
j3
xi1
xi3
xi2
O
xi.••
•
••
•
Rp,M
L’inertie est la somme ponderee descarres des distances des individus aucentre de gravite (ici O).
IO =∑i
wid2M(xi.,O)
=∑i
wi‖xi.‖2M
=∑i
wi x′i.Mxi.
L’inertie mesure la dispersion totale dunuage de points par rapport a un pointde reference dans un espace metrique.L’inertie est aussi egale a la sommedes variances des variables etudiees.
Marc Bourotte & Romain Chailan ACP Octobre 2017 8 / 26
Notion d’inertie
fi est la projection orthogonale dexi. sur le vecteur M-unitaire< u > (‖u‖2
M = 1)
f la composante sur < u > telleque f = XMu
I<u> =∑
i wi f2i = ‖f ‖2
W
En d’autres termes,I<u> = u′MX ′WXMu
Donc on veut maximiser l’inertie dunuage projete i.e.maxu′Mu=1(u′MX ′WXMu).
Pour des donnees centrees, celaequivaut a maximiser la variance dela composante f.
< u >•O
•
•
•
•
•
•
xi.
fi
Marc Bourotte & Romain Chailan ACP Octobre 2017 9 / 26
Notion d’inertie
fi est la projection orthogonale dexi. sur le vecteur M-unitaire< u > (‖u‖2
M = 1)
f la composante sur < u > telleque f = XMu
I<u> =∑
i wi f2i = ‖f ‖2
W
En d’autres termes,I<u> = u′MX ′WXMu
Donc on veut maximiser l’inertie dunuage projete i.e.maxu′Mu=1(u′MX ′WXMu).
Pour des donnees centrees, celaequivaut a maximiser la variance dela composante f.
< u >•O
•
•
•
•
•
•
xi.
fi
Marc Bourotte & Romain Chailan ACP Octobre 2017 9 / 26
Notion d’inertie
fi est la projection orthogonale dexi. sur le vecteur M-unitaire< u > (‖u‖2
M = 1)
f la composante sur < u > telleque f = XMu
I<u> =∑
i wi f2i = ‖f ‖2
W
En d’autres termes,I<u> = u′MX ′WXMu
Donc on veut maximiser l’inertie dunuage projete i.e.maxu′Mu=1(u′MX ′WXMu).
Pour des donnees centrees, celaequivaut a maximiser la variance dela composante f.
< u >•O
•
•
•
•
•
•
xi.
fi
Marc Bourotte & Romain Chailan ACP Octobre 2017 9 / 26
Notion d’inertie
La recherche d’axes portant le maximum d’inertie equivaut a la constructionde nouvelles variables (auxquelles sont associes ces axes) de variancemaximale.
En d’autres termes, on effectue un changement de repere dans Rp de facon ase placer dans un nouveau systeme de representation ou le premier axeapporte le plus possible de l’inertie totale du nuage, le deuxieme axe le pluspossible de l’inertie non prise en compte par le premier axe, et ainsi de suite.
Cette reorganisation s’appuie sur la diagonalisation de la matrice de d’inertieX ′WXM.
Marc Bourotte & Romain Chailan ACP Octobre 2017 10 / 26
Diagonalisation de la matrice de variance-covariance
La matrice d’inertie X ′WXM est diagonalisable (theoreme spectrale) et peut doncs’ecrire P∆P−1 avec P la matrice de changement de base et ∆ la matricediagonale composee des p valeurs propres λ1, · · · , λp.
On rappelle que : IO = tr(X ′WXM) =∑p
k=1 λk .
La matrice d’inertie correspond a
la matrice de variance-covariance si X est la matrice des donnees centrees
la matrice de correlation si en plus les donnees ont ete reduites .
Dans la suite, X = variables centrees et reduites donc M = Ip etW = 1
n In → ACP normee
⇒ Inertie totale IO = p.
Marc Bourotte & Romain Chailan ACP Octobre 2017 11 / 26
Diagonalisation de la matrice de variance-covariance
La matrice d’inertie X ′WXM est diagonalisable (theoreme spectrale) et peut doncs’ecrire P∆P−1 avec P la matrice de changement de base et ∆ la matricediagonale composee des p valeurs propres λ1, · · · , λp.
On rappelle que : IO = tr(X ′WXM) =∑p
k=1 λk .
La matrice d’inertie correspond a
la matrice de variance-covariance si X est la matrice des donnees centrees
la matrice de correlation si en plus les donnees ont ete reduites .
Dans la suite, X = variables centrees et reduites donc M = Ip etW = 1
n In → ACP normee
⇒ Inertie totale IO = p.
Marc Bourotte & Romain Chailan ACP Octobre 2017 11 / 26
Diagonalisation de la matrice de variance-covariance
La matrice d’inertie X ′WXM est diagonalisable (theoreme spectrale) et peut doncs’ecrire P∆P−1 avec P la matrice de changement de base et ∆ la matricediagonale composee des p valeurs propres λ1, · · · , λp.
On rappelle que : IO = tr(X ′WXM) =∑p
k=1 λk .
La matrice d’inertie correspond a
la matrice de variance-covariance si X est la matrice des donnees centrees
la matrice de correlation si en plus les donnees ont ete reduites .
Dans la suite, X = variables centrees et reduites donc M = Ip etW = 1
n In → ACP normee
⇒ Inertie totale IO = p.
Marc Bourotte & Romain Chailan ACP Octobre 2017 11 / 26
Diagonalisation de la matrice de variance-covariance
1
nX ′Xu1 = λ1u1,
1
nX ′Xu2 = λ2u2,
· · ·1
nX ′Xup = λpup.
On ordonne les valeurs propres parordre decroissant telles que :
λ1 > λ2 > · · · > λp
Les vecteurs propres sont orthogonaux2 a 2 :
u1 ⊥ u2 ⊥ · · · ⊥ up
Le premier axe factoriel < u1 >, engendre par le vecteur propre u1, estassocie a la plus grande valeur propre λ1. L’inertie portee par cet axeest egale a λ1.
Ce premier axe factoriel est associe a la premiere composante principale f1.Cette premiere composante principale est une combinaison lineaire desvariables originelles : f1 = Xu1. Autrement dit, f1 est le vecteur renfermantles coordonnees des projections des individus sur le premier axe.La variance d’une composante principale est egale a l’inertie portee par l’axeprincipal qui lui est associe.Le deuxieme axe ...
Marc Bourotte & Romain Chailan ACP Octobre 2017 12 / 26
Diagonalisation de la matrice de variance-covariance
1
nX ′Xu1 = λ1u1,
1
nX ′Xu2 = λ2u2,
· · ·1
nX ′Xup = λpup.
On ordonne les valeurs propres parordre decroissant telles que :
λ1 > λ2 > · · · > λp
Les vecteurs propres sont orthogonaux2 a 2 :
u1 ⊥ u2 ⊥ · · · ⊥ up
Le premier axe factoriel < u1 >, engendre par le vecteur propre u1, est associea la plus grande valeur propre λ1. L’inertie portee par cet axe est egale a λ1.Ce premier axe factoriel est associe a la premiere composanteprincipale f1. Cette premiere composante principale est unecombinaison lineaire des variables originelles : f1 = Xu1. Autrementdit, f1 est le vecteur renfermant les coordonnees des projections desindividus sur le premier axe.
La variance d’une composante principale est egale a l’inertie portee par l’axeprincipal qui lui est associe.Le deuxieme axe ...
Marc Bourotte & Romain Chailan ACP Octobre 2017 12 / 26
Diagonalisation de la matrice de variance-covariance
1
nX ′Xu1 = λ1u1,
1
nX ′Xu2 = λ2u2,
· · ·1
nX ′Xup = λpup.
On ordonne les valeurs propres parordre decroissant telles que :
λ1 > λ2 > · · · > λp
Les vecteurs propres sont orthogonaux2 a 2 :
u1 ⊥ u2 ⊥ · · · ⊥ up
Le premier axe factoriel < u1 >, engendre par le vecteur propre u1, est associea la plus grande valeur propre λ1. L’inertie portee par cet axe est egale a λ1.
Ce premier axe factoriel est associe a la premiere composante principale f1.Cette premiere composante principale est une combinaison lineaire desvariables originelles : f1 = Xu1. Autrement dit, f1 est le vecteur renfermantles coordonnees des projections des individus sur le premier axe.
La variance d’une composante principale est egale a l’inertie porteepar l’axe principal qui lui est associe.
Le deuxieme axe ...
Marc Bourotte & Romain Chailan ACP Octobre 2017 12 / 26
Diagonalisation de la matrice de variance-covariance
1
nX ′Xu1 = λ1u1,
1
nX ′Xu2 = λ2u2,
· · ·1
nX ′Xup = λpup.
On ordonne les valeurs propres parordre decroissant telles que :
λ1 > λ2 > · · · > λp
Les vecteurs propres sont orthogonaux2 a 2 :
u1 ⊥ u2 ⊥ · · · ⊥ up
Le premier axe factoriel < u1 >, engendre par le vecteur propre u1, est associea la plus grande valeur propre λ1. L’inertie portee par cet axe est egale a λ1.
Ce premier axe factoriel est associe a la premiere composante principale f1.Cette premiere composante principale est une combinaison lineaire desvariables originelles : f1 = Xu1. Autrement dit, f1 est le vecteur renfermantles coordonnees des projections des individus sur le premier axe.
La variance d’une composante principale est egale a l’inertie portee par l’axeprincipal qui lui est associe.
Le deuxieme axe ...Marc Bourotte & Romain Chailan ACP Octobre 2017 12 / 26
Sommaire
1 Introduction
2 Notion d’inertie
3 Deroulement de l’ACP
4 Variables et individus supplementaires
Marc Bourotte & Romain Chailan ACP Octobre 2017 13 / 26
Deroulement de l’ACP
Package FactoMineR
> res_pca
**Results for the Principal Component Analysis (PCA)**
The analysis was performed on 41 individuals, described by 10 variables
*The results are available in the following objects:
name description
1 "$eig" "eigenvalues"
2 "$var" "results for the variables"
3 "$var$coord" "coord. for the variables"
4 "$var$cor" "correlations variables - dimensions"
5 "$var$cos2" "cos2 for the variables"
6 "$var$contrib" "contributions of the variables"
7 "$ind" "results for the individuals"
8 "$ind$coord" "coord. for the individuals"
9 "$ind$cos2" "cos2 for the individuals"
10 "$ind$contrib" "contributions of the individuals"
11 "$call" "summary statistics"
12 "$call$centre" "mean of the variables"
13 "$call$ecart.type" "standard error of the variables"
14 "$call$row.w" "weights for the individuals"
15 "$call$col.w" "weights for the variables"
Marc Bourotte & Romain Chailan ACP Octobre 2017 14 / 26
Deroulement de l’ACP
Comment choisir le nombre de composantes principales ?
eigenvalue percentage of variance cumulative percentage of variance
comp 1 3.27 32.72 32.72comp 2 1.74 17.37 50.09comp 3 1.40 14.05 64.14comp 4 1.06 10.57 74.71comp 5 0.68 6.85 81.56comp 6 0.60 5.99 87.55comp 7 0.45 4.51 92.06comp 8 0.40 3.97 96.03comp 9 0.21 2.15 98.18
comp 10 0.18 1.82 100.00
●
●
●
●
●
●
●
●
●●
0
10
20
30
1 2 3 4 5 6 7 8 9 10
Dimensions
Per
cent
age
of e
xpla
ined
var
ianc
es
Scree plotInertie a priori, par exemple 50%. Doncquel h tel que 1/p
∑hk=1 λk ≈ 0.5
La meilleure representation plane →Plan(1,2)
Recherche de cassure dans le screeplot
Inertie = p (ACP normee) donc la valeurmoyenne de λ = 1
Regle de Karlis-Saporta-Spinaki :
λ > 1 + 2√
p−1n−1
(ici seuil = 1.95)
Marc Bourotte & Romain Chailan ACP Octobre 2017 15 / 26
Deroulement de l’ACP
Analyse directe - nuage des individus en plan factoriel (ici 1,2)
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
SEBRLECLAYKARPOV
BERNARD
YURKOV
WARNERS
ZSIVOCZKY
McMULLEN
MARTINEAUHERNU
BARRAS
NOOL
BOURGUIGNON
Sebrle
Clay
Karpov
Macey
Warners
Zsivoczky
Hernu
Nool
Bernard
Schwarzl
Pogorelov
Schoenbeck
Barras
Smith
Averyanov
Ojaniemi
Smirnov
Qi
Drews
Parkhomenko
Terek
Gomez
Turi
Lorenzo
Karlivans
Korkizoglou
Uldal
Casarsa
−2
0
2
4
−2.5 0.0 2.5 5.0
Dim1 (32.7%)
Dim
2 (1
7.4%
)
Individuals − PCA
• Sorties de FactoMineR concernantles individus
"$ind$coord"
"$ind$cos2"
"$ind$contrib"
Coordonnees des n individus sur les paxes (→ voir calcul matriciel)Les deux derniers sont des indicateursd’aide a l’interpretation
• Contribution apportee par l’individui sur l’axe k
CTRk (i) =wi (f
ki )2
λk
→ a comparer a wi = 1n
(car ACPnormee)
Marc Bourotte & Romain Chailan ACP Octobre 2017 16 / 26
Deroulement de l’ACP
Analyse directe - nuage des individus en plan factoriel (ici 1,2)
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
SEBRLECLAYKARPOV
BERNARD
YURKOV
WARNERS
ZSIVOCZKY
McMULLEN
MARTINEAUHERNU
BARRAS
NOOL
BOURGUIGNON
Sebrle
Clay
Karpov
Macey
Warners
Zsivoczky
Hernu
Nool
Bernard
Schwarzl
Pogorelov
Schoenbeck
Barras
Smith
Averyanov
Ojaniemi
Smirnov
Qi
Drews
Parkhomenko
Terek
Gomez
Turi
Lorenzo
Karlivans
Korkizoglou
Uldal
Casarsa
−2
0
2
4
−2.5 0.0 2.5 5.0
Dim1 (32.7%)
Dim
2 (1
7.4%
)
Individuals − PCA
• Qualite de la representation del’individu i sur l’axe k
CO2k (i) =(f ki )2
‖xi.‖2
=(f ki )2∑pk=1(f ki )2
Plus la valeur est proche de 1,meilleure est la qualite derepresentation.
Ce critere n’a pas de signification pour
les individus proches de l’origine.
u1
u2
O
•xi.
f 1i
f 2i
τ
Marc Bourotte & Romain Chailan ACP Octobre 2017 17 / 26
Deroulement de l’ACP
Et les variables ???
Marc Bourotte & Romain Chailan ACP Octobre 2017 18 / 26
Deroulement de l’ACP
Analyse duale - nuage des variables en plan factoriel
On peut montrer l’equivalence entre l’ACP directe et l’ACP duale. Il n’est doncpas necessaire de reiterer l’ensemble des calculs faits precedemment.
Il existe des relations de transition/dualite qui permettent de deduire les axesfactoriels de l’analyse duale a partir de ceux de l’analyse directe.
Dans le cas de l’ACP normee → ACP duale (X ′, Ip,W = 1n In)
Les axes factoriels sont les vecteurs propres de XX ′P → p valeurs propres nonnulles → p axes informatifs
Marc Bourotte & Romain Chailan ACP Octobre 2017 19 / 26
Deroulement de l’ACP
Analyse duale - relations de transition/dualite
Pour l’ACP normee :
Coordonnees des variables sur l’axe k
φk =1
n√λk
X ′f k
Ces coordonnees coıncident avec les correlations entre les variables naturellesx.j et les variables synthetiques f k → φjk = ρ(x.j , f
k)
Comparez les deux commandessuivantes :
res_pca$var$coord[, 1 : 3]
cor(decathlon[, 1 : 10],
res_pca$ind$coord)[, 1 : 3]
Dim.1 Dim.2 Dim.3100m -0.77 0.19 -0.18
Long.jump 0.74 -0.35 0.18Shot.put 0.62 0.60 -0.02
High.jump 0.57 0.35 -0.26400m -0.68 0.57 0.13
110m.hurdle -0.75 0.23 -0.09Discus 0.55 0.61 0.04
Pole.vault 0.05 -0.18 0.69Javeline 0.28 0.32 -0.39
1500m -0.06 0.47 0.78
Marc Bourotte & Romain Chailan ACP Octobre 2017 20 / 26
Deroulement de l’ACP
Analyse duale - nuage des variables en plan factoriel (ici 1,2)Le cercle des correlations est la projection du nuage des variables sur le plan descomposantes principales.
100m
Long.jump
Shot.put
High.jump
400m
110m.hurdle
Discus
Pole.vault
Javeline
1500m
−1.0
−0.5
0.0
0.5
1.0
−1.0 −0.5 0.0 0.5 1.0
Dim1 (32.7%)
Dim
2 (1
7.4%
)
Variables − PCA
Attention a l’interpretation !
si proches du centre du cercle ⇒on ne peut rien dire
si proches des bords du cercle ⇒on peut interpreter
"$var$cos2", "$var$contrib"
egalement disponibles (memesformules que pour les individusen adaptant bien les matrices al’ACP duale)
Marc Bourotte & Romain Chailan ACP Octobre 2017 21 / 26
Deroulement de l’ACP
SEBRLECLAYKARPOV
BERNARD
YURKOV
WARNERS
ZSIVOCZKY
McMULLEN
MARTINEAUHERNU
BARRAS
NOOL
BOURGUIGNON
Sebrle
Clay
Karpov
Macey
Warners
Zsivoczky
Hernu
Nool
Bernard
Schwarzl
Pogorelov
Schoenbeck
Barras
Smith
Averyanov
Ojaniemi
Smirnov
Qi
Drews
Parkhomenko
Terek
Gomez
Turi
Lorenzo
Karlivans
Korkizoglou
Uldal
Casarsa
100m
Long.jump
Shot.put
High.jump
400m
110m.hurdle
Discus
Pole.vault
Javeline
1500m
−2
0
2
4
−2.5 0.0 2.5 5.0
Dim1 (32.7%)
Dim
2 (1
7.4%
)
PCA − Biplot
Marc Bourotte & Romain Chailan ACP Octobre 2017 22 / 26
Sommaire
1 Introduction
2 Notion d’inertie
3 Deroulement de l’ACP
4 Variables et individus supplementaires
Marc Bourotte & Romain Chailan ACP Octobre 2017 23 / 26
Ajout de variables supplementaires
Variables quantitatives :
100m
Long.jump
Shot.put
High.jump
400m
110m.hurdle
Discus
Pole.vault
Javeline
1500m
RankPoints
−1.0
−0.5
0.0
0.5
1.0
−1.0 −0.5 0.0 0.5 1.0
Dim1 (32.7%)
Dim
2 (1
7.4%
)
Variables − PCA
Ces variablessupplementaires nesont donc pas actives.Elles ne participent pasa la construction desaxes. En revanche,elles peuvent aider ales interpreter → cercledes correlations.
Sous FactoMineR
$quanti.sup
Marc Bourotte & Romain Chailan ACP Octobre 2017 24 / 26
Ajout de variables supplementaires
Variables qualitatives :
●
●●
●
●
●
●
●
●●
●
●
●
●
SEBRLECLAYKARPOV
BERNARD
YURKOV
WARNERS
ZSIVOCZKY
McMULLEN
MARTINEAUHERNU
BARRAS
NOOL
BOURGUIGNON
Sebrle
Clay
Karpov
Macey
Warners
Zsivoczky
Hernu
Nool
Bernard
Schwarzl
Pogorelov
Schoenbeck
Barras
Smith
Averyanov
Ojaniemi
Smirnov
Qi
Drews
Parkhomenko
Terek
Gomez
Turi
Lorenzo
Karlivans
Korkizoglou
Uldal
Casarsa
−2
0
2
4
−2.5 0.0 2.5 5.0
Dim1 (32.7%)
Dim
2 (1
7.4%
)
Competition●●a
a
Decastar
OlympicG
Individuals − PCA
L’information de cesvariables peut etreutilisee a titreillustratif. Chaquemodalite de la variablequalitativesupplementaire seplace au barycentre del’ensemble desindividus qui lapossedent → nuagedes individus
Test deFisher-Snedecor
Sous FactoMineR
$quali.sup
Marc Bourotte & Romain Chailan ACP Octobre 2017 25 / 26
Ajout d’individus supplementaires
Individus actifs (wi ) 6= individu supplementaire (poids nul)
●
●●
●
●
●
●
●
●●
●
●
●
●
SEBRLECLAYKARPOV
BERNARD
YURKOV
WARNERS
ZSIVOCZKY
McMULLEN
MARTINEAUHERNU
BARRAS
NOOL
BOURGUIGNON
Sebrle
Clay
Karpov
Macey
Warners
Zsivoczky
Hernu
Nool
Bernard
Schwarzl
Pogorelov
Schoenbeck
Barras
Smith
Averyanov
Ojaniemi
Smirnov
Qi
Drews
Parkhomenko
Terek
Gomez
Turi
Lorenzo
Karlivans
Korkizoglou
Uldal
Casarsa
●
Mayer
−2
0
2
4
−2.5 0.0 2.5 5.0
Dim1 (32.7%)
Dim
2 (1
7.4%
)
Competition●●a
a
Decastar
OlympicG
Individuals − PCA Individus collectesapres coup que l’onaimerait situer parrapport a ceux del’echantillond’apprentissage ;
Observations s’averantatypiques ou tropinfluentes dans l’ACPque l’on a prefereecarter. On veutmaintenant pouvoirjuger de leurpositionnement parrapport aux individusactifs.
Sous FactoMineR
$ind.sup
Marc Bourotte & Romain Chailan ACP Octobre 2017 26 / 26