Marc Bourotte & Romain Chailan...Twin Solutions [email protected] &...

Analyse en Composantes Principales

Marc Bourotte & Romain Chailan

Twin Solutions

[email protected] & [email protected]

Octobre 2017

Marc Bourotte & Romain Chailan ACP Octobre 2017 1 / 26

Sommaire

1 Introduction

2 Notion d’inertie

3 Deroulement de l’ACP

4 Variables et individus supplementaires


Motivation

Etapes d’un projet de Data Science1 Problematique (clients)

2 Recuperation et preparation du jeu de donnees (format lignes/individus etcolonnes/variables)

3 Analyse exploratoire (comment faire lorsqu’il y a plus de 3 dimensions ?)

4 Modelisation statistique et inference

5 Outils d’aide a la decision


Motivation

Etapes d’un projet de Data Science1 Problematique (clients)

2 Recuperation et preparation du jeu de donnees (format lignes/individus etcolonnes/variables)

3 Analyse exploratoire (comment faire lorsqu’il y a plus de 3 dimensions ?)

4 Modelisation statistique et inference

5 Outils d’aide a la decision

Point 3 −→ Methodes factorielles : reduction de la dimension (2 ou 3 parexemple) tout en limitant la perte d’information i.e. en deformant le moinspossible la realite.


Introduction

Rappel sur les variables :

variables quantitatives → s’expriment en valeurs / discretes ou continues /exemples : age, poids ;

variables qualitatives → s’expriment en modalites / nominales ou ordinales /exemples : sexe (H/F), avis (bon, passable, mauvais).

Methodes d’analyse factorielle :

tableau individus x p variables quantitatives → ACP Analyse en composantesprincipales

tableau contingence 2 variables qualitatives → AFC Analyse factorielle descorrespondances

tableau individus x p variables qualitatives → ACM Analyse factorielle descorrespondances multiples


Introduction

Soit un tableau X croisant des individus (en lignes) et des variables quantitatives(en colonnes) :

X = [xij ]16i6n,16j6p

X =

x11 · · · x1j · · · x1p

......

...xi1 · · · xij · · · xip

......

...xn1 · · · xnj · · · xnp

individu xi· ∈ Rp → espace direct muni de la metrique Mvariable x·j ∈ Rn → espace dual muni de la metrique W = diag(w1, · · · ,wn)


Introduction


X = [xij ]16i6n,16j6p

X =

x11 · · · x1j · · · x1p

......

...xi1 · · · xij · · · xip

......

...xn1 · · · xnj · · · xnp

nin

divid

us

individu xi· ∈ Rp → espace direct muni de la metrique M

variable x·j ∈ Rn → espace dual muni de la metrique W = diag(w1, · · · ,wn)


Introduction


X = [xij ]16i6n,16j6p

X =

x11 · · · x1j · · · x1p

......

...xi1 · · · xij · · · xip

......

...xn1 · · · xnj · · · xnp

p variables

individu xi· ∈ Rp → espace direct muni de la metrique M

variable x·j ∈ Rn → espace dual muni de la metrique W = diag(w1, · · · ,wn)


Introduction


X = [xij ]16i6n,16j6p

X =

x11 · · · x1j · · · x1p

......

...xi1 · · · xij · · · xip

......

...xn1 · · · xnj · · · xnp

p variablesn

ind

ividu

s

individu xi· ∈ Rp → espace direct muni de la metrique Mvariable x·j ∈ Rn → espace dual muni de la metrique W = diag(w1, · · · ,wn)


Presentation

Jeu de donnees : Decathlon (package FactoMineR). 10 variables quantitatives et41 individus.

100m Long.jump Shot.put High.jump 400m 110m.hurdle Discus Pole.vault Javeline 1500m

SEBRLE 11.04 7.58 14.83 2.07 49.81 14.69 43.75 5.02 63.19 291.70CLAY 10.76 7.40 14.26 1.86 49.37 14.05 50.72 4.92 60.15 301.50

KARPOV 11.02 7.30 14.77 2.04 48.37 14.09 48.95 4.92 50.31 300.20BERNARD 11.02 7.23 14.25 1.92 48.93 14.99 40.87 5.32 62.77 280.10

YURKOV 11.34 7.09 15.19 2.10 50.42 15.31 46.26 4.72 63.44 276.40WARNERS 11.11 7.60 14.31 1.98 48.68 14.23 41.10 4.92 51.77 278.10

Resume (Summary) :

Min Q1 Med Mean Q3 Max

100m 10.44 10.85 10.98 11.00 11.14 11.64Long.jump 6.61 7.03 7.30 7.26 7.48 7.96

Shot.put 12.68 13.88 14.57 14.48 14.97 16.36High.jump 1.85 1.92 1.95 1.98 2.04 2.15

400m 46.81 48.93 49.40 49.62 50.30 53.20110m.hurdle 13.97 14.21 14.48 14.61 14.98 15.67

Discus 37.92 41.90 44.41 44.33 46.07 51.65Pole.vault 4.20 4.50 4.80 4.76 4.92 5.40

Javeline 50.31 55.27 58.36 58.32 60.89 70.521500m 262.10 271.02 278.05 279.02 285.10 317.00

Normalisation (rappel moyenne, ecart type)

Pourquoi normaliser ? pour accorder la meme importance a chaquevariable. Par exemple, les unites de mesure sont differentes.


Sommaire

1 Introduction





Notion d’inertie

Representation du nuage des individus :

xi· = (xi1, · · · , xip)′

j1

j2

j3

xi1

xi3

xi2

O

xi.••

•

••

•

Rp,M

L’inertie est la somme ponderee descarres des distances des individus aucentre de gravite (ici O).

IO =∑i

wid2M(xi.,O)

=∑i

wi‖xi.‖2M

=∑i

wi x′i.Mxi.

L’inertie mesure la dispersion totale dunuage de points par rapport a un pointde reference dans un espace metrique.L’inertie est aussi egale a la somme desvariances des variables etudiees.


Notion d’inertie


xi· = (xi1, · · · , xip)′

j1

j2

j3

xi1

xi3

xi2

O

xi.••

•

••

•

Rp,M

L’inertie est la somme ponderee descarres des distances des individusau centre de gravite (ici O).

IO =∑i

wid2M(xi.,O)

=∑i

wi‖xi.‖2M

=∑i

wi x′i.Mxi.

L’inertie mesure la dispersion totale dunuage de points par rapport a un pointde reference dans un espace metrique.L’inertie est aussi egale a la somme desvariances des variables etudiees.


Notion d’inertie


xi· = (xi1, · · · , xip)′

j1

j2

j3

xi1

xi3

xi2

O

xi.••

•

••

•

Rp,M


IO =∑i

wid2M(xi.,O)

=∑i

wi‖xi.‖2M

=∑i

wi x′i.Mxi.

L’inertie mesure la dispersion totaledu nuage de points par rapport aun point de reference dans unespace metrique.

L’inertie est aussi egale a la somme desvariances des variables etudiees.


Notion d’inertie


xi· = (xi1, · · · , xip)′

j1

j2

j3

xi1

xi3

xi2

O

xi.••

•

••

•

Rp,M


IO =∑i

wid2M(xi.,O)

=∑i

wi‖xi.‖2M

=∑i

wi x′i.Mxi.

L’inertie mesure la dispersion totale dunuage de points par rapport a un pointde reference dans un espace metrique.L’inertie est aussi egale a la sommedes variances des variables etudiees.


Notion d’inertie

fi est la projection orthogonale dexi. sur le vecteur M-unitaire (‖u‖2

M = 1)

f la composante sur telleque f = XMu

I =∑

i wi f2i = ‖f ‖2

W

En d’autres termes,I = u′MX ′WXMu

Donc on veut maximiser l’inertie dunuage projete i.e.maxu′Mu=1(u′MX ′WXMu).

Pour des donnees centrees, celaequivaut a maximiser la variance dela composante f.

•O

•

•

•

•

•

•

xi.

fi

Notion d’inertie

La recherche d’axes portant le maximum d’inertie equivaut a la constructionde nouvelles variables (auxquelles sont associes ces axes) de variancemaximale.

En d’autres termes, on effectue un changement de repere dans Rp de facon ase placer dans un nouveau systeme de representation ou le premier axeapporte le plus possible de l’inertie totale du nuage, le deuxieme axe le pluspossible de l’inertie non prise en compte par le premier axe, et ainsi de suite.

Cette reorganisation s’appuie sur la diagonalisation de la matrice de d’inertieX ′WXM.


Diagonalisation de la matrice de variance-covariance

La matrice d’inertie X ′WXM est diagonalisable (theoreme spectrale) et peut doncs’ecrire P∆P−1 avec P la matrice de changement de base et ∆ la matricediagonale composee des p valeurs propres λ1, · · · , λp.

On rappelle que : IO = tr(X ′WXM) =∑p

k=1 λk .

La matrice d’inertie correspond a

la matrice de variance-covariance si X est la matrice des donnees centrees

la matrice de correlation si en plus les donnees ont ete reduites .

Dans la suite, X = variables centrees et reduites donc M = Ip etW = 1

n In → ACP normee

⇒ Inertie totale IO = p.


1

nX ′Xu1 = λ1u1,

1

nX ′Xu2 = λ2u2,

· · ·1

nX ′Xup = λpup.

On ordonne les valeurs propres parordre decroissant telles que :

λ1 > λ2 > · · · > λp

Les vecteurs propres sont orthogonaux2 a 2 :

u1 ⊥ u2 ⊥ · · · ⊥ up

Le premier axe factoriel < u1 >, engendre par le vecteur propre u1, estassocie a la plus grande valeur propre λ1. L’inertie portee par cet axeest egale a λ1.

Ce premier axe factoriel est associe a la premiere composante principale f1.Cette premiere composante principale est une combinaison lineaire desvariables originelles : f1 = Xu1. Autrement dit, f1 est le vecteur renfermantles coordonnees des projections des individus sur le premier axe.La variance d’une composante principale est egale a l’inertie portee par l’axeprincipal qui lui est associe.Le deuxieme axe ...

1

nX ′Xu1 = λ1u1,

1

nX ′Xu2 = λ2u2,

· · ·1

nX ′Xup = λpup.


λ1 > λ2 > · · · > λp


u1 ⊥ u2 ⊥ · · · ⊥ up

Le premier axe factoriel < u1 >, engendre par le vecteur propre u1, est associea la plus grande valeur propre λ1. L’inertie portee par cet axe est egale a λ1.Ce premier axe factoriel est associe a la premiere composanteprincipale f1. Cette premiere composante principale est unecombinaison lineaire des variables originelles : f1 = Xu1. Autrementdit, f1 est le vecteur renfermant les coordonnees des projections desindividus sur le premier axe.

La variance d’une composante principale est egale a l’inertie portee par l’axeprincipal qui lui est associe.Le deuxieme axe ...

1

nX ′Xu1 = λ1u1,

1

nX ′Xu2 = λ2u2,

· · ·1

nX ′Xup = λpup.


λ1 > λ2 > · · · > λp


u1 ⊥ u2 ⊥ · · · ⊥ up

Le premier axe factoriel < u1 >, engendre par le vecteur propre u1, est associea la plus grande valeur propre λ1. L’inertie portee par cet axe est egale a λ1.

Ce premier axe factoriel est associe a la premiere composante principale f1.Cette premiere composante principale est une combinaison lineaire desvariables originelles : f1 = Xu1. Autrement dit, f1 est le vecteur renfermantles coordonnees des projections des individus sur le premier axe.

La variance d’une composante principale est egale a l’inertie porteepar l’axe principal qui lui est associe.

Le deuxieme axe ...

1

nX ′Xu1 = λ1u1,

1

nX ′Xu2 = λ2u2,

· · ·1

nX ′Xup = λpup.


λ1 > λ2 > · · · > λp


u1 ⊥ u2 ⊥ · · · ⊥ up

Le premier axe factoriel < u1 >, engendre par le vecteur propre u1, est associea la plus grande valeur propre λ1. L’inertie portee par cet axe est egale a λ1.

Ce premier axe factoriel est associe a la premiere composante principale f1.Cette premiere composante principale est une combinaison lineaire desvariables originelles : f1 = Xu1. Autrement dit, f1 est le vecteur renfermantles coordonnees des projections des individus sur le premier axe.

La variance d’une composante principale est egale a l’inertie portee par l’axeprincipal qui lui est associe.

Le deuxieme axe ...Marc Bourotte & Romain Chailan ACP Octobre 2017 12 / 26

Sommaire

1 Introduction





Deroulement de l’ACP

Package FactoMineR

> res_pca

**Results for the Principal Component Analysis (PCA)**

The analysis was performed on 41 individuals, described by 10 variables

*The results are available in the following objects:

name description

1 "$eig" "eigenvalues"

2 "$var" "results for the variables"

3 "$var$coord" "coord. for the variables"

4 "$var$cor" "correlations variables - dimensions"

5 "$var$cos2" "cos2 for the variables"

6 "$var$contrib" "contributions of the variables"

7 "$ind" "results for the individuals"

8 "$ind$coord" "coord. for the individuals"

9 "$ind$cos2" "cos2 for the individuals"

10 "$ind$contrib" "contributions of the individuals"

11 "$call" "summary statistics"

12 "$call$centre" "mean of the variables"

13 "$call$ecart.type" "standard error of the variables"

14 "$call$row.w" "weights for the individuals"

15 "$call$col.w" "weights for the variables"



Comment choisir le nombre de composantes principales ?

eigenvalue percentage of variance cumulative percentage of variance

comp 1 3.27 32.72 32.72comp 2 1.74 17.37 50.09comp 3 1.40 14.05 64.14comp 4 1.06 10.57 74.71comp 5 0.68 6.85 81.56comp 6 0.60 5.99 87.55comp 7 0.45 4.51 92.06comp 8 0.40 3.97 96.03comp 9 0.21 2.15 98.18

comp 10 0.18 1.82 100.00

●

●

●

●

●

●

●

●

●●

0

10

20

30

1 2 3 4 5 6 7 8 9 10

Dimensions

Per

cent

age

of e

xpla

ined

var

ianc

es

Scree plotInertie a priori, par exemple 50%. Doncquel h tel que 1/p

∑hk=1 λk ≈ 0.5

La meilleure representation plane →Plan(1,2)

Recherche de cassure dans le screeplot

Inertie = p (ACP normee) donc la valeurmoyenne de λ = 1

Regle de Karlis-Saporta-Spinaki :

λ > 1 + 2√

p−1n−1

(ici seuil = 1.95)



Analyse directe - nuage des individus en plan factoriel (ici 1,2)

●

●●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

SEBRLECLAYKARPOV

BERNARD

YURKOV

WARNERS

ZSIVOCZKY

McMULLEN

MARTINEAUHERNU

BARRAS

NOOL

BOURGUIGNON

Sebrle

Clay

Karpov

Macey

Warners

Zsivoczky

Hernu

Nool

Bernard

Schwarzl

Pogorelov

Schoenbeck

Barras

Smith

Averyanov

Ojaniemi

Smirnov

Qi

Drews

Parkhomenko

Terek

Gomez

Turi

Lorenzo

Karlivans

Korkizoglou

Uldal

Casarsa

−2

0

2

4

−2.5 0.0 2.5 5.0

Dim1 (32.7%)

Dim

2 (1

7.4%

)

Individuals − PCA

• Sorties de FactoMineR concernantles individus

"$ind$coord"

"$ind$cos2"

"$ind$contrib"

Coordonnees des n individus sur les paxes (→ voir calcul matriciel)Les deux derniers sont des indicateursd’aide a l’interpretation

• Contribution apportee par l’individui sur l’axe k

CTRk (i) =wi (f

ki )2

λk

→ a comparer a wi = 1n

(car ACPnormee)



Analyse directe - nuage des individus en plan factoriel (ici 1,2)

●

●●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

SEBRLECLAYKARPOV

BERNARD

YURKOV

WARNERS

ZSIVOCZKY

McMULLEN

MARTINEAUHERNU

BARRAS

NOOL

BOURGUIGNON

Sebrle

Clay

Karpov

Macey

Warners

Zsivoczky

Hernu

Nool

Bernard

Schwarzl

Pogorelov

Schoenbeck

Barras

Smith

Averyanov

Ojaniemi

Smirnov

Qi

Drews

Parkhomenko

Terek

Gomez

Turi

Lorenzo

Karlivans

Korkizoglou

Uldal

Casarsa

−2

0

2

4

−2.5 0.0 2.5 5.0

Dim1 (32.7%)

Dim

2 (1

7.4%

)

Individuals − PCA

• Qualite de la representation del’individu i sur l’axe k

CO2k (i) =(f ki )2

‖xi.‖2

=(f ki )2∑pk=1(f ki )2

Plus la valeur est proche de 1,meilleure est la qualite derepresentation.

Ce critere n’a pas de signification pour

les individus proches de l’origine.

u1

u2

O

•xi.

f 1i

f 2i

τ



Et les variables ???



Analyse duale - nuage des variables en plan factoriel

On peut montrer l’equivalence entre l’ACP directe et l’ACP duale. Il n’est doncpas necessaire de reiterer l’ensemble des calculs faits precedemment.

Il existe des relations de transition/dualite qui permettent de deduire les axesfactoriels de l’analyse duale a partir de ceux de l’analyse directe.

Dans le cas de l’ACP normee → ACP duale (X ′, Ip,W = 1n In)

Les axes factoriels sont les vecteurs propres de XX ′P → p valeurs propres nonnulles → p axes informatifs



Analyse duale - relations de transition/dualite

Pour l’ACP normee :

Coordonnees des variables sur l’axe k

φk =1

n√λk

X ′f k

Ces coordonnees coıncident avec les correlations entre les variables naturellesx.j et les variables synthetiques f k → φjk = ρ(x.j , f

k)

Comparez les deux commandessuivantes :

res_pca$var$coord[, 1 : 3]

cor(decathlon[, 1 : 10],

res_pca$ind$coord)[, 1 : 3]

Dim.1 Dim.2 Dim.3100m -0.77 0.19 -0.18

Long.jump 0.74 -0.35 0.18Shot.put 0.62 0.60 -0.02

High.jump 0.57 0.35 -0.26400m -0.68 0.57 0.13

110m.hurdle -0.75 0.23 -0.09Discus 0.55 0.61 0.04

Pole.vault 0.05 -0.18 0.69Javeline 0.28 0.32 -0.39

1500m -0.06 0.47 0.78



Analyse duale - nuage des variables en plan factoriel (ici 1,2)Le cercle des correlations est la projection du nuage des variables sur le plan descomposantes principales.

100m

Long.jump

Shot.put

High.jump

400m

110m.hurdle

Discus

Pole.vault

Javeline

1500m

−1.0

−0.5

0.0

0.5

1.0

−1.0 −0.5 0.0 0.5 1.0

Dim1 (32.7%)

Dim

2 (1

7.4%

)

Variables − PCA

Attention a l’interpretation !

si proches du centre du cercle ⇒on ne peut rien dire

si proches des bords du cercle ⇒on peut interpreter

"$var$cos2", "$var$contrib"

egalement disponibles (memesformules que pour les individusen adaptant bien les matrices al’ACP duale)



SEBRLECLAYKARPOV

BERNARD

YURKOV

WARNERS

ZSIVOCZKY

McMULLEN

MARTINEAUHERNU

BARRAS

NOOL

BOURGUIGNON

Sebrle

Clay

Karpov

Macey

Warners

Zsivoczky

Hernu

Nool

Bernard

Schwarzl

Pogorelov

Schoenbeck

Barras

Smith

Averyanov

Ojaniemi

Smirnov

Qi

Drews

Parkhomenko

Terek

Gomez

Turi

Lorenzo

Karlivans

Korkizoglou

Uldal

Casarsa

100m

Long.jump

Shot.put

High.jump

400m

110m.hurdle

Discus

Pole.vault

Javeline

1500m

−2

0

2

4

−2.5 0.0 2.5 5.0

Dim1 (32.7%)

Dim

2 (1

7.4%

)

PCA − Biplot


Sommaire

1 Introduction





Ajout de variables supplementaires

Variables quantitatives :

100m

Long.jump

Shot.put

High.jump

400m

110m.hurdle

Discus

Pole.vault

Javeline

1500m

RankPoints

−1.0

−0.5

0.0

0.5

1.0

−1.0 −0.5 0.0 0.5 1.0

Dim1 (32.7%)

Dim

2 (1

7.4%

)

Variables − PCA

Ces variablessupplementaires nesont donc pas actives.Elles ne participent pasa la construction desaxes. En revanche,elles peuvent aider ales interpreter → cercledes correlations.

Sous FactoMineR

$quanti.sup


Ajout de variables supplementaires

Variables qualitatives :

●

●●

●

●

●

●

●

●●

●

●

●

●

SEBRLECLAYKARPOV

BERNARD

YURKOV

WARNERS

ZSIVOCZKY

McMULLEN

MARTINEAUHERNU

BARRAS

NOOL

BOURGUIGNON

Sebrle

Clay

Karpov

Macey

Warners

Zsivoczky

Hernu

Nool

Bernard

Schwarzl

Pogorelov

Schoenbeck

Barras

Smith

Averyanov

Ojaniemi

Smirnov

Qi

Drews

Parkhomenko

Terek

Gomez

Turi

Lorenzo

Karlivans

Korkizoglou

Uldal

Casarsa

−2

0

2

4

−2.5 0.0 2.5 5.0

Dim1 (32.7%)

Dim

2 (1

7.4%

)

Competition●●a

a

Decastar

OlympicG

Individuals − PCA

L’information de cesvariables peut etreutilisee a titreillustratif. Chaquemodalite de la variablequalitativesupplementaire seplace au barycentre del’ensemble desindividus qui lapossedent → nuagedes individus

Test deFisher-Snedecor

Sous FactoMineR

$quali.sup


Ajout d’individus supplementaires

Individus actifs (wi ) 6= individu supplementaire (poids nul)

●

●●

●

●

●

●

●

●●

●

●

●

●

SEBRLECLAYKARPOV

BERNARD

YURKOV

WARNERS

ZSIVOCZKY

McMULLEN

MARTINEAUHERNU

BARRAS

NOOL

BOURGUIGNON

Sebrle

Clay

Karpov

Macey

Warners

Zsivoczky

Hernu

Nool

Bernard

Schwarzl

Pogorelov

Schoenbeck

Barras

Smith

Averyanov

Ojaniemi

Smirnov

Qi

Drews

Parkhomenko

Terek

Gomez

Turi

Lorenzo

Karlivans

Korkizoglou

Uldal

Casarsa

●

Mayer

−2

0

2

4

−2.5 0.0 2.5 5.0

Dim1 (32.7%)

Dim

2 (1

7.4%

)

Competition●●a

a

Decastar

OlympicG

Individuals − PCA Individus collectesapres coup que l’onaimerait situer parrapport a ceux del’echantillond’apprentissage ;

Observations s’averantatypiques ou tropinfluentes dans l’ACPque l’on a prefereecarter. On veutmaintenant pouvoirjuger de leurpositionnement parrapport aux individusactifs.

Sous FactoMineR

$ind.sup


Marc Bourotte & Romain Chailan...Twin Solutions [email protected] &...

Documents

Transcript of Marc Bourotte & Romain Chailan...Twin Solutions [email protected] &...