L’ANALYSE EN VARIABLES LATENTES
Transcript of L’ANALYSE EN VARIABLES LATENTES
G.Saporta, CNAM, 2006 1
L’ANALYSE ENVARIABLES LATENTES
Une autre manière d’analyser des relations entre variables observées (variables manifestes)Les modèles à variables latentes (ou facteurs) postulent l’existence de variables inobservables directement telles l’intelligence, l’engagement religieux, etc. mais dont on peut mesurer ou observer les effets, comme la fréquentation des lieux de culte, la réussite à certains tests…
G.Saporta, CNAM, 2006 2
Hypothèse fondamentale: les covariations entre variables observées s’expliquent par la dépendance de chaque variable observée avec les variables latentes.
principe d’indépendance conditionnelle : les variables observées sont indépendantes conditionnellement aux variables latentes.
G.Saporta, CNAM, 2006 3
Variables latentes
Variables observées qualitatives quantitatives
qualitatives
Analyse des classes latentes Analyse des traits latents
quantitatives
Analyse des profils latents
Analyse factorielle
G.Saporta, CNAM, 2006 4
BibliographieBartholomew, et D.J.& Knott, M. Latent Variable Models and Factor Analysis , 2nd edition, Arnold, 1999.Everitt, B.S., An Introduction to Latent Variable Models , Chapman & Hall, London, 1984.Hagenaars J.A., McCutcheon A.L. (eds.), Applied latent class analysis, Cambridge University Press, 2002.Lazarsfeld, P.F. et Henri, N.W., Latent Structure Analysis , Houghton Mifflin, Boston, 1968.McCutcheon, A.L, Latent Class Analysis , (Sage University Paper Series on Quantitative Applications in the Social Sciences n°64) , SAGE publications, 1987.
G.Saporta, CNAM, 2006 5
Logiciels et sites Web:logiciel gratuit " lvmfa2 " (cf.Bartholomew & Knott) : http://www.arnoldpublishers.com/support/lvmfa2.htmlogiciel gratuit “LEM” par J.K.Vermunt de l'Université de Tilburg http://cwis.kub.nl/~fsw_1/mto/mto_snw.htm#softwarelogiciel " Latent Gold " distribué par Statistical Innovations: http://www.statisticalinnovations.com/products/latentgold_v4.html" Latent Class Analysis Website ", par John Uebersax : http://ourworld.compuserve.com/homepages/jsuebersax/
G.Saporta, CNAM, 2006 6
A. L’analyse factorielle« Factor analysis » ou analyse en facteurs communs et spécifiquesCharles Spearman (1901) : modèle unifactoriel
f facteur commun, ui facteur spécifique, λisaturation ou « factor loading »
1,...i i ix f u i pλ= + =
G.Saporta, CNAM, 2006 7
ExempleCorrélation entre résultats scolaires Classics, english, french
1 1
2 2
3 3
0.9831 0.83 0.780.83 1 0.67 0.8440.78 0.67 1 0.794
x f uR x f u
x f u
= +⎧⎛ ⎞⎪⎜ ⎟= = +⎨⎜ ⎟⎪⎜ ⎟ = +⎝ ⎠ ⎩
G.Saporta, CNAM, 2006 8
Thurstone: modèle plurifactoriel , k facteurs
Modèle de régression multiple multilinéaire sur variables inobservablesHypothèses :
xi centrés (réduits)fj centrés réduits indépendants entre euxui centrés indépendants entre eux V(ui)=ψi
ui indépendants des fj
1
1,...k
i i j j ij
x f u i pλ=
= + =∑
G.Saporta, CNAM, 2006 9
Formulation matricielle
Décomposition de la variance
Communauté + spécificité
= +x Λf u
2 2 2
1( )
k
i i ij i i ij
V x hσ λ ψ ψ=
= = + = +∑
'Σ = ΛΛ +Ψ
G.Saporta, CNAM, 2006 10
Indépendance conditionnelle
Matrice de variance des manifestes et des facteurs
( ) 111 1211/ 2 11 12 22 21
21 22
'
−
⎛ ⎞⎜ ⎟⎝ ⎠
⎛ ⎞= −⎜ ⎟
⎝ ⎠
= − =x/f
Σ ΛΛ' I
Σ ΣΣ Σ Σ Σ Σ
Σ Σ
Σ Σ ΛΛ Ψ Matrice diagonale: l’AF expliqueles corrélations
G.Saporta, CNAM, 2006 11
Indétermination des facteurs
Modèle surparamétréInvariance par transformation orthogonale
Contrainte mathématique:
= + = +
=' '
x Λf u ΛGG'f uΣ = ΛΛ +Ψ ΛGG'Λ +Ψ
diagonale-1Λ'Ψ Λ
G.Saporta, CNAM, 2006 12
Degré de liberté
Nombre d’équations p(p+1)/2Nombre de contraintes k(k-1)/2Nombre d’inconnues pk+p
S=0 solution unique mais..S<0 indéterminationS>0 plus d’équations que d’inconnues: le cas utile! Représentation parcimonieuse
'Σ = ΛΛ +Ψ-1Λ'Ψ Λ
et ij iλ ψ
( ) ( )2( 1) ( 1) 1( 1)2 2 2
p p k ks p k p k p k+ − ⎡ ⎤= + − + = − − +⎣ ⎦
G.Saporta, CNAM, 2006 13
S=0 solution artificielle , Ψi peut être négatifCas exacts:P=3 k=1P=6 k=3P=10 k=6P=15 k=10P=21 k=15…
G.Saporta, CNAM, 2006 14
Estimation
Méthode des facteurs principaux1ère estimation des
par D’où estimation de Ψ
Diagonalisation de R- Ψ Matrice de corrélation réduite
Rééstimation de Ψ etc.
2 21i i ijj
h ψ λ= − =∑( ) ( )2 2
1 1 1 1; ,.., , ,.. ; ,..,i i i i kR x x x x R x f f− + ∼
R -Ψ ΛΛ'
G.Saporta, CNAM, 2006 15
Estimation (2)
Maximum de vraisemblance
-2ln(L)~χ2s
G.Saporta, CNAM, 2006 16
Rotation des facteurs
Indétermination: GG’=I Δ=ΛGRecherche de « structures simples »
Chaque variable corrélée avec peu de facteursChaque facteur avec peu de variables
Rotation « varimax »Maximise la somme des variances des carrés des saturations intra-colonnes, normalisée par la communauté
2
21
pij
ji i
Vhδ
=
⎛ ⎞⎜ ⎟⎜ ⎟⎝ ⎠
∑
G.Saporta, CNAM, 2006 17
Nombreuses autres méthodesOrthogonales: quartimax, orthomax, parsimaxObliques: biquartimin, oblimin, quartimin …
fournit des facteurs corrélés après rotation.« Oblique rotations often produce more useful
patterns than do orthogonal rotations. However, a consequence of correlated factors is that there is no single unambiguous measure of the importance of a factor in explaining a variable »
G.Saporta, CNAM, 2006 18
Estimation des scores
f coefficients d’un modèle linéaire!Scores de Bartlett
Moindres carrés généralisés
Scores de Thompson (approche bayesienne)Loi conditionnelle de x/f: Np(Λf,ψ)Loi a priori de f: Nk(0;I)Espérance de f a posteriori
x = Λf + u
( )ˆ -1-1 -1f = Λ'Ψ Λ Λ'Ψ x
( )ˆ -1-1 -1f = I +Λ'Ψ Λ Λ'Ψ x
G.Saporta, CNAM, 2006 19
proc factor data=bagnole method=principal nfactors=2 priors=smc preplotrotate=varimax reorder plot ;
var CYL PUIS LON LAR POIDS VITESSE;
run;
G.Saporta, CNAM, 2006 20
G.Saporta, CNAM, 2006 21
G.Saporta, CNAM, 2006 22
G.Saporta, CNAM, 2006 23
B. Les classes latentesLazarsfeld (1950): équivalent de l’analyse factorielle dans le cas entièrement qualitatif : les p variables observées sont qualitatives (souvent dichotomiques) et on postule l’existence d’une variable latente également qualitative à kmodalités (les classes latentes).Une méthode de classification où les classes sont telles que les variables observées sont indépendantes dans chaque classeUn modèle particulier de mélange de distributions.
G.Saporta, CNAM, 2006 24
I. le modèle théorique dans le cas dichotomique
p variables observées dichotomiques X1, X2,..,Xp prenant des valeurs 0 ou 1Y variable latente à k classes,
pij la probabilité que Xi=1 pour un individu de la classe latente j . πj probabilité a priori d’appartenir à la classe latente j
G.Saporta, CNAM, 2006 25
Hypothèse d’indépendance conditionnelle:
probabilité a posteriori qu’un individu de vecteur x appartienne à la classe latente j
1
1 1
( ) (1 )i i
pkx x
j ij ijj i
f x p pπ −
= =
= −∑ ∏
1
1
( / x) (1 ) / (x)i i
px x
j ij iji
h j p p fπ −
=
= −∏
G.Saporta, CNAM, 2006 26
II L’estimation des paramètresmaximum de vraisemblance avec EM:
1
1 1 1
ln (1 )ih ih
pn kx x
j ij ijh j i
l p pπ −
= = =
⎛ ⎞= −⎜ ⎟⎜ ⎟
⎝ ⎠∑ ∑ ∏
G.Saporta, CNAM, 2006 27
1k
jj i
π=
=∑k
jj i
lφ λ π=
= + ∑
1 hh
h1 11
(x / )(1 ) / (x )(x )
ih ih
pn nx xij ij
j h hi
g jp p ff
φ λ λπ
−
= ==
⎛ ⎞∂= − + = +⎜ ⎟⎜ ⎟∂ ⎝ ⎠∑ ∑∏
hh
1
(x / ) / (x )n
jij ijh
g j fp pφ π
=
∂ ∂=
∂ ∂∑
( )h
1
h h
(x / ) exp( ln( ) (1 ) ln(1 )
1(x / ) ( ) (x / ) / (1 )1
p
ih ij ih ijij ij i
ih ihih ij ij ij
ij ij
g j x p x pp p
x xg j x p g j p pp p
=
∂ ∂= + − − =
∂ ∂
⎧ ⎫−⎪ ⎪− = − −⎨ ⎬−⎪ ⎪⎩ ⎭
∑
G.Saporta, CNAM, 2006 28
D’où:
en introduisant les probabilités a posteriori :
en annulant les dérivées :
( ) h h1
/ (1 ) ( ) (x / ) / (x )n
j ij ij ih ijij h
p p x p g j fpφ π
=
∂= − −
∂ ∑
h h h( / x ) (x / ) / (x )jh j g j fπ=
h1
( / x )n
jh
h j λπ=
= −∑
h1
( ) (x / ) / (1 ) 0n
ih ij ij ijh
x p h j p p=
− − =∑
G.Saporta, CNAM, 2006 29
h1
ˆ ( / x ) /n
jh
h j nπ=
=∑
1
1
( / x) (1 ) / (x)i i
px x
j ij iji
h j p p fπ −
=
= −∏
h1
ˆ ( / x ) /n
jh
h j nπ=
=∑
h1
ˆ ˆ( / x ) /n
ij ih jh
p x h j nπ=
=∑
G.Saporta, CNAM, 2006 30
III Ajustement et choix de modèlesLe test du G2
nombre de paramètres à estimer:k – 1 probabilités πj et kp probabilités conditionnelles pij
= k(p+1) – 1 paramètres.
2 (x)2 (x) ln( )ˆ (x)x
nG nnf
= ∑
G.Saporta, CNAM, 2006 31
G2 est à comparer à un khi-deux àν=2p – k(p+1) + 1 degrés de liberté
Tests d’hypothèses emboîtées sur kEn général si p est grand, les 2p réponses possibles ont des effectifs insuffisants voire nuls: loi du khi-deux inappliquable. Simulations, ou bootstrap pour la loi de G2
G.Saporta, CNAM, 2006 32
Critères AIC d’Akaïké, ou BIC de Schwartz :AIC= - 2ln(L) + 2(k(p+1) – 1)BIC= - 2ln(L) + ln(n).(k(p+1) – 1)
vraisemblance pénalisée
recherche de modèles parcimonieux, minimisant AIC ou BIC
G.Saporta, CNAM, 2006 33
IV Exemple (Bartholomew et Knott)enquête sur les Attitudes Sociales Britanniques faite en 1990, concernant 1077 répondants avec 10 questions binaires d’opinions sur les attitudes sexuelles.Sur les 1024 possibilités de réponse, seules 147 ont été observées:
1 90 0110011100 2 11 0110011000 3 9 0110111000 4 117 0110000000 5 18 0100000100 6 93 0100000000 7 19 0111111100 8 35 0010000000 9 21 0110001100 10 6 0111111110
G.Saporta, CNAM, 2006 34
X1 Devrait-on rendre le divorce plus facile ?X2 Est ce que vous soutenez les lois contre la discrimination sexuelle ?X3 Opinion sur le sexe prénuptial : pas du tout opposé…… toujours opposé.X4 Opinion sur le sexe extra- maritalX5 Opinion sur les relations sexuelles entre personnes de même sexe .X6 Doit-on permettre aux homosexuels d’enseigner dans les écoles ?X7 Doit-on permettre aux homosexuels d’enseigner dans l’enseignement supérieur ?X8 Doit -on permettre aux homosexuels d’occuper des fonctions officielles ?X9 Un couple de lesbiennes devrait–il avoir le droit d’adopter des enfants ?X10 Un couple d’homosexuels mâles devrait–il avoir le droit d’adopter des enfants ?
G.Saporta, CNAM, 2006 35
Nb. de classes AIC BIC2 9328 94323 8946 91054 8850 90645 8852 9121
1π̂ =0.4611 2π̂ =0.0139 3π̂ =0.4169 4π̂ =0.1081
G.Saporta, CNAM, 2006 36
estimations des probabilités de donner la réponse oui(1) à chacune des 10 questions , conditionnellement aux classes latentes.
classe 1 classe 2 classe 3 classe 4X1 0.1360 0.0667 0.0947 0.2144X2 0.7656 0.6000 0.8712 0.9246X3 0.6319 0.8667 0.8620 0.9635X4 0.0822 0.2667 0.1319 0.3089X5 0.0681 0.6000 0.3822 0.8299X6 0.0081 0.0000 0.8721 1.0000X7 0.0589 0.2000 0.9829 1.0000X8 0.2077 0.2667 0.9141 1.0000X9 0.0463 1.0000 0.1071 0.9790X10 0.0000 1.0000 0.0000 0.8505
la classe 1 est non-permissive, la classe 2 (de très faible effectif) se distingue par une grandepermissivité pour l’adoption par des homosexuels mais est très négative sur les items 6, 7 et 8.La classe 3 est permissive sur tout sauf l’adoption, la classe 4 est permissive à peu près surtous les items.
G.Saporta, CNAM, 2006 37
OBS.FREQ. E(FREQ) LAT. CLASS RESPONSE VECTOR
90 114.608 3 0110011100 11 10.825 3 0110011000 9 6.661 3 0110111000 117 125.255 1 0110000000 18 19.173 1 0100000100 93 72.966 1 0100000000 19 10.831 3 0111111100 35 38.337 1 0010000000 21 18.862 3 0110001100 6 4.348 4 0111111110 14 16.949 3 0010011100 1 2.737 3 0111001100 2 0.315 3 0111001110 15 11.223 1 0111000000 11 9.161 1 0110100000 1 1.583 3 0010101100 3 1.549 3 0110101000 32 18.344 3 0100011100 1 0.142 1 1011000100 27 33.119 1 0110000100 8 7.973 4 0110011111 95 71.011 3 0110111100 7 3.887 3 0100001100 40 38.911 4 0110111111 2 2.252 3 0100011110 13 15.139 3 0110011110
G.Saporta, CNAM, 2006 38
Comparaison avec une classification classique
G.Saporta, CNAM, 2006 39
Comparaison avec une classification classique
ACM, classification hiérarchique (Ward), coupure en 4 classes et nuées dynamiques
|CLASSE HIER. 1|CLASSE HIER. 2|CLASSE HIER. 3|CLASSE HIER. 4| ENSEMBLE | | | | | | | | | |---------------------+--------------+--------------+--------------+--------------+-------------- | 3 | 0 | 67 | 421 | 491CLASSE LAT. 1 |---------------------+--------------+--------------+--------------+--------------+-------------- | 0 | 14 | 0 | 1 | 15CLASSE LAT. 2 |---------------------+--------------+--------------+--------------+--------------+-------------- | 419 | 0 | 42 | 0 | 461CLASSE LAT. 3 |---------------------+--------------+--------------+--------------+------- ------+-------------- | 6 | 99 | 5 | 0 | 110CLASSE LAT. 4 |---------------------+--------------+--------------+--------------+--------------+-------------- | 428 | 113 | 114 | 422 | 1077ENSEMBLE |------------------------------------------------------------------------------------------------
G.Saporta, CNAM, 2006 40
“Latent trait models” , “ item response theory ”Recherche de variables latentes continuesconditionnellement à un vecteur y de q variables latentes, les p variables manifestes (en général dichotomiques) sont des Bernoulli indépendantes.
C. Traits latents
( 1) (y)i iP x π= = 01
(y)ln( )1 (y)
qi
i ij ji j
yπ α απ =
= +− ∑
G.Saporta, CNAM, 2006 41
modèle “ logit-probit ” si la distribution a priori de y est multinormale centrée réduiteLe modèle de Rasch est celui où q=1 (une seule variable latente) avec des pentes αij toutes égales.Les αij s ’interpretent comme des scores pour les catégories des variables manifestes.Bartholomew a montré que les scores obtenus par l’ACM sont une approximation au premier ordre des αij . Voir Aitkin et al. (RSA 1987,3,53-82)
G.Saporta, CNAM, 2006 42
Sortie partielle du modèle à deux facteurs
POSTERIOR ANALYSIS:
OBS EXPECT E(Z1/X) SD1 E(Z2/X) SD2 +RESP RESPONSE PATTERN
29 27.8 -1.33 0.74 -0.74 0.85 0 000000000093 75.6 -1.27 0.71 -0.48 0.81 1 01000000005 3.4 -1.12 0.72 -1.00 0.85 1 10000000009 8.7 -1.05 0.70 -0.75 0.81 2 11000000003 1.5 -0.91 0.69 -0.96 0.81 1 0001000000
18 13.7 -0.90 0.63 -0.01 0.66 2 0100000100
3 2.2 1.66 0.44 -0.38 0.77 8 01110111112 0.1 1.69 0.44 -0.79 0.69 8 10110111111 0.7 1.86 0.45 -0.36 0.81 8 1010111111
40 27.9 1.86 0.44 0.19 0.89 8 011011111112 6.4 1.92 0.45 -0.03 0.87 9 11101111111 1.6 1.96 0.46 -0.23 0.85 8 0011111111
18 16.5 2.03 0.48 0.13 0.90 9 01111111115 4.1 2.10 0.50 -0.11 0.88 10 1111111111
G.Saporta, CNAM, 2006 43
ACM
HISTOGRAMME DES 10 PREMIERES VALEURS PROPRES+--------+------------+----------+----------+----------------------------------------------------------------------------------+| NUMERO | VALEUR | POURCENT.| POURCENT.| || | PROPRE | | CUMULE | |+--------+------------+----------+----------+----------------------------------------------------------------------------------+| 1 | 0.3384 | 33.84 | 33.84 | ******************************************************************************** || 2 | 0.1425 | 14.25 | 48.09 | ********************************** || 3 | 0.1085 | 10.85 | 58.94 | ************************** || 4 | 0.1005 | 10.05 | 68.99 | ************************ || 5 | 0.0874 | 8.74 | 77.73 | ********************* || 6 | 0.0787 | 7.87 | 85.61 | ******************* || 7 | 0.0617 | 6.17 | 91.77 | *************** || 8 | 0.0366 | 3.66 | 95.44 | ********* || 9 | 0.0287 | 2.87 | 98.31 | ******* || 10 | 0.0169 | 1.69 | 100.00 | **** |+--------+------------+----------+----------+----------------------------------------------------------------------------------+
G.Saporta, CNAM, 2006 44
Corrélation de 0.934 entre E(Z1/X) et le premier facteur de l’ACM.
E(Z1/X)
FAC
TEU
R1
-1.4 -0.4 0.6 1.6 2.6-0.9
-0.5
-0.1
0.3
0.7
1.1
1.5
G.Saporta, CNAM, 2006 45
ConclusionPeu enseignés en France, les modèles à variables latentes méritent une attention particulière et peuvent être des compléments à des analyses plus classiques. Optique exploratoire ou confirmatoire.Les résultats d ’ACM ou de classification peuvent servir d ’initialisation aux modèles à variables latentes, Mêmes critiques que celles adressées à l’analyse factorielle vis à vis des méthodes de type ACP : problèmes d’identification, d’existence des variables latentes, de convergence des algorithmes...