L’ANALYSE EN VARIABLES LATENTES

45
G.Saporta, CNAM, 2006 1 L’ANALYSE EN VARIABLES LATENTES Une autre manière d’analyser des relations entre variables observées (variables manifestes) Les modèles à variables latentes (ou facteurs) postulent l’existence de variables inobservables directement telles l’intelligence, l’engagement religieux, etc. mais dont on peut mesurer ou observer les effets, comme la fréquentation des lieux de culte, la réussite à certains tests…

Transcript of L’ANALYSE EN VARIABLES LATENTES

Page 1: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 1

L’ANALYSE ENVARIABLES LATENTES

Une autre manière d’analyser des relations entre variables observées (variables manifestes)Les modèles à variables latentes (ou facteurs) postulent l’existence de variables inobservables directement telles l’intelligence, l’engagement religieux, etc. mais dont on peut mesurer ou observer les effets, comme la fréquentation des lieux de culte, la réussite à certains tests…

Page 2: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 2

Hypothèse fondamentale: les covariations entre variables observées s’expliquent par la dépendance de chaque variable observée avec les variables latentes.

principe d’indépendance conditionnelle : les variables observées sont indépendantes conditionnellement aux variables latentes.

Page 3: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 3

Variables latentes

Variables observées qualitatives quantitatives

qualitatives

Analyse des classes latentes Analyse des traits latents

quantitatives

Analyse des profils latents

Analyse factorielle

Page 4: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 4

BibliographieBartholomew, et D.J.& Knott, M. Latent Variable Models and Factor Analysis , 2nd edition, Arnold, 1999.Everitt, B.S., An Introduction to Latent Variable Models , Chapman & Hall, London, 1984.Hagenaars J.A., McCutcheon A.L. (eds.), Applied latent class analysis, Cambridge University Press, 2002.Lazarsfeld, P.F. et Henri, N.W., Latent Structure Analysis , Houghton Mifflin, Boston, 1968.McCutcheon, A.L, Latent Class Analysis , (Sage University Paper Series on Quantitative Applications in the Social Sciences n°64) , SAGE publications, 1987.

Page 5: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 5

Logiciels et sites Web:logiciel gratuit " lvmfa2 " (cf.Bartholomew & Knott) : http://www.arnoldpublishers.com/support/lvmfa2.htmlogiciel gratuit “LEM” par J.K.Vermunt de l'Université de Tilburg http://cwis.kub.nl/~fsw_1/mto/mto_snw.htm#softwarelogiciel " Latent Gold " distribué par Statistical Innovations: http://www.statisticalinnovations.com/products/latentgold_v4.html" Latent Class Analysis Website ", par John Uebersax : http://ourworld.compuserve.com/homepages/jsuebersax/

Page 6: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 6

A. L’analyse factorielle« Factor analysis » ou analyse en facteurs communs et spécifiquesCharles Spearman (1901) : modèle unifactoriel

f facteur commun, ui facteur spécifique, λisaturation ou « factor loading »

1,...i i ix f u i pλ= + =

Page 7: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 7

ExempleCorrélation entre résultats scolaires Classics, english, french

1 1

2 2

3 3

0.9831 0.83 0.780.83 1 0.67 0.8440.78 0.67 1 0.794

x f uR x f u

x f u

= +⎧⎛ ⎞⎪⎜ ⎟= = +⎨⎜ ⎟⎪⎜ ⎟ = +⎝ ⎠ ⎩

Page 8: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 8

Thurstone: modèle plurifactoriel , k facteurs

Modèle de régression multiple multilinéaire sur variables inobservablesHypothèses :

xi centrés (réduits)fj centrés réduits indépendants entre euxui centrés indépendants entre eux V(ui)=ψi

ui indépendants des fj

1

1,...k

i i j j ij

x f u i pλ=

= + =∑

Page 9: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 9

Formulation matricielle

Décomposition de la variance

Communauté + spécificité

= +x Λf u

2 2 2

1( )

k

i i ij i i ij

V x hσ λ ψ ψ=

= = + = +∑

'Σ = ΛΛ +Ψ

Page 10: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 10

Indépendance conditionnelle

Matrice de variance des manifestes et des facteurs

( ) 111 1211/ 2 11 12 22 21

21 22

'

⎛ ⎞⎜ ⎟⎝ ⎠

⎛ ⎞= −⎜ ⎟

⎝ ⎠

= − =x/f

Σ ΛΛ' I

Σ ΣΣ Σ Σ Σ Σ

Σ Σ

Σ Σ ΛΛ Ψ Matrice diagonale: l’AF expliqueles corrélations

Page 11: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 11

Indétermination des facteurs

Modèle surparamétréInvariance par transformation orthogonale

Contrainte mathématique:

= + = +

=' '

x Λf u ΛGG'f uΣ = ΛΛ +Ψ ΛGG'Λ +Ψ

diagonale-1Λ'Ψ Λ

Page 12: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 12

Degré de liberté

Nombre d’équations p(p+1)/2Nombre de contraintes k(k-1)/2Nombre d’inconnues pk+p

S=0 solution unique mais..S<0 indéterminationS>0 plus d’équations que d’inconnues: le cas utile! Représentation parcimonieuse

'Σ = ΛΛ +Ψ-1Λ'Ψ Λ

et ij iλ ψ

( ) ( )2( 1) ( 1) 1( 1)2 2 2

p p k ks p k p k p k+ − ⎡ ⎤= + − + = − − +⎣ ⎦

Page 13: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 13

S=0 solution artificielle , Ψi peut être négatifCas exacts:P=3 k=1P=6 k=3P=10 k=6P=15 k=10P=21 k=15…

Page 14: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 14

Estimation

Méthode des facteurs principaux1ère estimation des

par D’où estimation de Ψ

Diagonalisation de R- Ψ Matrice de corrélation réduite

Rééstimation de Ψ etc.

2 21i i ijj

h ψ λ= − =∑( ) ( )2 2

1 1 1 1; ,.., , ,.. ; ,..,i i i i kR x x x x R x f f− + ∼

R -Ψ ΛΛ'

Page 15: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 15

Estimation (2)

Maximum de vraisemblance

-2ln(L)~χ2s

Page 16: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 16

Rotation des facteurs

Indétermination: GG’=I Δ=ΛGRecherche de « structures simples »

Chaque variable corrélée avec peu de facteursChaque facteur avec peu de variables

Rotation « varimax »Maximise la somme des variances des carrés des saturations intra-colonnes, normalisée par la communauté

2

21

pij

ji i

Vhδ

=

⎛ ⎞⎜ ⎟⎜ ⎟⎝ ⎠

Page 17: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 17

Nombreuses autres méthodesOrthogonales: quartimax, orthomax, parsimaxObliques: biquartimin, oblimin, quartimin …

fournit des facteurs corrélés après rotation.« Oblique rotations often produce more useful

patterns than do orthogonal rotations. However, a consequence of correlated factors is that there is no single unambiguous measure of the importance of a factor in explaining a variable »

Page 18: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 18

Estimation des scores

f coefficients d’un modèle linéaire!Scores de Bartlett

Moindres carrés généralisés

Scores de Thompson (approche bayesienne)Loi conditionnelle de x/f: Np(Λf,ψ)Loi a priori de f: Nk(0;I)Espérance de f a posteriori

x = Λf + u

( )ˆ -1-1 -1f = Λ'Ψ Λ Λ'Ψ x

( )ˆ -1-1 -1f = I +Λ'Ψ Λ Λ'Ψ x

Page 19: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 19

proc factor data=bagnole method=principal nfactors=2 priors=smc preplotrotate=varimax reorder plot ;

var CYL PUIS LON LAR POIDS VITESSE;

run;

Page 20: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 20

Page 21: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 21

Page 22: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 22

Page 23: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 23

B. Les classes latentesLazarsfeld (1950): équivalent de l’analyse factorielle dans le cas entièrement qualitatif : les p variables observées sont qualitatives (souvent dichotomiques) et on postule l’existence d’une variable latente également qualitative à kmodalités (les classes latentes).Une méthode de classification où les classes sont telles que les variables observées sont indépendantes dans chaque classeUn modèle particulier de mélange de distributions.

Page 24: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 24

I. le modèle théorique dans le cas dichotomique

p variables observées dichotomiques X1, X2,..,Xp prenant des valeurs 0 ou 1Y variable latente à k classes,

pij la probabilité que Xi=1 pour un individu de la classe latente j . πj probabilité a priori d’appartenir à la classe latente j

Page 25: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 25

Hypothèse d’indépendance conditionnelle:

probabilité a posteriori qu’un individu de vecteur x appartienne à la classe latente j

1

1 1

( ) (1 )i i

pkx x

j ij ijj i

f x p pπ −

= =

= −∑ ∏

1

1

( / x) (1 ) / (x)i i

px x

j ij iji

h j p p fπ −

=

= −∏

Page 26: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 26

II L’estimation des paramètresmaximum de vraisemblance avec EM:

1

1 1 1

ln (1 )ih ih

pn kx x

j ij ijh j i

l p pπ −

= = =

⎛ ⎞= −⎜ ⎟⎜ ⎟

⎝ ⎠∑ ∑ ∏

Page 27: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 27

1k

jj i

π=

=∑k

jj i

lφ λ π=

= + ∑

1 hh

h1 11

(x / )(1 ) / (x )(x )

ih ih

pn nx xij ij

j h hi

g jp p ff

φ λ λπ

= ==

⎛ ⎞∂= − + = +⎜ ⎟⎜ ⎟∂ ⎝ ⎠∑ ∑∏

hh

1

(x / ) / (x )n

jij ijh

g j fp pφ π

=

∂ ∂=

∂ ∂∑

( )h

1

h h

(x / ) exp( ln( ) (1 ) ln(1 )

1(x / ) ( ) (x / ) / (1 )1

p

ih ij ih ijij ij i

ih ihih ij ij ij

ij ij

g j x p x pp p

x xg j x p g j p pp p

=

∂ ∂= + − − =

∂ ∂

⎧ ⎫−⎪ ⎪− = − −⎨ ⎬−⎪ ⎪⎩ ⎭

Page 28: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 28

D’où:

en introduisant les probabilités a posteriori :

en annulant les dérivées :

( ) h h1

/ (1 ) ( ) (x / ) / (x )n

j ij ij ih ijij h

p p x p g j fpφ π

=

∂= − −

∂ ∑

h h h( / x ) (x / ) / (x )jh j g j fπ=

h1

( / x )n

jh

h j λπ=

= −∑

h1

( ) (x / ) / (1 ) 0n

ih ij ij ijh

x p h j p p=

− − =∑

Page 29: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 29

h1

ˆ ( / x ) /n

jh

h j nπ=

=∑

1

1

( / x) (1 ) / (x)i i

px x

j ij iji

h j p p fπ −

=

= −∏

h1

ˆ ( / x ) /n

jh

h j nπ=

=∑

h1

ˆ ˆ( / x ) /n

ij ih jh

p x h j nπ=

=∑

Page 30: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 30

III Ajustement et choix de modèlesLe test du G2

nombre de paramètres à estimer:k – 1 probabilités πj et kp probabilités conditionnelles pij

= k(p+1) – 1 paramètres.

2 (x)2 (x) ln( )ˆ (x)x

nG nnf

= ∑

Page 31: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 31

G2 est à comparer à un khi-deux àν=2p – k(p+1) + 1 degrés de liberté

Tests d’hypothèses emboîtées sur kEn général si p est grand, les 2p réponses possibles ont des effectifs insuffisants voire nuls: loi du khi-deux inappliquable. Simulations, ou bootstrap pour la loi de G2

Page 32: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 32

Critères AIC d’Akaïké, ou BIC de Schwartz :AIC= - 2ln(L) + 2(k(p+1) – 1)BIC= - 2ln(L) + ln(n).(k(p+1) – 1)

vraisemblance pénalisée

recherche de modèles parcimonieux, minimisant AIC ou BIC

Page 33: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 33

IV Exemple (Bartholomew et Knott)enquête sur les Attitudes Sociales Britanniques faite en 1990, concernant 1077 répondants avec 10 questions binaires d’opinions sur les attitudes sexuelles.Sur les 1024 possibilités de réponse, seules 147 ont été observées:

1 90 0110011100 2 11 0110011000 3 9 0110111000 4 117 0110000000 5 18 0100000100 6 93 0100000000 7 19 0111111100 8 35 0010000000 9 21 0110001100 10 6 0111111110

Page 34: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 34

X1 Devrait-on rendre le divorce plus facile ?X2 Est ce que vous soutenez les lois contre la discrimination sexuelle ?X3 Opinion sur le sexe prénuptial : pas du tout opposé…… toujours opposé.X4 Opinion sur le sexe extra- maritalX5 Opinion sur les relations sexuelles entre personnes de même sexe .X6 Doit-on permettre aux homosexuels d’enseigner dans les écoles ?X7 Doit-on permettre aux homosexuels d’enseigner dans l’enseignement supérieur ?X8 Doit -on permettre aux homosexuels d’occuper des fonctions officielles ?X9 Un couple de lesbiennes devrait–il avoir le droit d’adopter des enfants ?X10 Un couple d’homosexuels mâles devrait–il avoir le droit d’adopter des enfants ?

Page 35: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 35

Nb. de classes AIC BIC2 9328 94323 8946 91054 8850 90645 8852 9121

1π̂ =0.4611 2π̂ =0.0139 3π̂ =0.4169 4π̂ =0.1081

Page 36: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 36

estimations des probabilités de donner la réponse oui(1) à chacune des 10 questions , conditionnellement aux classes latentes.

classe 1 classe 2 classe 3 classe 4X1 0.1360 0.0667 0.0947 0.2144X2 0.7656 0.6000 0.8712 0.9246X3 0.6319 0.8667 0.8620 0.9635X4 0.0822 0.2667 0.1319 0.3089X5 0.0681 0.6000 0.3822 0.8299X6 0.0081 0.0000 0.8721 1.0000X7 0.0589 0.2000 0.9829 1.0000X8 0.2077 0.2667 0.9141 1.0000X9 0.0463 1.0000 0.1071 0.9790X10 0.0000 1.0000 0.0000 0.8505

la classe 1 est non-permissive, la classe 2 (de très faible effectif) se distingue par une grandepermissivité pour l’adoption par des homosexuels mais est très négative sur les items 6, 7 et 8.La classe 3 est permissive sur tout sauf l’adoption, la classe 4 est permissive à peu près surtous les items.

Page 37: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 37

OBS.FREQ. E(FREQ) LAT. CLASS RESPONSE VECTOR

90 114.608 3 0110011100 11 10.825 3 0110011000 9 6.661 3 0110111000 117 125.255 1 0110000000 18 19.173 1 0100000100 93 72.966 1 0100000000 19 10.831 3 0111111100 35 38.337 1 0010000000 21 18.862 3 0110001100 6 4.348 4 0111111110 14 16.949 3 0010011100 1 2.737 3 0111001100 2 0.315 3 0111001110 15 11.223 1 0111000000 11 9.161 1 0110100000 1 1.583 3 0010101100 3 1.549 3 0110101000 32 18.344 3 0100011100 1 0.142 1 1011000100 27 33.119 1 0110000100 8 7.973 4 0110011111 95 71.011 3 0110111100 7 3.887 3 0100001100 40 38.911 4 0110111111 2 2.252 3 0100011110 13 15.139 3 0110011110

Page 38: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 38

Comparaison avec une classification classique

Page 39: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 39

Comparaison avec une classification classique

ACM, classification hiérarchique (Ward), coupure en 4 classes et nuées dynamiques

|CLASSE HIER. 1|CLASSE HIER. 2|CLASSE HIER. 3|CLASSE HIER. 4| ENSEMBLE | | | | | | | | | |---------------------+--------------+--------------+--------------+--------------+-------------- | 3 | 0 | 67 | 421 | 491CLASSE LAT. 1 |---------------------+--------------+--------------+--------------+--------------+-------------- | 0 | 14 | 0 | 1 | 15CLASSE LAT. 2 |---------------------+--------------+--------------+--------------+--------------+-------------- | 419 | 0 | 42 | 0 | 461CLASSE LAT. 3 |---------------------+--------------+--------------+--------------+------- ------+-------------- | 6 | 99 | 5 | 0 | 110CLASSE LAT. 4 |---------------------+--------------+--------------+--------------+--------------+-------------- | 428 | 113 | 114 | 422 | 1077ENSEMBLE |------------------------------------------------------------------------------------------------

Page 40: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 40

“Latent trait models” , “ item response theory ”Recherche de variables latentes continuesconditionnellement à un vecteur y de q variables latentes, les p variables manifestes (en général dichotomiques) sont des Bernoulli indépendantes.

C. Traits latents

( 1) (y)i iP x π= = 01

(y)ln( )1 (y)

qi

i ij ji j

yπ α απ =

= +− ∑

Page 41: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 41

modèle “ logit-probit ” si la distribution a priori de y est multinormale centrée réduiteLe modèle de Rasch est celui où q=1 (une seule variable latente) avec des pentes αij toutes égales.Les αij s ’interpretent comme des scores pour les catégories des variables manifestes.Bartholomew a montré que les scores obtenus par l’ACM sont une approximation au premier ordre des αij . Voir Aitkin et al. (RSA 1987,3,53-82)

Page 42: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 42

Sortie partielle du modèle à deux facteurs

POSTERIOR ANALYSIS:

OBS EXPECT E(Z1/X) SD1 E(Z2/X) SD2 +RESP RESPONSE PATTERN

29 27.8 -1.33 0.74 -0.74 0.85 0 000000000093 75.6 -1.27 0.71 -0.48 0.81 1 01000000005 3.4 -1.12 0.72 -1.00 0.85 1 10000000009 8.7 -1.05 0.70 -0.75 0.81 2 11000000003 1.5 -0.91 0.69 -0.96 0.81 1 0001000000

18 13.7 -0.90 0.63 -0.01 0.66 2 0100000100

3 2.2 1.66 0.44 -0.38 0.77 8 01110111112 0.1 1.69 0.44 -0.79 0.69 8 10110111111 0.7 1.86 0.45 -0.36 0.81 8 1010111111

40 27.9 1.86 0.44 0.19 0.89 8 011011111112 6.4 1.92 0.45 -0.03 0.87 9 11101111111 1.6 1.96 0.46 -0.23 0.85 8 0011111111

18 16.5 2.03 0.48 0.13 0.90 9 01111111115 4.1 2.10 0.50 -0.11 0.88 10 1111111111

Page 43: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 43

ACM

HISTOGRAMME DES 10 PREMIERES VALEURS PROPRES+--------+------------+----------+----------+----------------------------------------------------------------------------------+| NUMERO | VALEUR | POURCENT.| POURCENT.| || | PROPRE | | CUMULE | |+--------+------------+----------+----------+----------------------------------------------------------------------------------+| 1 | 0.3384 | 33.84 | 33.84 | ******************************************************************************** || 2 | 0.1425 | 14.25 | 48.09 | ********************************** || 3 | 0.1085 | 10.85 | 58.94 | ************************** || 4 | 0.1005 | 10.05 | 68.99 | ************************ || 5 | 0.0874 | 8.74 | 77.73 | ********************* || 6 | 0.0787 | 7.87 | 85.61 | ******************* || 7 | 0.0617 | 6.17 | 91.77 | *************** || 8 | 0.0366 | 3.66 | 95.44 | ********* || 9 | 0.0287 | 2.87 | 98.31 | ******* || 10 | 0.0169 | 1.69 | 100.00 | **** |+--------+------------+----------+----------+----------------------------------------------------------------------------------+

Page 44: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 44

Corrélation de 0.934 entre E(Z1/X) et le premier facteur de l’ACM.

E(Z1/X)

FAC

TEU

R1

-1.4 -0.4 0.6 1.6 2.6-0.9

-0.5

-0.1

0.3

0.7

1.1

1.5

Page 45: L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 45

ConclusionPeu enseignés en France, les modèles à variables latentes méritent une attention particulière et peuvent être des compléments à des analyses plus classiques. Optique exploratoire ou confirmatoire.Les résultats d ’ACM ou de classification peuvent servir d ’initialisation aux modèles à variables latentes, Mêmes critiques que celles adressées à l’analyse factorielle vis à vis des méthodes de type ACP : problèmes d’identification, d’existence des variables latentes, de convergence des algorithmes...