L’ANALYSE EN VARIABLES LATENTES

G.Saporta, CNAM, 2006 1

L’ANALYSE ENVARIABLES LATENTES

Une autre manière d’analyser des relations entre variables observées (variables manifestes)Les modèles à variables latentes (ou facteurs) postulent l’existence de variables inobservables directement telles l’intelligence, l’engagement religieux, etc. mais dont on peut mesurer ou observer les effets, comme la fréquentation des lieux de culte, la réussite à certains tests…


Hypothèse fondamentale: les covariations entre variables observées s’expliquent par la dépendance de chaque variable observée avec les variables latentes.

principe d’indépendance conditionnelle : les variables observées sont indépendantes conditionnellement aux variables latentes.


Variables latentes

Variables observées qualitatives quantitatives

qualitatives

Analyse des classes latentes Analyse des traits latents

quantitatives

Analyse des profils latents

Analyse factorielle


BibliographieBartholomew, et D.J.& Knott, M. Latent Variable Models and Factor Analysis , 2nd edition, Arnold, 1999.Everitt, B.S., An Introduction to Latent Variable Models , Chapman & Hall, London, 1984.Hagenaars J.A., McCutcheon A.L. (eds.), Applied latent class analysis, Cambridge University Press, 2002.Lazarsfeld, P.F. et Henri, N.W., Latent Structure Analysis , Houghton Mifflin, Boston, 1968.McCutcheon, A.L, Latent Class Analysis , (Sage University Paper Series on Quantitative Applications in the Social Sciences n°64) , SAGE publications, 1987.


Logiciels et sites Web:logiciel gratuit " lvmfa2 " (cf.Bartholomew & Knott) : http://www.arnoldpublishers.com/support/lvmfa2.htmlogiciel gratuit “LEM” par J.K.Vermunt de l'Université de Tilburg http://cwis.kub.nl/~fsw_1/mto/mto_snw.htm#softwarelogiciel " Latent Gold " distribué par Statistical Innovations: http://www.statisticalinnovations.com/products/latentgold_v4.html" Latent Class Analysis Website ", par John Uebersax : http://ourworld.compuserve.com/homepages/jsuebersax/


A. L’analyse factorielle« Factor analysis » ou analyse en facteurs communs et spécifiquesCharles Spearman (1901) : modèle unifactoriel

f facteur commun, ui facteur spécifique, λisaturation ou « factor loading »

1,...i i ix f u i pλ= + =


ExempleCorrélation entre résultats scolaires Classics, english, french

1 1

2 2

3 3

0.9831 0.83 0.780.83 1 0.67 0.8440.78 0.67 1 0.794

x f uR x f u

x f u

= +⎧⎛ ⎞⎪⎜ ⎟= = +⎨⎜ ⎟⎪⎜ ⎟ = +⎝ ⎠ ⎩


Thurstone: modèle plurifactoriel , k facteurs

Modèle de régression multiple multilinéaire sur variables inobservablesHypothèses :

xi centrés (réduits)fj centrés réduits indépendants entre euxui centrés indépendants entre eux V(ui)=ψi

ui indépendants des fj

1

1,...k

i i j j ij

x f u i pλ=

= + =∑


Formulation matricielle

Décomposition de la variance

Communauté + spécificité

= +x Λf u

2 2 2

1( )

k

i i ij i i ij

V x hσ λ ψ ψ=

= = + = +∑

'Σ = ΛΛ +Ψ


Indépendance conditionnelle

Matrice de variance des manifestes et des facteurs

( ) 111 1211/ 2 11 12 22 21

21 22

'

−

⎛ ⎞⎜ ⎟⎝ ⎠

⎛ ⎞= −⎜ ⎟

⎝ ⎠

= − =x/f

Σ ΛΛ' I

Σ ΣΣ Σ Σ Σ Σ

Σ Σ

Σ Σ ΛΛ Ψ Matrice diagonale: l’AF expliqueles corrélations


Indétermination des facteurs

Modèle surparamétréInvariance par transformation orthogonale

Contrainte mathématique:

= + = +

=' '

x Λf u ΛGG'f uΣ = ΛΛ +Ψ ΛGG'Λ +Ψ

diagonale-1Λ'Ψ Λ


Degré de liberté

Nombre d’équations p(p+1)/2Nombre de contraintes k(k-1)/2Nombre d’inconnues pk+p

S=0 solution unique mais..S<0 indéterminationS>0 plus d’équations que d’inconnues: le cas utile! Représentation parcimonieuse

'Σ = ΛΛ +Ψ-1Λ'Ψ Λ

et ij iλ ψ

( ) ( )2( 1) ( 1) 1( 1)2 2 2

p p k ks p k p k p k+ − ⎡ ⎤= + − + = − − +⎣ ⎦


S=0 solution artificielle , Ψi peut être négatifCas exacts:P=3 k=1P=6 k=3P=10 k=6P=15 k=10P=21 k=15…


Estimation

Méthode des facteurs principaux1ère estimation des

par D’où estimation de Ψ

Diagonalisation de R- Ψ Matrice de corrélation réduite

Rééstimation de Ψ etc.

2 21i i ijj

h ψ λ= − =∑( ) ( )2 2

1 1 1 1; ,.., , ,.. ; ,..,i i i i kR x x x x R x f f− + ∼

R -Ψ ΛΛ'


Estimation (2)

Maximum de vraisemblance

-2ln(L)~χ2s


Rotation des facteurs

Indétermination: GG’=I Δ=ΛGRecherche de « structures simples »

Chaque variable corrélée avec peu de facteursChaque facteur avec peu de variables

Rotation « varimax »Maximise la somme des variances des carrés des saturations intra-colonnes, normalisée par la communauté

2

21

pij

ji i

Vhδ

=

⎛ ⎞⎜ ⎟⎜ ⎟⎝ ⎠

∑


Nombreuses autres méthodesOrthogonales: quartimax, orthomax, parsimaxObliques: biquartimin, oblimin, quartimin …

fournit des facteurs corrélés après rotation.« Oblique rotations often produce more useful

patterns than do orthogonal rotations. However, a consequence of correlated factors is that there is no single unambiguous measure of the importance of a factor in explaining a variable »


Estimation des scores

f coefficients d’un modèle linéaire!Scores de Bartlett

Moindres carrés généralisés

Scores de Thompson (approche bayesienne)Loi conditionnelle de x/f: Np(Λf,ψ)Loi a priori de f: Nk(0;I)Espérance de f a posteriori

x = Λf + u

( )ˆ -1-1 -1f = Λ'Ψ Λ Λ'Ψ x

( )ˆ -1-1 -1f = I +Λ'Ψ Λ Λ'Ψ x


proc factor data=bagnole method=principal nfactors=2 priors=smc preplotrotate=varimax reorder plot ;

var CYL PUIS LON LAR POIDS VITESSE;

run;


B. Les classes latentesLazarsfeld (1950): équivalent de l’analyse factorielle dans le cas entièrement qualitatif : les p variables observées sont qualitatives (souvent dichotomiques) et on postule l’existence d’une variable latente également qualitative à kmodalités (les classes latentes).Une méthode de classification où les classes sont telles que les variables observées sont indépendantes dans chaque classeUn modèle particulier de mélange de distributions.


I. le modèle théorique dans le cas dichotomique

p variables observées dichotomiques X1, X2,..,Xp prenant des valeurs 0 ou 1Y variable latente à k classes,

pij la probabilité que Xi=1 pour un individu de la classe latente j . πj probabilité a priori d’appartenir à la classe latente j


Hypothèse d’indépendance conditionnelle:

probabilité a posteriori qu’un individu de vecteur x appartienne à la classe latente j

1

1 1

( ) (1 )i i

pkx x

j ij ijj i

f x p pπ −

= =

= −∑ ∏

1

1

( / x) (1 ) / (x)i i

px x

j ij iji

h j p p fπ −

=

= −∏


II L’estimation des paramètresmaximum de vraisemblance avec EM:

1

1 1 1

ln (1 )ih ih

pn kx x

j ij ijh j i

l p pπ −

= = =

⎛ ⎞= −⎜ ⎟⎜ ⎟

⎝ ⎠∑ ∑ ∏


1k

jj i

π=

=∑k

jj i

lφ λ π=

= + ∑

1 hh

h1 11

(x / )(1 ) / (x )(x )

ih ih

pn nx xij ij

j h hi

g jp p ff

φ λ λπ

−

= ==

⎛ ⎞∂= − + = +⎜ ⎟⎜ ⎟∂ ⎝ ⎠∑ ∑∏

hh

1

(x / ) / (x )n

jij ijh

g j fp pφ π

=

∂ ∂=

∂ ∂∑

( )h

1

h h

(x / ) exp( ln( ) (1 ) ln(1 )

1(x / ) ( ) (x / ) / (1 )1

p

ih ij ih ijij ij i

ih ihih ij ij ij

ij ij

g j x p x pp p

x xg j x p g j p pp p

=

∂ ∂= + − − =

∂ ∂

⎧ ⎫−⎪ ⎪− = − −⎨ ⎬−⎪ ⎪⎩ ⎭

∑


D’où:

en introduisant les probabilités a posteriori :

en annulant les dérivées :

( ) h h1

/ (1 ) ( ) (x / ) / (x )n

j ij ij ih ijij h

p p x p g j fpφ π

=

∂= − −

∂ ∑

h h h( / x ) (x / ) / (x )jh j g j fπ=

h1

( / x )n

jh

h j λπ=

= −∑

h1

( ) (x / ) / (1 ) 0n

ih ij ij ijh

x p h j p p=

− − =∑


h1

ˆ ( / x ) /n

jh

h j nπ=

=∑

1

1

( / x) (1 ) / (x)i i

px x

j ij iji

h j p p fπ −

=

= −∏

h1

ˆ ( / x ) /n

jh

h j nπ=

=∑

h1

ˆ ˆ( / x ) /n

ij ih jh

p x h j nπ=

=∑


III Ajustement et choix de modèlesLe test du G2

nombre de paramètres à estimer:k – 1 probabilités πj et kp probabilités conditionnelles pij

= k(p+1) – 1 paramètres.

2 (x)2 (x) ln( )ˆ (x)x

nG nnf

= ∑


G2 est à comparer à un khi-deux àν=2p – k(p+1) + 1 degrés de liberté

Tests d’hypothèses emboîtées sur kEn général si p est grand, les 2p réponses possibles ont des effectifs insuffisants voire nuls: loi du khi-deux inappliquable. Simulations, ou bootstrap pour la loi de G2


Critères AIC d’Akaïké, ou BIC de Schwartz :AIC= - 2ln(L) + 2(k(p+1) – 1)BIC= - 2ln(L) + ln(n).(k(p+1) – 1)

vraisemblance pénalisée

recherche de modèles parcimonieux, minimisant AIC ou BIC


IV Exemple (Bartholomew et Knott)enquête sur les Attitudes Sociales Britanniques faite en 1990, concernant 1077 répondants avec 10 questions binaires d’opinions sur les attitudes sexuelles.Sur les 1024 possibilités de réponse, seules 147 ont été observées:

1 90 0110011100 2 11 0110011000 3 9 0110111000 4 117 0110000000 5 18 0100000100 6 93 0100000000 7 19 0111111100 8 35 0010000000 9 21 0110001100 10 6 0111111110


X1 Devrait-on rendre le divorce plus facile ?X2 Est ce que vous soutenez les lois contre la discrimination sexuelle ?X3 Opinion sur le sexe prénuptial : pas du tout opposé…… toujours opposé.X4 Opinion sur le sexe extra- maritalX5 Opinion sur les relations sexuelles entre personnes de même sexe .X6 Doit-on permettre aux homosexuels d’enseigner dans les écoles ?X7 Doit-on permettre aux homosexuels d’enseigner dans l’enseignement supérieur ?X8 Doit -on permettre aux homosexuels d’occuper des fonctions officielles ?X9 Un couple de lesbiennes devrait–il avoir le droit d’adopter des enfants ?X10 Un couple d’homosexuels mâles devrait–il avoir le droit d’adopter des enfants ?


Nb. de classes AIC BIC2 9328 94323 8946 91054 8850 90645 8852 9121

1π̂ =0.4611 2π̂ =0.0139 3π̂ =0.4169 4π̂ =0.1081


estimations des probabilités de donner la réponse oui(1) à chacune des 10 questions , conditionnellement aux classes latentes.

classe 1 classe 2 classe 3 classe 4X1 0.1360 0.0667 0.0947 0.2144X2 0.7656 0.6000 0.8712 0.9246X3 0.6319 0.8667 0.8620 0.9635X4 0.0822 0.2667 0.1319 0.3089X5 0.0681 0.6000 0.3822 0.8299X6 0.0081 0.0000 0.8721 1.0000X7 0.0589 0.2000 0.9829 1.0000X8 0.2077 0.2667 0.9141 1.0000X9 0.0463 1.0000 0.1071 0.9790X10 0.0000 1.0000 0.0000 0.8505

la classe 1 est non-permissive, la classe 2 (de très faible effectif) se distingue par une grandepermissivité pour l’adoption par des homosexuels mais est très négative sur les items 6, 7 et 8.La classe 3 est permissive sur tout sauf l’adoption, la classe 4 est permissive à peu près surtous les items.


OBS.FREQ. E(FREQ) LAT. CLASS RESPONSE VECTOR

90 114.608 3 0110011100 11 10.825 3 0110011000 9 6.661 3 0110111000 117 125.255 1 0110000000 18 19.173 1 0100000100 93 72.966 1 0100000000 19 10.831 3 0111111100 35 38.337 1 0010000000 21 18.862 3 0110001100 6 4.348 4 0111111110 14 16.949 3 0010011100 1 2.737 3 0111001100 2 0.315 3 0111001110 15 11.223 1 0111000000 11 9.161 1 0110100000 1 1.583 3 0010101100 3 1.549 3 0110101000 32 18.344 3 0100011100 1 0.142 1 1011000100 27 33.119 1 0110000100 8 7.973 4 0110011111 95 71.011 3 0110111100 7 3.887 3 0100001100 40 38.911 4 0110111111 2 2.252 3 0100011110 13 15.139 3 0110011110


Comparaison avec une classification classique


Comparaison avec une classification classique

ACM, classification hiérarchique (Ward), coupure en 4 classes et nuées dynamiques

|CLASSE HIER. 1|CLASSE HIER. 2|CLASSE HIER. 3|CLASSE HIER. 4| ENSEMBLE | | | | | | | | | |---------------------+--------------+--------------+--------------+--------------+-------------- | 3 | 0 | 67 | 421 | 491CLASSE LAT. 1 |---------------------+--------------+--------------+--------------+--------------+-------------- | 0 | 14 | 0 | 1 | 15CLASSE LAT. 2 |---------------------+--------------+--------------+--------------+--------------+-------------- | 419 | 0 | 42 | 0 | 461CLASSE LAT. 3 |---------------------+--------------+--------------+--------------+------- ------+-------------- | 6 | 99 | 5 | 0 | 110CLASSE LAT. 4 |---------------------+--------------+--------------+--------------+--------------+-------------- | 428 | 113 | 114 | 422 | 1077ENSEMBLE |------------------------------------------------------------------------------------------------


“Latent trait models” , “ item response theory ”Recherche de variables latentes continuesconditionnellement à un vecteur y de q variables latentes, les p variables manifestes (en général dichotomiques) sont des Bernoulli indépendantes.

C. Traits latents

( 1) (y)i iP x π= = 01

(y)ln( )1 (y)

qi

i ij ji j

yπ α απ =

= +− ∑


modèle “ logit-probit ” si la distribution a priori de y est multinormale centrée réduiteLe modèle de Rasch est celui où q=1 (une seule variable latente) avec des pentes αij toutes égales.Les αij s ’interpretent comme des scores pour les catégories des variables manifestes.Bartholomew a montré que les scores obtenus par l’ACM sont une approximation au premier ordre des αij . Voir Aitkin et al. (RSA 1987,3,53-82)


Sortie partielle du modèle à deux facteurs

POSTERIOR ANALYSIS:

OBS EXPECT E(Z1/X) SD1 E(Z2/X) SD2 +RESP RESPONSE PATTERN

29 27.8 -1.33 0.74 -0.74 0.85 0 000000000093 75.6 -1.27 0.71 -0.48 0.81 1 01000000005 3.4 -1.12 0.72 -1.00 0.85 1 10000000009 8.7 -1.05 0.70 -0.75 0.81 2 11000000003 1.5 -0.91 0.69 -0.96 0.81 1 0001000000

18 13.7 -0.90 0.63 -0.01 0.66 2 0100000100

3 2.2 1.66 0.44 -0.38 0.77 8 01110111112 0.1 1.69 0.44 -0.79 0.69 8 10110111111 0.7 1.86 0.45 -0.36 0.81 8 1010111111

40 27.9 1.86 0.44 0.19 0.89 8 011011111112 6.4 1.92 0.45 -0.03 0.87 9 11101111111 1.6 1.96 0.46 -0.23 0.85 8 0011111111

18 16.5 2.03 0.48 0.13 0.90 9 01111111115 4.1 2.10 0.50 -0.11 0.88 10 1111111111


ACM

HISTOGRAMME DES 10 PREMIERES VALEURS PROPRES+--------+------------+----------+----------+----------------------------------------------------------------------------------+| NUMERO | VALEUR | POURCENT.| POURCENT.| || | PROPRE | | CUMULE | |+--------+------------+----------+----------+----------------------------------------------------------------------------------+| 1 | 0.3384 | 33.84 | 33.84 | ******************************************************************************** || 2 | 0.1425 | 14.25 | 48.09 | ********************************** || 3 | 0.1085 | 10.85 | 58.94 | ************************** || 4 | 0.1005 | 10.05 | 68.99 | ************************ || 5 | 0.0874 | 8.74 | 77.73 | ********************* || 6 | 0.0787 | 7.87 | 85.61 | ******************* || 7 | 0.0617 | 6.17 | 91.77 | *************** || 8 | 0.0366 | 3.66 | 95.44 | ********* || 9 | 0.0287 | 2.87 | 98.31 | ******* || 10 | 0.0169 | 1.69 | 100.00 | **** |+--------+------------+----------+----------+----------------------------------------------------------------------------------+


Corrélation de 0.934 entre E(Z1/X) et le premier facteur de l’ACM.

E(Z1/X)

FAC

TEU

R1

-1.4 -0.4 0.6 1.6 2.6-0.9

-0.5

-0.1

0.3

0.7

1.1

1.5


ConclusionPeu enseignés en France, les modèles à variables latentes méritent une attention particulière et peuvent être des compléments à des analyses plus classiques. Optique exploratoire ou confirmatoire.Les résultats d ’ACM ou de classification peuvent servir d ’initialisation aux modèles à variables latentes, Mêmes critiques que celles adressées à l’analyse factorielle vis à vis des méthodes de type ACP : problèmes d’identification, d’existence des variables latentes, de convergence des algorithmes...

L’ANALYSE EN VARIABLES LATENTES

Documents

Transcript of L’ANALYSE EN VARIABLES LATENTES