INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre...
-
Upload
olivier-jarry -
Category
Documents
-
view
104 -
download
0
Transcript of INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre...
INF L14INF L14Initiation aux statistiquesInitiation aux statistiques 8 – Liaison entre variables qualitatives
IntroductionIntroduction
RappelRappel Variables qualitativesVariables qualitatives ExempleExemple
sexe (homme, femme)sexe (homme, femme) secteur d’études (lettres, sciences)secteur d’études (lettres, sciences)
Etudier la relation entre les deuxEtudier la relation entre les deux Se base sur les effectifsSe base sur les effectifs
Données brutesDonnées brutes
NomNom PrénomPrénom SexeSexe SecteurSecteur
ABERLENCABERLENC EveEve FF LettresLettres
ADAMADAM StéphaneStéphane HH SciencesSciences
ADEMAADEMA RichardRichard HH LettresLettres
ADJAOUTEADJAOUTE NadiaNadia FF LettresLettres
ALEXANDREALEXANDRE MichelMichel HH SciencesSciences
ALLARDALLARD NathalieNathalie FF LettresLettres
ANCEAUXANCEAUX AudreyAudrey FF LettresLettres
...... ...... ...... ......
variables
ind
ivid
us
Effectifs observésEffectifs observés
Femmes Hommes
Lettres 14 119 5 394
Sciences 1 871 3 142
modalités variable 2
mod
ali
tés
vari
ab
le 1
Tri croiséTri croisé on répartit les effectifs en fonction des on répartit les effectifs en fonction des
combinaisons de modalitéscombinaisons de modalités
Source : Université de Provence, 2002-2003
Tri croiséTri croisé
Femmes Hommes Total
Lettres 14 119 5 394 19 513
Sciences 1 871 3 142 5 013
Total 15 990 8 536 24 526
Fréquences marginalesFréquences marginales totaux des lignes et des colonnes (marges)totaux des lignes et des colonnes (marges)
Expression en Expression en pourcentagespourcentages
Femmes Hommes Total
Lettres 57,6% 22,0% 79,6%
Sciences 7,6% 12,8% 20,4%
Total 65,2% 34,8% 100,0%
Femmes Hommes Total
Lettres 72,4%72,4% 27,6%27,6% 100,0%100,0%
Sciences 37,3%37,3% 62,7%62,7% 100,0%100,0%
Total 65,2%65,2% 34,8%34,8% 100,0%100,0%
Femmes Hommes Total
Lettres 88,3% 63,2% 79,6%
Sciences 11,7% 36,8% 20,4%
Total 100,0% 100,0% 100,0%
Effectifs attendusEffectifs attendusFemmes Hommes Total
Lettres x ? 19 513
Sciences 5 013
Total 15 990 8 536 24 526
Femmes Hommes Total
Lettres 12 72212 722 19 513
Sciences 5 013
Total 15 990 8 536 24 526
1272224526
1951315990
x
Effectifs attendusEffectifs attendus
Femmes Hommes Total
Lettres 12 72212 722 19 513
Sciences 5 013
Total 15 990 8 536 24 526
Femmes Hommes Total
Lettres 6 7916 791 19 513
Sciences 5 013
Total 15 990 8 536 24 526
Femmes Hommes Total
Lettres 19 513
Sciences 3 2683 268 5 013
Total 15 990 8 536 24 526
Femmes Hommes Total
Lettres 19 513
Sciences 1 7451 745 5 013
Total 15 990 8 536 24 526
Effectifs attendusEffectifs attendus
Femmes Hommes Total
Lettres 12 72212 722 6 7916 791 19 513
Sciences 3 2683 268 1 7451 745 5 013
Total 15 990 8 536 24 526
ComparaisonComparaison
Femmes Hommes Total
Lettres 14 119 5 394 19 513
Sciences 1 871 3 142 5 013
Total 15 990 8 536 24 526
Femmes Hommes Total
Lettres 12 72212 722 6 7916 791 19 513
Sciences 3 2683 268 1 7451 745 5 013
Total 15 990 8 536 24 526
Observés
Attendus
EcartsEcarts
Femmes Hommes
Lettres +1 397+1 397 -1 397-1 397
Sciences -1 397-1 397 +1 397+1 397
Femmes Hommes Total
Lettres 14 119 5 394 19 513
Sciences 1 871 3 142 5 013
Total 15 990 8 536 24 526
Femmes Hommes Total
Lettres 12 72212 722 6 7916 791 19 513
Sciences 3 2683 268 1 7451 745 5 013
Total 15 990 8 536 24 526 Observés
Attendus
Ecarts carrésEcarts carrés
Femmes Hommes
Lettres +1 397+1 397 -1 397-1 397
Sciences -1 397-1 397 +1 397+1 397
Ecarts
Femmes Hommes
Lettres 1 952 3951 952 395 1 952 3951 952 395
Sciences 1 952 3951 952 395 1 952 3951 952 395
Ecarts carrés relatifsEcarts carrés relatifs
Femmes Hommes
Lettres 153,5153,5 287,5287,5
Sciences 597,4597,4 1 119,01 119,0
Femmes Hommes Total
Lettres 12 72212 722 6 7916 791 19 513
Sciences 3 2683 268 1 7451 745 5 013
Total 15 990 8 536 24 526
Attendus
Femmes Hommes
Lettres 1 952 3951 952 395 1 952 3951 952 395
Sciences 1 952 3951 952 395 1 952 3951 952 395
Ecartscarrés
22
Femmes Hommes
Lettres 153,5153,5 287,5287,5
Sciences 597,4597,4 1 119,01 119,0
2 =2 = 2157,4
Chi-deuxChi-deux
Somme
FormuleFormule
Att
AttObs 22 )(
Test d’hypothèseTest d’hypothèse
Statistique inférentielleStatistique inférentielle Le Le 22 permet de tester l’ permet de tester l’hypothèse hypothèse
d’indépendanced’indépendance des variables : des variables : les données observées résultent simplement les données observées résultent simplement
de fluctuations dues au hasardde fluctuations dues au hasard On peut mesurer la On peut mesurer la probabilité probabilité pp de se de se
tromper en rejetant l’indépendancetromper en rejetant l’indépendance
TableurTableur
A B C D1 Données observées2 B1 B23 A1 14119 53944 A2 1871 314256 Données attendues7 B1 B28 A1 12722 67919 A2 3268 17451012 p13 0,000000 =TEST.KHIDEUX(B3:C4;B8:C9)
Formule
Pratiquement aucune chance de se tromper en
rejetant l’indépendance : il y a bien un effet significatif
A B C D1 Données observées2 B1 B23 A1 12753 67604 A2 3237 177656 Données attendues7 B1 B28 A1 12722 67919 A2 3268 17451012 p13 0,30
Formule=TEST.KHIDEUX(B3:C4;B8:C9)
TableurTableur
30% de chances de se tromper en rejetant l’indépendance : pas
d’effet significatif
Seuils de rejetSeuils de rejet
Seuils de rejetSeuils de rejet p < 0,05 en sciences humainesp < 0,05 en sciences humaines p < 0,01 si l’on veut être très strictp < 0,01 si l’on veut être très strict
AttentionAttention
Ne jamais employer le test de Ne jamais employer le test de chi-deux si certains des chi-deux si certains des effectifs attendus sont effectifs attendus sont 5. 5.
ProblèmeProblème
2 2 dépend de l’effectifdépend de l’effectif difficile d’apprécier la valeur du difficile d’apprécier la valeur du 22 dans dans
l’absolul’absolu on peut normaliser le coefficient pour le on peut normaliser le coefficient pour le
rendre indépendant de la taillerendre indépendant de la taille
2 =2 = 2157,4
PhiPhi varie entre 0 et +1varie entre 0 et +1 analogue au coefficient de corrélation des variables quantitativesanalogue au coefficient de corrélation des variables quantitatives
N
2
== 0,30
Application linguistiqueApplication linguistique
Force d’association entre Force d’association entre motsmots
Deux mots sont associés Deux mots sont associés s’ils apparaissent souvent s’ils apparaissent souvent ensemble dans des pages ensemble dans des pages WebWeb
Ex. :Ex. : Chirac + JospinChirac + Jospin Chirac + CoronaChirac + Corona etc.etc.
ExempleExemple
Google (réglé sur tout le Web)Google (réglé sur tout le Web) On va chercherOn va chercher
AA = Nombre d’occurrences = Nombre d’occurrences ChiracChirac BB = Nombre d’occurrences = Nombre d’occurrences JospinJospin CC = nombre de cooccurrences = nombre de cooccurrences Chirac Chirac
JospinJospin NN = Nombre = Nombre total de pagestotal de pages
A
B
C
N
Chirac Jospin
Valeurs observéesJospin -Jospin Total
Chirac 178 000 2 942 000 3 120 000-Chirac 491 000 8 054 433 651 8 054 924 651Total 669 000 8 057 375 651 8 058 044 651
Valeurs attenduesJospin -Jospin
Chirac 259 3 119 741-Chirac 668 741 8 054 255 910
EcartsJospin -Jospin
Chirac 177 741 -177 741-Chirac -177 741 177 741
Contribution au chi-deuxJospin -Jospin Résultat
Chirac 121 961 862 10 126 122 019 233,3
-Chirac 47 241 4 0,12
Chirac Zidane
Valeurs observéesZidane -Zidane Total
Chirac 14 000 3 106 000 3 120 000-Chirac 1 076 000 8 053 848 651 8 054 924 651Total 1 090 000 8 056 954 651 8 058 044 651
Valeurs attenduesZidane -Zidane
Chirac 422 3 119 578-Chirac 1 089 578 8 053 835 073
EcartsZidane -Zidane
Chirac 13 578 -13 578-Chirac -13 578 13 578
Contribution au chi-deuxZidane -Zidane Résultat
Chirac 436 835 59 437 063,7
-Chirac 169 0 0,01
Formule directeFormule directe
))((
)( 22
BNANAB
CNABN
Une formule un peu compliquée, mais Une formule un peu compliquée, mais qui évite les calculs intermédiaires :qui évite les calculs intermédiaires :
ClassementClassement
Par Par décroissant : décroissant :MotA MotB C A B N ² PhiChirac Jacques 1 130 000 3 120 000 19 000 000 8 058 044 651 171 790 256 0,146Chirac Jospin 178 000 3 120 000 669 000 8 058 044 651 122 019 233 0,123Chirac Raffarin 182 000 3 120 000 752 000 8 058 044 651 113 453 534 0,119Chirac Sarkozy 180 000 3 120 000 838 000 8 058 044 651 99 545 653 0,111Chirac Blair 504 000 3 120 000 14 100 000 8 058 044 651 45 623 209 0,075Chirac Saddam 354 000 3 120 000 11 100 000 8 058 044 651 28 504 644 0,059Chirac Bush 731 000 3 120 000 78 600 000 8 058 044 651 16 292 091 0,045Chirac Aznar 99 900 3 120 000 1 690 000 8 058 044 651 15 061 582 0,043Chirac Poutine 34 400 3 120 000 272 000 8 058 044 651 11 172 301 0,037Chirac Claude 235 000 3 120 000 15 600 000 8 058 044 651 8 699 190 0,033Chirac Thatcher 63 900 3 120 000 2 140 000 8 058 044 651 4 804 077 0,024Chirac Coluche 13 300 3 120 000 161 000 8 058 044 651 2 812 216 0,019Chirac Bernadette 45 400 3 120 000 1 920 000 8 058 044 651 2 684 211 0,018Chirac Zidane 14 000 3 120 000 1 090 000 8 058 044 651 437 064 0,007Chirac Corona 6 210 3 120 000 6 750 000 8 058 044 651 4 955 0,001Chirac Veronis 41 3 120 000 62 600 8 058 044 651 12 0,000
Termes à retenirTermes à retenir
Tris croisé Fréquences marginales Chi-deux (22) Hypothèse d’indépendance Seuil de rejet Phi ( )