INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre...

32
INF L14 INF L14 Initiation aux statistiques Initiation aux statistiques 8 – Liaison entre variables qualitatives

Transcript of INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre...

Page 1: INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives.

INF L14INF L14Initiation aux statistiquesInitiation aux statistiques 8 – Liaison entre variables qualitatives

Page 2: INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives.

IntroductionIntroduction

RappelRappel Variables qualitativesVariables qualitatives ExempleExemple

sexe (homme, femme)sexe (homme, femme) secteur d’études (lettres, sciences)secteur d’études (lettres, sciences)

Etudier la relation entre les deuxEtudier la relation entre les deux Se base sur les effectifsSe base sur les effectifs

Page 3: INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives.

Données brutesDonnées brutes

NomNom PrénomPrénom SexeSexe SecteurSecteur

ABERLENCABERLENC EveEve FF LettresLettres

ADAMADAM StéphaneStéphane HH SciencesSciences

ADEMAADEMA RichardRichard HH LettresLettres

ADJAOUTEADJAOUTE NadiaNadia FF LettresLettres

ALEXANDREALEXANDRE MichelMichel HH SciencesSciences

ALLARDALLARD NathalieNathalie FF LettresLettres

ANCEAUXANCEAUX AudreyAudrey FF LettresLettres

...... ...... ...... ......

variables

ind

ivid

us

Page 4: INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives.

Effectifs observésEffectifs observés

Femmes Hommes

Lettres 14 119 5 394

Sciences 1 871 3 142

modalités variable 2

mod

ali

tés

vari

ab

le 1

Tri croiséTri croisé on répartit les effectifs en fonction des on répartit les effectifs en fonction des

combinaisons de modalitéscombinaisons de modalités

Source : Université de Provence, 2002-2003

Page 5: INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives.

Tri croiséTri croisé

Femmes Hommes Total

Lettres 14 119 5 394 19 513

Sciences 1 871 3 142 5 013

Total 15 990 8 536 24 526

Fréquences marginalesFréquences marginales totaux des lignes et des colonnes (marges)totaux des lignes et des colonnes (marges)

Page 6: INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives.

Expression en Expression en pourcentagespourcentages

Femmes Hommes Total

Lettres 57,6% 22,0% 79,6%

Sciences 7,6% 12,8% 20,4%

Total 65,2% 34,8% 100,0%

Femmes Hommes Total

Lettres 72,4%72,4% 27,6%27,6% 100,0%100,0%

Sciences 37,3%37,3% 62,7%62,7% 100,0%100,0%

Total 65,2%65,2% 34,8%34,8% 100,0%100,0%

Femmes Hommes Total

Lettres 88,3% 63,2% 79,6%

Sciences 11,7% 36,8% 20,4%

Total 100,0% 100,0% 100,0%

Page 7: INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives.

Effectifs attendusEffectifs attendusFemmes Hommes Total

Lettres x ? 19 513

Sciences 5 013

Total 15 990 8 536 24 526

Femmes Hommes Total

Lettres 12 72212 722 19 513

Sciences 5 013

Total 15 990 8 536 24 526

1272224526

1951315990

x

Page 8: INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives.

Effectifs attendusEffectifs attendus

Femmes Hommes Total

Lettres 12 72212 722 19 513

Sciences 5 013

Total 15 990 8 536 24 526

Femmes Hommes Total

Lettres 6 7916 791 19 513

Sciences 5 013

Total 15 990 8 536 24 526

Femmes Hommes Total

Lettres 19 513

Sciences 3 2683 268 5 013

Total 15 990 8 536 24 526

Femmes Hommes Total

Lettres 19 513

Sciences 1 7451 745 5 013

Total 15 990 8 536 24 526

Page 9: INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives.

Effectifs attendusEffectifs attendus

Femmes Hommes Total

Lettres 12 72212 722 6 7916 791 19 513

Sciences 3 2683 268 1 7451 745 5 013

Total 15 990 8 536 24 526

Page 10: INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives.

ComparaisonComparaison

Femmes Hommes Total

Lettres 14 119 5 394 19 513

Sciences 1 871 3 142 5 013

Total 15 990 8 536 24 526

Femmes Hommes Total

Lettres 12 72212 722 6 7916 791 19 513

Sciences 3 2683 268 1 7451 745 5 013

Total 15 990 8 536 24 526

Observés

Attendus

Page 11: INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives.

EcartsEcarts

Femmes Hommes

Lettres +1 397+1 397 -1 397-1 397

Sciences -1 397-1 397 +1 397+1 397

Femmes Hommes Total

Lettres 14 119 5 394 19 513

Sciences 1 871 3 142 5 013

Total 15 990 8 536 24 526

Femmes Hommes Total

Lettres 12 72212 722 6 7916 791 19 513

Sciences 3 2683 268 1 7451 745 5 013

Total 15 990 8 536 24 526 Observés

Attendus

Page 12: INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives.

Ecarts carrésEcarts carrés

Femmes Hommes

Lettres +1 397+1 397 -1 397-1 397

Sciences -1 397-1 397 +1 397+1 397

Ecarts

Femmes Hommes

Lettres 1 952 3951 952 395 1 952 3951 952 395

Sciences 1 952 3951 952 395 1 952 3951 952 395

Page 13: INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives.

Ecarts carrés relatifsEcarts carrés relatifs

Femmes Hommes

Lettres 153,5153,5 287,5287,5

Sciences 597,4597,4 1 119,01 119,0

Femmes Hommes Total

Lettres 12 72212 722 6 7916 791 19 513

Sciences 3 2683 268 1 7451 745 5 013

Total 15 990 8 536 24 526

Attendus

Femmes Hommes

Lettres 1 952 3951 952 395 1 952 3951 952 395

Sciences 1 952 3951 952 395 1 952 3951 952 395

Ecartscarrés

Page 14: INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives.

22

Femmes Hommes

Lettres 153,5153,5 287,5287,5

Sciences 597,4597,4 1 119,01 119,0

2 =2 = 2157,4

Chi-deuxChi-deux

Somme

Page 15: INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives.

FormuleFormule

Att

AttObs 22 )(

Page 16: INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives.

Test d’hypothèseTest d’hypothèse

Statistique inférentielleStatistique inférentielle Le Le 22 permet de tester l’ permet de tester l’hypothèse hypothèse

d’indépendanced’indépendance des variables : des variables : les données observées résultent simplement les données observées résultent simplement

de fluctuations dues au hasardde fluctuations dues au hasard On peut mesurer la On peut mesurer la probabilité probabilité pp de se de se

tromper en rejetant l’indépendancetromper en rejetant l’indépendance

Page 17: INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives.

TableurTableur

A B C D1 Données observées2 B1 B23 A1 14119 53944 A2 1871 314256 Données attendues7 B1 B28 A1 12722 67919 A2 3268 17451012 p13 0,000000 =TEST.KHIDEUX(B3:C4;B8:C9)

Formule

Pratiquement aucune chance de se tromper en

rejetant l’indépendance : il y a bien un effet significatif

Page 18: INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives.

A B C D1 Données observées2 B1 B23 A1 12753 67604 A2 3237 177656 Données attendues7 B1 B28 A1 12722 67919 A2 3268 17451012 p13 0,30

Formule=TEST.KHIDEUX(B3:C4;B8:C9)

TableurTableur

30% de chances de se tromper en rejetant l’indépendance : pas

d’effet significatif

Page 19: INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives.

Seuils de rejetSeuils de rejet

Seuils de rejetSeuils de rejet p < 0,05 en sciences humainesp < 0,05 en sciences humaines p < 0,01 si l’on veut être très strictp < 0,01 si l’on veut être très strict

Page 20: INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives.

AttentionAttention

Ne jamais employer le test de Ne jamais employer le test de chi-deux si certains des chi-deux si certains des effectifs attendus sont effectifs attendus sont 5. 5.

Page 21: INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives.

ProblèmeProblème

2 2 dépend de l’effectifdépend de l’effectif difficile d’apprécier la valeur du difficile d’apprécier la valeur du 22 dans dans

l’absolul’absolu on peut normaliser le coefficient pour le on peut normaliser le coefficient pour le

rendre indépendant de la taillerendre indépendant de la taille

Page 22: INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives.

2 =2 = 2157,4

PhiPhi varie entre 0 et +1varie entre 0 et +1 analogue au coefficient de corrélation des variables quantitativesanalogue au coefficient de corrélation des variables quantitatives

N

2

== 0,30

Page 23: INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives.

Application linguistiqueApplication linguistique

Force d’association entre Force d’association entre motsmots

Deux mots sont associés Deux mots sont associés s’ils apparaissent souvent s’ils apparaissent souvent ensemble dans des pages ensemble dans des pages WebWeb

Ex. :Ex. : Chirac + JospinChirac + Jospin Chirac + CoronaChirac + Corona etc.etc.

Page 24: INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives.

ExempleExemple

Google (réglé sur tout le Web)Google (réglé sur tout le Web) On va chercherOn va chercher

AA = Nombre d’occurrences = Nombre d’occurrences ChiracChirac BB = Nombre d’occurrences = Nombre d’occurrences JospinJospin CC = nombre de cooccurrences = nombre de cooccurrences Chirac Chirac

JospinJospin NN = Nombre = Nombre total de pagestotal de pages

Page 25: INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives.

A

B

C

N

Page 26: INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives.

Chirac Jospin

Valeurs observéesJospin -Jospin Total

Chirac 178 000 2 942 000 3 120 000-Chirac 491 000 8 054 433 651 8 054 924 651Total 669 000 8 057 375 651 8 058 044 651

Valeurs attenduesJospin -Jospin

Chirac 259 3 119 741-Chirac 668 741 8 054 255 910

EcartsJospin -Jospin

Chirac 177 741 -177 741-Chirac -177 741 177 741

Contribution au chi-deuxJospin -Jospin Résultat

Chirac 121 961 862 10 126 122 019 233,3

-Chirac 47 241 4 0,12

Page 27: INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives.

Chirac Zidane

Valeurs observéesZidane -Zidane Total

Chirac 14 000 3 106 000 3 120 000-Chirac 1 076 000 8 053 848 651 8 054 924 651Total 1 090 000 8 056 954 651 8 058 044 651

Valeurs attenduesZidane -Zidane

Chirac 422 3 119 578-Chirac 1 089 578 8 053 835 073

EcartsZidane -Zidane

Chirac 13 578 -13 578-Chirac -13 578 13 578

Contribution au chi-deuxZidane -Zidane Résultat

Chirac 436 835 59 437 063,7

-Chirac 169 0 0,01

Page 28: INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives.

Formule directeFormule directe

))((

)( 22

BNANAB

CNABN

Une formule un peu compliquée, mais Une formule un peu compliquée, mais qui évite les calculs intermédiaires :qui évite les calculs intermédiaires :

Page 29: INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives.

ClassementClassement

Par Par décroissant : décroissant :MotA MotB C A B N ² PhiChirac Jacques 1 130 000 3 120 000 19 000 000 8 058 044 651 171 790 256 0,146Chirac Jospin 178 000 3 120 000 669 000 8 058 044 651 122 019 233 0,123Chirac Raffarin 182 000 3 120 000 752 000 8 058 044 651 113 453 534 0,119Chirac Sarkozy 180 000 3 120 000 838 000 8 058 044 651 99 545 653 0,111Chirac Blair 504 000 3 120 000 14 100 000 8 058 044 651 45 623 209 0,075Chirac Saddam 354 000 3 120 000 11 100 000 8 058 044 651 28 504 644 0,059Chirac Bush 731 000 3 120 000 78 600 000 8 058 044 651 16 292 091 0,045Chirac Aznar 99 900 3 120 000 1 690 000 8 058 044 651 15 061 582 0,043Chirac Poutine 34 400 3 120 000 272 000 8 058 044 651 11 172 301 0,037Chirac Claude 235 000 3 120 000 15 600 000 8 058 044 651 8 699 190 0,033Chirac Thatcher 63 900 3 120 000 2 140 000 8 058 044 651 4 804 077 0,024Chirac Coluche 13 300 3 120 000 161 000 8 058 044 651 2 812 216 0,019Chirac Bernadette 45 400 3 120 000 1 920 000 8 058 044 651 2 684 211 0,018Chirac Zidane 14 000 3 120 000 1 090 000 8 058 044 651 437 064 0,007Chirac Corona 6 210 3 120 000 6 750 000 8 058 044 651 4 955 0,001Chirac Veronis 41 3 120 000 62 600 8 058 044 651 12 0,000

Page 30: INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives.
Page 31: INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives.

Termes à retenirTermes à retenir

Tris croisé Fréquences marginales Chi-deux (22) Hypothèse d’indépendance Seuil de rejet Phi ( )

Page 32: INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives.