Cours_DOUMI SPSS 2013 2014.pdf
Transcript of Cours_DOUMI SPSS 2013 2014.pdf
-
Introduction SPSS
Technique danalyse quantitative des donnes I
Professeur: Karim DOUMI
Karim DOUMI
SPSS 1
-
Chapitre 1 : Fonctionnement de SPSS Gnralits
SPSS est un outil statistique permettant des analyses simples:
Statistiques descriptives,statistiques infrentielle. tests dhypothse.
analyses plus sophistiques: Analyses multivaries
des graphiques
Les analyses se font partir des donnes saisies!!! La qualit des analyses statistiques est fonction de
la qualit des donnes saisies
Karim DOUMI
SPSS 2
-
Fonctionnement de SPSS: Gnralits
Quatre types de fichiers utiliss:
Un fichier des donnes de ltude
Fichier texte (.txt) ou excel (.xls)
BD (access, Mysql, oracle..)
Un fichier ddition des donnes (.sav)
Un fichier de syntaxe (.sps)
Un fichier de rsultats (.spo)
Karim DOUMI
SPSS 3
-
Fonctionnement de SPSS: Fichier de donnes
Ce fichier nappartient pas SPSS:
Peut prendre diverses formes (Excel, base de donnes, fichier texte,).
Avantages du fichier texte:
Utilisation sur PC ou Macintosh.
Peut tre lu par nimporte quel programme de traitement de texte.
Rsiste au temps et lvolution des diverses versions des logiciels.
Cration du fichier texte:
Utilisation du bloc-notes ou enregistrement dans WORD ou EXCEL sous le format texte
Karim DOUMI
SPSS 4
-
Karim DOUMI
SPSS 5
-
Description des principales fentres :
File : permet la gestion des fichiers (ex. : ouvrir un nouveau fichier, fermer, enregistrer,
etc.). Edit : permet deffectuer les oprations de traitement de texte (ex. : copier, couper,
coller, etc.). View : permet de dfinir les options de lcran (ex. : barres doutils). Data : traite tout ce qui est li la gestion de la barre de donnes (ex. : dfinir une variable, insrer une variable, etc.). Transform : permet deffectuer les diffrentes oprations de transformation des
variables (ex. : recodification, catgorisation, cration dindices, etc.). Analyse : permet toutes les analyses statistiques que SPSS permet deffectuer (ex. : analyses descriptives, corrlations, rgressions, etc.). Graphs : prsente tous les types de graphiques que SPSS permet de crer (ex. : histogrammes, etc.). Utilities : comprend les utilitaires sur le programme (ex. : infos sur les fichiers, infos
sur les variables, etc.). Windows : permet la gestion des fentres. Help : outil daide lutilisation du logiciel.
Karim DOUMI
SPSS 6
-
La dfinition des variables Name : sert donner un nom la variable. Le nom ne doit pas dpasser 8 caractres et il est recommand de ne
pas utiliser de caractres accentus. Il doit bien reprsenter la variable pour vous permettre de la reconnatre facilement.
Type : sert dcrire la variable et le format de la colonne. Il est recommand de laisser loption numeric qui
est indique par dfaut. Pour les dcimales decimal places, vous pouvez les laisser gales 2 ou les mettre 0, selon la situation.
Label : permet de donner une identification plus explicite la variable qui sera affiche dans les diffrents
calculs statistiques. Values : permet de dfinir les valeurs que peuvent prendre la variable.
Missing : permet dindiquer si la variable peut accepter ou non des valeurs manquantes. Remarque : la saisie des
donnes manquantes se fait habituellement en effectuant un simple retour (cest la mthode recommande). Si vous avez prvu dutiliser des codes spcifiques (ex. : 9, 99, etc.), il faut les dfinir dans missing.
Columns : permet de terminer la largeur de la colonne. Vous pouvez augmenter ou rduire la taille de la
colonne. Align : sert aligner les donnes lintrieur des cellules. Scale : permet de dfinir le type de lchelle (nominale, ordinale, intervalles et ratio).
Karim DOUMI
SPSS 7
-
Fonctionnement de SPSS: Fichier de donnes
Dans un fichier texte, les donnes de chaque sujet sont entres successivement, spares par un ; une , , une espace ou une tabulation. Il est prfrable dutiliser un ; ou une espace Exemple:
Variables: identification (id), sexe du sujet (sexe, o f=1, h=2) et ge (age) on entrera: 1 1 28 participant 1 est une femme de 28 ans
2 2 33 participant 2 est un homme de 33 ans
3 2 32 participant 3 est un homme de 32 ans
etc.
Karim DOUMI
SPSS 8
-
Fonctionnement de SPSS: Fichier de donnes
Le fichier de donnes inclut les valeurs numriques associes vos donnes
Ex. 7 pour signifier totalement en accord ou 1 pour signifier que le participant est un homme
Principes gnraux de saisie:
Chaque ligne = 1 participant
Chaque colonne = 1 variable
Karim DOUMI
SPSS 9
-
Fonctionnement de SPSS: Fichier ddition des donnes
Pour insrer les donnes dans ce fichier:
Saisie des donnes manuellement
Importation du fichier avec la syntaxe:
Karim DOUMI
SPSS
GET DATA /TYPE = TXT /FILE = 'C:\Ex2.txt' /DELCASE = LINE /DELIMITERS = "\t" /ARRANGEMENT = DELIMITED /FIRSTCASE = 2 /IMPORTCASE = FIRST 1000 /VARIABLES = ID F3.2 L100KM F6.2 CHEVAPEU F3.2 POIDS A9 ACCEL F5.2 ORIGIN F3.2 NBCYL F3.2 ANNEE A8 . CACHE. EXECUTE.
GET DATA /TYPE=XLS /FILE='C:\Ex2.xls' /SHEET=name 'Ex2' /CELLRANGE=full /READNAMES=on .
10
-
Fonctionnement de SPSS: Fichier ddition des donnes
Pour insrer les donnes dans ce fichier:
Avec le menu
Suivre les tapes affiches lcran
Karim DOUMI
SPSS 11
-
Fonctionnement de SPSS: Fichier ddition des donnes
Attribuer un nom/code chaque variable
Pour SPSS 12 et moins, max de 8 lettres/chiffres, mais dbutant ncessairement par une lettre
Choisir des codes significatifs
Conserver par crit les codes des variables!!!
Karim DOUMI
SPSS 12
-
Karim DOUMI
SPSS
ID identification du participant
Code variable Signification
motivation supprimer ses motions
13
-
Fonctionnement de SPSS: Fichier ddition des donnes
Attribuer une tiquette chaque variable
Les codes sont limits. On peut dans SPSS attribuer une tiquette (label), laquelle permet de mieux se retrouver Onglet variable view
pour modifier les paramtres des variables
Karim DOUMI
SPSS 14
-
Fonctionnement de SPSS: Fichier ddition des donnes
Les donnes saisir dans SPSS sont numriques:
Chaque modalit de rponse peut se voir attribuer une tiquette (Values)
Karim DOUMI
SPSS 15
-
Fonctionnement de SPSS: Fichier ddition des donnes
Valeurs manquantes: Il importe dattribuer un
code pour les valeurs manquantes; ceci facilite la vrification du fichier de donnes
On doit spcifier SPSS un code pour signaler lexistence dune valeur manquante Ex. -999 pour une chelle
allant de 1 7.
Karim DOUMI
SPSS 16
-
Fonctionnement de SPSS: Fichier syntaxe
Les analyses avec SPSS se font:
1.Par les menus ou
2.Par les syntaxes
Plus complexe premire vue, elle comporte des avantages majeurs: Certains types danalyses ou de sous-commandes ne sont pas
disponibles via le menu.
En spcifiant tous les paramtres de votre analyse vous tes plus mme de contrler les rsultats obtenus.
Karim DOUMI
SPSS 17
-
Fonctionnement de SPSS: Fichier syntaxe
Le logiciel SPSS reconnat un ensemble dfini de commandes et de sous-commandes. Plusieurs d'entre elles seront vues lors des cours Sinon, guide en .pdf dans le menu daide
Le fichier syntaxe est un fichier de commandes Elles indiquent SPSS quoi faire avec les donnes Les commandes et sous-commandes sont spares par
une barre oblique (/) Aucun accent ne doit tre employ dans les commandes,
sous-commandes et noms de variables Il ne faut pas oublier que les commandes SPSS se
terminent toujours par un point.
Karim DOUMI
SPSS 18
-
Fonctionnement de SPSS: Fichier syntaxe
Karim DOUMI
SPSS 19
-
Fonctionnement de SPSS: Fichier syntaxe
Karim DOUMI
SPSS 20
-
Fonctionnement de SPSS: Fichier rsultats
Karim DOUMI
SPSS 21
-
Calculer une Variable
Il arrive trs souvent que les variables brutes d'une base de donnes ne soient pas suffisantes pour effectuer certaines analyses. On peut avoir besoin de crer une ou des nouvelles variables partir des variables existantes, comme dans les cas suivants :
Crer une variable qui contient la racine carre d'une variable existante
Calculer la moyenne ou la somme d'une srie de variables existantes
La commande Compute sert crer de nouvelles variables sur la base de fonctions arithmtiques, statistiques ou logiques.
Karim DOUMI
SPSS 22
-
Karim DOUMI
SPSS
Calculer une Variable Exemple
23
-
Cette nouvelle variable sera la moyenne des rponses donnes par chaque sujet
aux questions Q01, Q02, Q03,
Allez dans le menu Transformer et choisissez Calculer la variable.
Dans la boite de dialogue, crivez, dans Variable cible (tiquette), MOYSAT (cest le nom de la variable).
Ensuite, allez dans la boite Groupe de fonctions et cliquez deux reprises sur Statistiques (il est dans le bas de la liste, vous devez utiliser lascenseur droite). Vous verrez dans la boite Fonctions et variables spciales la fonction Mean sur laquelle vous devez aussi cliquer deux reprises.
Dans la boite du haut, vous verrez apparatre MEAN (?, ?). Vous devez alors insrer les variables Q01, Q02, Q03 dans la parenthse
Karim DOUMI
SPSS
Calculer une Variable Exemple
24
-
Vous pouvez galement crire la main la commande dans la boite
Karim DOUMI
SPSS
Calculer une Variable Exemple
25
-
Exercice sur la commande CALCULER : par syntaxe
Maintenant, liminez la variable MOYSAT de la matrice de donnes (cliquez au haut de la colonne sur le nom de la variable, puis dans le menu dition, cliquez sur Effacer ou, plus simplement, sur le bouton effacer ou supprimer de votre clavier).
Pour copier la commande lintrieur dun fichier Syntaxe recommencez les tapes prcdentes et remplacez le par
Le texte copi dans cette fentre devrait se lire comme suit :
Karim DOUMI
SPSS
Calculer une Variable Exemple
26
-
faites la mme chose en crant la variable AGEX .(ge exacte de lindividu)
Voici ce que devrait contenir maintenant votre fichier Syntaxe
Karim DOUMI
SPSS
Calculer une Variable Exemple
27
-
Cration dune variable La commande recode sert crer de nouvelles variables (ou
modifier des variables existantes) sur la base dun regroupement des valeurs qu'on appelle aussi cl de recodage. Voici quelques situations dans lesquelles vous pouvez utiliser le recodage :
partir d'une variable contenant la note d'examen sur 20, crer une nouvelle variable qui recode la note en lettre (A+, A-, A, etc..)
Recoder les valeurs d'items inverss dans une chelle de mesure
Diminuer le nombre de catgories d'une variable catgorielle en les regroupant diffremment
Karim DOUMI
SPSS 28
-
Imaginons que nous voulons raliser des analyses comparant les gens en formation (STATUT = 1) et les autres (STATUT = 2, 3 ou 4). Pour cela, il nous faut crer une variable qui diminue le nombre de catgories de 4 2. :
Allez encore une fois dans le menu Transformer, puis slectionnez Cration de variables
Recodez la variable STATUT de sorte que les sujets qui ont rpondu 1 auront la valeur 1 (en formation) alors que ceux qui ont la valeur 2, 3 ou 4 auront maintenant la valeur 2 (autres).
Dans la boite de dialogue principale, inscrivez STATUTX dans la boite Nom de lencadr.
Inscrivez ensuite Statut recod dans la boite tiquette du mme encadr.
Cliquez sur
Karim DOUMI
SPSS
Cration dune Variable Exemple
29
-
Apres il faut Changer les anciennes valeurs par les nouvelles valeurs.
Karim DOUMI
SPSS
Cration dune Variable Exemple
30
-
Exercice sur la commande Recode : par syntaxe
Pour les 3 variables a la fois la syntaxe est la suivante:
Karim DOUMI
SPSS
Cration dune Variable Exemple
31
-
Les expressions conditionnelles permettent de calculer des variables selon une condition, donc qui sapplique des sujets ou des observations (lignes) qui rpondent certains critres que nous allons dfinir selon nos besoins avec cette commande.
La rsultante des expressions conditionnelles peut crer une nouvelle variable ou bien transformer les valeurs d'une variable existante. Dans le dernier cas, il faut s'assurer que l'crasement des valeurs originales ne porte pas consquence
Voici lapparence Syntaxe la commande de cet exercice.
IF (sexe = 1) satis1=MEAN (q01, q03, q05).
Littralement, elle signifie que SI la valeur de la variable SEXE est gale 1 , la valeur de la variable SATIS1 sera gale la moyenne des valeurs des variables Q01, Q03 et Q05.
Karim DOUMI
SPSS
Expression conditionnelle (IF)
32
-
En utilisant le langage SPS:
Karim DOUMI
SPSS
Expression conditionnelle (IF)
33
-
Slection de cas:
Pour certaines analyses, il peut tre ncessaire de filtrer une partie des observations (cas) pour obtenir des rsultats auprs d'un sous-groupe spcifique d'observations.
Il est possible de slectionner une ou des observations laide de un ou d'une combinaison de critres, soit par la boite de dialogue, soit en utilisant une commande SYNTAXE.
Les conditions de slection peuvent tre uniques ou multiples. Dans le cas dune seule condition, on inscrit la variable sur laquelle repose la slection avec la condition formule grce aux conditions arithmtiques (, =, =, ).
Toutes les conditions multiples (deux variables ou plus) doivent utiliser les
oprateurs logiques (AND et OR) pour sparer les conditions. Pour faire une slection de cas de manire interactive, allez dans le
menu Donnes, puis cliquez sur Slectionnez des observations. Karim DOUMI
SPSS 34
-
Slection de cas:
Karim DOUMI
SPSS
Pour faire une slection de cas
de manire interactive, allez
dans le menu Donnes, puis
cliquez sur Slectionnez des
observations.
35
-
Slection de cas:
Dans la premire boite de dialogue, vous devez dterminer la stratgie de slection que vous allez utiliser. Vous avez plusieurs choix, mais le plus populaire est sans contredit Selon une condition logique. Dans ce cas, la slection se fait partir de la condition que vous noncez. Nous allons donc voir cette stratgie en premier et prciser les autres par la suite
Karim DOUMI
SPSS 36
-
Slection de cas
Exemple :
pour choisir les hommes de plus de 30 ans, on entrerait dans la boite:
Sexe = 1 AND
age > 30
Karim DOUMI
SPSS 37
-
Slection de cas:
Si vous prfrez taper la commande manuellement,
vous devriez crer la syntaxe suivante:
Karim DOUMI
SPSS 38
-
Slection de cas:
Karim DOUMI
SPSS 39
-
Les autres stratgies de slection
Dans la boite de dialogue Slection de cas, vous avez bien sr la stratgie Si que nous venons de voir, mais aussi dautres choix. Voici une brve description pour chacun.
Toutes les observations : vous ne faites pas de slection, vous utilisez toutes les observations. Trs utile quand vous voulez revenir la base initiale et annuler une condition pralablement tablie.
Par chantillonnage alatoire : slection d'observations alatoire. Vous choisissez ce moment combien de cas vous voulez dans votre chantillon, soit en pourcentage (Environ _ % de toutes les observations), soit en prcisant un nombre d'observations parmi les X premiers (Exactement _ observations partir des premires _ Observations).
Utiliser une variable de filtre : enfin, vous pouvez faire une slection en ne conservant que les cas qui ont des valeurs valides pour une variable filtre. Vous n'avez qu' transfrer la variable filtre dans la boite prvue cet effet.
Karim DOUMI
SPSS 40
-
Corrlation, rgression linaire simple avec SPSS
41 Karim DOUMI
SPSS
-
Chapitre 2 : Corrlation,
rgression et causalit
La rgression simple indique la nature de la liaison linaire entre
deux variables (quantitatives). La corrlation indique le degr de
linarit entre deux variables (quantitatives). Ainsi lanalyse de
rgression fournit une fonction entire (une droite par exemple)
alors que lanalyse de corrlation fournit un simple nombre un
indice qui renseigne sur lintensit avec laquelle 2 variables voluent
ensemble. Ces 2 techniques sont donc complmentaires. Lanalyse
causale enfin va plus loin en prcisant le sens de la relation, le
chemin de la cause leffet.
Introduction : prcisions smantiques
Karim DOUMI
SPSS 42
-
Chapitre 2 : Corrlation,
rgression et causalit
Exemple
Si je mintresse au lien entre le temps hebdomadaire moyen pass travailler (X) et la note obtenue
au partiel (Y) :
Lanalyse de rgression permet de dterminer une fonction qui lie les deux variables : ex : Y =
aX + b
Lanalyse de corrlation renseigne sur lintensit du lien entre les deux variables : ex : le lien est
fort et trs significatif .
Lanalyse causale dtermine le sens de la relation : ex temps de travail note au partiel
Karim DOUMI
SPSS 43
-
Chapitre 2 : Corrlation, rgression et causalit
5.1. Analyse bivarie
Corrlation entre deux variables quantitatives
Le coefficient de corrlation de Pearson r est une mesure
dassociation (dinterdpendance) entre deux variables mtriques
Il mesure lintensit de la co-variation entre les deux variables : les deux variables, mesures sur le mme ensemble dobservations, varient-elles de faon
analogue (si pour une observation, lune prend une valeur leve, lautre a galement une
valeur leve) ?
Karim DOUMI
SPSS 44
-
Chapitre 2: Corrlation, rgression et causalit
5.1. Analyse bivarie
Calcul du coefficient de corrlation de Pearson :
r est toujours compris entre 1 et 1
si r est proche de 1 alors le lien est fort et ngatif (quand 1 des 2 variables augmente lautre
diminue), alors que si r est proche de 1 le lien est fort et positif (quand 1 des deux variable augmente,
lautre augmente aussi)
si r est proche de 0 alors il ny a pas de lien entre x et y
)().(
)cov(
yx
xyr
Karim DOUMI
SPSS 45
-
Chapitre 2: Corrlation, rgression et causalit
5.1. Analyse bivarie
r et r2 :
Comme r indique le degr de la relation entre la variation dune variable et celle dune autre
variable, il peut galement reprsenter la dcomposition de la variation totale (en tant au carr). On
retiendra que r2 = variation explique variation totale
r2 mesure la proportion de la variation dune variable qui est explique par lautre.
r et r2 sont des mesures symtriques dassociation : la corrlation entre X et Y est la mme que la
corrlation entre Y et X. Il nest pas important de savoir quelle est la variable indpendante et quelle
est la variable dpendante.
Karim DOUMI
SPSS 46
-
Chapitre 2: Corrlation, rgression et causalit
5.1. Analyse bivarie
Interprtation du R2 :
Variance explique : R, coefficient de dtermination (proportion de variance totale de Y
qui nest pas due lerreur, ou encore proportion de la variance de Y explique par la
variance de X)
R = 0 : la variable indpendante nexplique rien
R = 1 : la variable explique compltement Y
R = 0,11 : 11% des variations de Y sont expliques par le modle
Karim DOUMI
SPSS 47
-
Chapitre 2: Corrlation, rgression et causalit
5.1. Analyse bivarie
Prcisons tout de suite que r indique la force dune relation linaire. Si on a r = 0, cela
signifie quil ny a pas de relation linaire entre X et Y, mais cela ne signifie pas que les 2
variables ne sont pas lies !!! Il peut trs bien y avoir une relation non linaire entre elles non
traduite par r. Faites un graph !
Y
X
Illustration : Il existe
bien une relation entre X
et Y, mais non linaire. Ici
r = 0
Karim DOUMI
SPSS 48
-
Chapitre 2: Corrlation, rgression et causalit
5.1. Analyse bivarie
Le coefficient de corrlation linaire r renseigne sur lintensit du lien entre 2 variables quantitatives.
Il doit tre complt afin de dterminer si lventuel lien mis jour est significatif ou non. On utilise
pour cela un test t :
Remarque : sous SPPS, la probabilit critique du test est fournie par la rubrique sig. (bilatrale)
rnrt 21
2.
Karim DOUMI
SPSS 49
-
Chapitre 2: Corrlation, rgression et causalit
5.1. Analyse bivarie
Exemple SPSS : y a-t-il un lien entre la taille de lunit sociale de visite (le nombre de personnes
qui forment le groupe) et le temps pass dans le muse dart ?
H0 : il ny a aucun lien entre ces deux variables (r=0)
H1 : il existe un lien entre ces deux variables (r0)
Analyse Corrlation Bivarie
Rsultat : coefficient de corrlation linaire de Pearson : r (entre -1 et 1)
Karim DOUMI
SPSS 50
-
Chapitre 2: Corrlation, rgression et causalit
5.1. Analyse bivarie
Corrlations
1 ,078
, ,071
542 538
,078 1
,071 ,
538 613
Corrlat ion de Pearson
Sig. (bilatrale)
N
Corrlat ion de Pearson
Sig. (bilatrale)
N
dure estime de la v isite
taille de l'unit sociale
dure
est ime de
la v isite
taille de l'unit
soc iale
Le coefficient de Pearson est faible et non significatif. On conclut quil nexiste pas de lien entre la dure de la visite et la taille de lunit sociale de visite
Karim DOUMI
SPSS 51
-
Chapitre 2: Corrlation, rgression et causalit
5.1. Analyse bivarie
Exercice
BDD Employes de SPSS : ya-t-il une corrlation positive significative entre salaire actuel et salaire
lembauche ? Entre salaire actuel et nombre de mois danciennet ?
Karim DOUMI
SPSS 52
-
Chapitre 2: Corrlation, rgression et causalit
5.1. Analyse bivarie
Corrlations
1,000 ,880** ,084
, ,000 ,067
474 474 474
,880** 1,000 -,020
,000 , ,668
474 474 474
,084 -,020 1,000
,067 ,668 ,
474 474 474
Corrlat ion de Pearson
Sig. (bilatrale)
N
Corrlat ion de Pearson
Sig. (bilatrale)
N
Corrlat ion de Pearson
Sig. (bilatrale)
N
Salaire courant
Salaire d'embauche
Anciennet (nombre
de mois)
Salaire
courant
Salaire
d'embauche
Anciennet
(nombre de
mois)
La corrlat ion est s ignif icativ e au niveau 0.01 (bilatral).**.
Corrlation positive forte et
significative
Corrlation positive faible et non
significative
Karim DOUMI
SPSS 53
-
Chapitre 2: Corrlation, rgression et causalit
5.1. Analyse bivarie
Rponse :
On veut calculer la corrlation entre Y (attitude envers la ville) et X (dure de rsidence dans la ville),
aprs contrle dune troisime variable Z (limportance du climat).
On commence par calculer les corrlations simples entre chaque variables :
rYX = 0,9361
rYZ = 0,7334
rXZ = 0,5495
Karim DOUMI
SPSS 54
-
Chapitre 2: Corrlation, rgression et causalit
5.1. Analyse bivarie
Corrlations
1,000 ,936** ,733**
, ,000 ,007
12 12 12
,936** 1,000 ,550
,000 , ,064
12 12 12
,733** ,550 1,000
,007 ,064 ,
12 12 12
Corrlat ion de Pearson
Sig. (bilatrale)
N
Corrlat ion de Pearson
Sig. (bilatrale)
N
Corrlat ion de Pearson
Sig. (bilatrale)
N
ATT_VILL
DURE_R
IMP_CLIM
ATT_VILL DURE_R IMP_CLIM
La corrlat ion est s ignif icativ e au niv eau 0.01 (bilatral).**.
Analyse Corrlation Bivarie
Karim DOUMI
SPSS 55
-
Chapitre 2: Corrlation, rgression et causalit
5.1. Analyse bivarie
La rgression simple :
Elle consiste dterminer une quation qui relie 2 variables quantitatives. Contrairement la
corrlation simple, elle ncessite didentifier lune des 2 variables comme tant dpendante (
expliquer) et lautre comme tant indpendante (explicative). Remarquons tout de mme que cette
mthode nimplique pas de causalit.
Le modle type est de la forme :
Yi = 0 + 1Xi + ei avec Y = variable dpendante ( expliquer)
X = variable indpendante (ou explicative)
0 = ordonne lorigine de la droite 1 = pente de la droite
ei = terme derreur associ la ime observation
Karim DOUMI
SPSS 56
-
Chapitre 2: Corrlation, rgression et causalit
5.1. Analyse bivarie
La rgression simple, vocabulaire :
Coefficient de dtermination r2 : proportion de la variation totale de Y explique par la variation
de X
Valeur estime (ou prdite) de Yi : i = a + bx avec i la valeur estime de Yi et a et b les
estimateurs respectifs de 0 et 1.
Coefficient de rgression : le paramtre b est appel coefficient de rgression non standardis.
Lcart-type rsiduel (SEE) : cest lcart-type des erreurs (valeurs relles Y moins valeurs
estimes ).
Erreur type (SEb): estimation de lcart-type de b
Karim DOUMI
SPSS 57
-
Chapitre 2: Corrlation, rgression et causalit
5.1. Analyse bivarie
La rgression simple, vocabulaire (suite) :
Coefficient de rgression standardis (coefficient bta) : il correspond la pente obtenue par la
rgression de Y sur X lorsque les donnes sont standardises.
Somme des erreurs au carr : les distances de tous les points la droite de rgression sont
leves au carr et additionnes pour obtenir la somme des erreurs au carr, qui est une mesure de
lerreur totale
Statistique t : valeur du t de Student n-2 degrs de libert, afin de rejeter ou non H0. Cette
statistique est associe sa probabilit critique (significative lorsquelle est < 0,05)
Karim DOUMI
SPSS 58
-
Chapitre 2: Corrlation, rgression et causalit
5.1. Analyse bivarie
Les tapes dune analyse de rgression simple : 1. La premire tape consiste reprsenter le nuage de points, variable dpendante sur laxe
vertical et variable indpendante sur laxe horizontal.
Cela permet de se faire une ide sur le type de lien (est-ce linaire ?) et de dtecter les ventuelles
valeurs extrmes qui risquent de perturber lanalyse.
Sous SPSS : Graph Diagramme de dispersion Simple
Karim DOUMI
SPSS 59
-
Chapitre 2: Corrlation, rgression et causalit
5.1. Analyse bivarie
DURE_R
20100
AT
T_
VIL
L
12
10
8
6
4
2
0
Karim DOUMI
SPSS 60
-
Chapitre 2: Corrlation, rgression et causalit
5.1. Analyse bivarie
2. Il sagit ensuite de trouver les caractristiques de la droite qui dcrit le mieux les donnes. On
utilise gnralement la mthode des moindres carrs. Elle consiste dterminer la droite de
rgression qui minimise le carr des distances verticales entre les points et la droite.
Avec une quation du type Yi = 0 + 1Xi + ei la distance verticale du point la droite est
reprsent par ei.
Les distances de tous les points la droite levs au carrs et additionns forment la somme des
carrs des erreurs, ou erreur totale , note
Le but est que cette valeur soit minimale (que les distances verticales soient minimises)
e j2
Karim DOUMI
SPSS 61
-
DURE_R
20100
AT
T_
VIL
L
12
10
8
6
4
2
0
y = 0 + 1x
ei
Yi
i
Karim DOUMI
SPSS 62
-
Chapitre 2: Corrlation, rgression et causalit
5.1. Analyse bivarie
3. Estimation des paramtres de la droite :
Dans la plupart des cas, 0 et 1 sont inconnues et estimes partir des observations de lchantillon
en utilisant lquation : i = a + bxi
O i est la valeur estime ou prdite de Yi et a et b sont les estimateurs respectifs de 0 et 1. La
constante b, qui est la pente de la droite de rgression est gnralement appele coefficient de
rgression non standardis. Cest la variation attendue de Y quand X varie dune unit.
)()cov(
XVXY
b XbYa
Karim DOUMI
SPSS 63
-
Chapitre 2: Corrlation, rgression et causalit
5.1. Analyse bivarie
4. Estimation du coefficient de rgression standardis :
La standardisation est le procd par lequel les donnes brutes sont transformes en nouvelles
variables, ayant une moyenne de 0 et une variance de 1. Lordonne lorigine prend alors une valeur
de 0. La pente obtenue par la rgression de Y par rapport X (BYX) est alors la mme que celle
obtenue par la rgression de X par rapport Y (BXY).
En outre, chacun de ces coefficients de rgression standardiss (bta) est gal au coefficient de
rgression simple entre X et Y : BYX = BXY = rXY
Il existe une relation simple entre les coefficients de rgression standardiss et non standardiss : BYX
= bXY(SX/SY)
Karim DOUMI
SPSS 64
-
Chapitre 2: Corrlation, rgression et causalit
5.1. Analyse bivarie
5. Test dhypothse :
En toute rigueur, la signification statistique de la relation linaire entre X et Y doit faire lobjet dun
test dhypothse. On pose :
H0 : 1 = 0 et H1 : 1 0
H0 implique quil ny a pas de relation linaire entre X et Y, tandis que lhypothse alternative H1 en
suppose une, positive ou ngative. On utilise un test bilatral t n-2 degrs de libert associ une
probabilit critique pour dterminer la significativit de 1.
Avec b coefficient de rgression et SEb lestimation de lcart-type de b.
bSEbt
Karim DOUMI
SPSS 65
-
Chapitre 2: Corrlation, rgression et causalit
5.1. Analyse bivarie
Exercice
En utilisant la BDD SPSS attitude envers la ville , ralisez une tude de corrlation et de rgression
entre la variable dpendante attitude envers la ville et la variable indpendante dure de rsidence.
Analyse Rgression Linaire
Karim DOUMI
SPSS 66
-
Chapitre 2: Corrlation, rgression et causalit
5.1. Analyse bivarie
Rcapitulatif du modle
,936a ,876 ,864 1,2233
Modle
1
R R-deux R-deux ajust
Erreur
standard de
l'est imat ion
Valeurs prdites : (constantes), DURE_Ra.
Analyse de corrlation :
Karim DOUMI
SPSS 67
-
Chapitre 2: Corrlation, rgression et causalit
5.1. Analyse bivarie
Rcapitulatif du modle
,936a ,876 ,864 1,2233
Modle
1
R R-deux R-deux ajust
Erreur
standard de
l'est imat ion
Valeurs prdites : (constantes), DURE_Ra.
Analyse de corrlation :
La dure de rsidence dans la ville explique
87,6 % lattitude
Le R2 ajuste permet de corriger le R2 en
fonction du nombre de variable. Ici, pas
dincidence.
Coefficient de Pearson
SEE
Karim DOUMI
SPSS 68
-
ANOVAb
105,952 1 105,952 70,803 ,000a
14,964 10 1,496
120,917 11
Rgress ion
Rs idu
Total
Modle
1
Somme
des carrs ddl Carr moy en F Signif ication
Valeurs prdites : (constantes), DURE_Ra.
Variable dpendante : ATT_VILLb.
Chapitre 2: Corrlation, rgression et causalit
5.1. Analyse bivarie
Significativit du modle de corrlation :
Karim DOUMI
SPSS 69
-
ANOVAb
105,952 1 105,952 70,803 ,000a
14,964 10 1,496
120,917 11
Rgress ion
Rs idu
Total
Modle
1
Somme
des carrs ddl Carr moy en F Signif ication
Valeurs prdites : (constantes), DURE_Ra.
Variable dpendante : ATT_VILLb.
Chapitre 2: Corrlation, rgression et causalit
5.1. Analyse bivarie
Significativit du modle de corrlation : Somme des carrs ddl
SSY = SSreg + SSres
La statistique F calcule pour 1 et 10 ddl correspond une
proba critique < 0,05. La relation entre X et Y est positive
et significative.
Karim DOUMI
SPSS 70
-
Coefficientsa
1,079 ,743 1,452 ,177
,590 ,070 ,936 8,414 ,000
(constante)
DURE_R
Modle
1
B
Erreur
standard
Coeff icients non
standardiss
Bta
Coeff icien
ts
standardi
ss
t Signif ication
Variable dpendante : ATT_VILLa.
Chapitre 2: Corrlation, rgression et causalit
5.1. Analyse bivarie
Paramtres du modle de corrlation :
Karim DOUMI
SPSS 71
-
Coefficientsa
1,079 ,743 1,452 ,177
,590 ,070 ,936 8,414 ,000
(constante)
DURE_R
Modle
1
B
Erreur
standard
Coeff icients non
standardiss
Bta
Coeff icien
ts
standardi
ss
t Signif ication
Variable dpendante : ATT_VILLa.
Chapitre 2: Corrlation, rgression et causalit
5.1. Analyse bivarie
Paramtres du modle de corrlation : BYX = BXY = rXY
Attitude () = 1,079 + 0,590
(dure de rsidence)
T = 0,5900,070=8,414 avec 12-2 ddl. Proba critique
associe < 0,05 ce qui confirme le test F : relation positive
significative entre X et Y
Karim DOUMI
SPSS 72
-
Karim DOUMI
SPSS
Exemple
73
-
Chapitre 2: Corrlation, rgression et causalit
5.1. Analyse bivarie
Hypothses implicites poses lors de lestimation des paramtres :
H1 : Le terme derreur est normalement distribu (pour chaque valeur fixe de X la distribution de Y
est normale).
H2 : Les moyennes de toutes ces distributions normales de Y, pour X donn, forment une droite
dont la pente est b.
H3 : La moyenne du terme derreur est 0.
H4 : La variance du terme derreur est constante, et ne dpend pas des valeurs prises par X.
H5 : Les termes derreur ne sont pas corrls (les observations ont t ralises indpendamment les
unes des autres).
Karim DOUMI
SPSS 74
-
Chapitre 2: Corrlation, rgression et causalit
5.1. Analyse bivarie
Exercice
1) Ralisez une analyse de corrlation et de rgression dans BDD employs entre salaire et salaire
embauche.
2) BDD enqute du comportement des amricains en 1993 : peut-on expliquer la tendance tre
libral ou conservateur (variable mtrique 7 modalits affilpol ) en fonction du revenu du
rpondant ?
3) Reprenez la BDD enqute du comportement des amricains en 1993 et ralisez une nouvelle
analyse de corrlation et de rgression susceptibles de prsenter un intrt, entre les variables de
votre choix.
Karim DOUMI
SPSS 75
-
Chapitre 2: Corrlation, rgression et causalit
5.1. Analyse bivarie
Corrlation ou rgression simple ?
Les deux mthodes donnent des rsultats totalement quivalents, et les conclusions qui peuvent en
tre tires sont identiques (R est, dans le cas de la rgression simple, le carr de r)
On choisira la rgression lorsque lobjectif est destimer un modle de prdiction (ex : prdire les ventes par les dpenses publicitaires)
Karim DOUMI
SPSS 76
-
Chapitre 2: Corrlation, rgression et causalit
5.2. Analyse multivarie
Principe : tudier les relations entre n variables prises simultanment (n>2)
Mthodes :
Explicative : rgression multiple, analyse discriminante
Descriptive : analyse factorielle des correspondances (AFC), analyse en composantes principales
(ACP)
Nature des variables :
Mtrique : rgression multiple (explicative) et ACP (descriptive)
Nominale : analyse discriminante (explicative), analyse factorielle (descriptive)
Karim DOUMI
SPSS 77
-
Chapitre 2: Corrlation, rgression et causalit
5.2. Analyse multivarie
Pourquoi raliser des rgressions multivaries ?
Limite de la rgression simple : un phnomne a rarement une seule cause. Par exemple, quest-ce qui
explique les ventes dun produit ?
Le budget pub, le budget force de vente, le prix, le nombre de points de vente, etc.
La rgression multiple permet, elle, de confirmer une relation de cause effet entre variables, cest--
dire expliquer les variations dune variable par plusieurs autres variables. Si cette relation est
confirme, il faut alors valuer son intensit.
Karim DOUMI
SPSS 78
-
Chapitre 2: Corrlation, rgression et causalit
5.2. Analyse multivarie
Mthode :
Y est la variable quantitative expliquer (dpendante), et X1, X2, , Xi, les i variables explicatives
(indpendantes) quantitatives ( la rigueur binaires). La forme gnrale du modle est :
Y = 0 + 1 X1 + 2 X2 + . + i Xi + avec minimum.
On recherche une fonction f qui lie les valeurs de Y celle des X et telle que f(Xi) soit le plus proche possible de Y.
Dans la pratique, on calcule lquation :
= b0 + b1 X1 + b2 X2 + . + bi Xi
Karim DOUMI
SPSS 79
-
Chapitre 2: Corrlation, rgression et causalit
5.2. Analyse multivarie
Prsentation des rsultats sous SPSS (1/4):
Analyse Rgression Linaire
La significativit globale du modle est fournie laide dun test F et une probabilit associe
Le R ajust indique le % de variance de Y explique par lquation (ajuste au nombre de variables
indpendantes et la taille de lchantillon)
Le coefficient de corrlation multiple R tend vers 1 lorsque la relation est forte, vers 0 lorsquelle
est nulle
1
)1(2
22
kn
kajust RRR
Karim DOUMI
SPSS 80
-
Chapitre 2: Corrlation, rgression et causalit
5.2. Analyse multivarie
Prsentation des rsultats sous SPSS (2/4) :
Les coefficients , dits coefficients de rgression partiels reprsentent la variation attendue de Y
quand Xi varie dune unit mais que les autres variables indpendantes sont maintenues constantes.
A chacun dentre eux est associ un tests t pour en estimer la significativit.
Pour comparer la contribution relative des Xi Y, il suffit de comparer les valeurs absolues des t
associs ou de lire les coefficients de rgression partiels standardiss Bta (moyenne=0 et cart-
type=1) qui permettent la comparaison entre Xi alors mme que celles-ci ont des units de mesure
diffrentes (exemple, pour estimer les ventes dun magasin : surface en m, nombre de produits en
promo, proximit du centre ville en km etc.)
Karim DOUMI
SPSS 81
-
Chapitre 2: Corrlation, rgression et causalit
5.2. Analyse multivarie
Prsentation des rsultats sous SPSS (3/4) :
Il est ncessaire de tester la colinarit, car la multicolinarit entre variables explicatives biaisent les
estimations de R :
Il faut tudier la tolrance : pourcentage de la variable explicative non explique par les autres variables explicatives (elle doit tre proche de 1, et en tout cas > 0,3)
Il faut aussi tudier le VIF (variance inflation factor) : degr daugmentation de lerreur li la multicolinarit (le VIF doit tre infrieur 4)
Karim DOUMI
SPSS 82
-
Chapitre 2: Corrlation, rgression et causalit
5.2. Analyse multivarie
Prsentation des rsultats sous SPSS (4/4) :
Enfin, il est ncessaire dexaminer les rsidus. Le rsidu ei est la diffrence entre la valeur observe
yi et la valeur calcule par le modle i. Ces erreurs ei sexpliquent dune part par leffet des variables
non prises en compte dans le modle, et dautre part par des variations alatoires. Pour que
linterprtation du modle soit valide, il faut que les rsidus se rpartissent de manire alatoire
autour de la valeur calcule. Pour vrifier ce dernier point, il suffit dexaminer le diagramme PP-
Gaussien : il ne doit y avoir aucune forme apparente dans la distribution des rsidus
Karim DOUMI
SPSS 83
-
Chapitre 2: Corrlation, rgression et causalit
5.2. Analyse multivarie
Exercice
Peut-on expliquer lattitude envers la ville en fonction de la dure de rsidence et de limportance
accorde au climat ?
Karim DOUMI
SPSS 84
-
Rcapitulatif du modle
,972a ,945 ,933 ,8597
Modle
1
R R-deux R-deux ajust
Erreur
standard de
l'est imat ion
Valeurs prdites : (constantes), IMP_CLIM, DURE_Ra.
Chapitre 2: Corrlation, rgression et causalit
5.2. Analyse multivarie
Rponse :
Sous SPSS : Analyse Rgression Linaire
Karim DOUMI
SPSS 85
-
Rcapitulatif du modle
,972a ,945 ,933 ,8597
Modle
1
R R-deux R-deux ajust
Erreur
standard de
l'est imat ion
Valeurs prdites : (constantes), IMP_CLIM, DURE_Ra.
Chapitre 2: Corrlation, rgression et causalit
5.2. Analyse multivarie
Rponse :
Le modle explique 93,3 % de la variance
de Y
La relation est forte
SEE
Karim DOUMI
SPSS 86
-
ANOVAb
114,264 2 57,132 77,294 ,000a
6,652 9 ,739
120,917 11
Rgress ion
Rs idu
Total
Modle
1
Somme
des carrs ddl Carr moy en F Signif ication
Valeurs prdites : (constantes), IMP_CLIM, DURE_Ra.
Variable dpendante : ATT_VILLb.
Chapitre 2: Corrlation, rgression et causalit
5.2. Analyse multivarie
Rponse :
Sous SPSS : Analyse Rgression Linaire
Statistiques : test de colinarit
Diagrammes : diagramme P-P gaussien
Karim DOUMI
SPSS 87
-
ANOVAb
114,264 2 57,132 77,294 ,000a
6,652 9 ,739
120,917 11
Rgress ion
Rs idu
Total
Modle
1
Somme
des carrs ddl Carr moy en F Signif ication
Valeurs prdites : (constantes), IMP_CLIM, DURE_Ra.
Variable dpendante : ATT_VILLb.
Chapitre 2: Corrlation, rgression et causalit
5.2. Analyse multivarie
Rponse :
Le test F est associ une probabilit derreur < 5 %. Le modle
est donc globalement significatif
Karim DOUMI
SPSS 88
-
Coefficientsa
,337 ,567 ,595 ,567
,481 ,059 ,764 8,160 ,000 ,698 1,433
,289 ,086 ,314 3,353 ,008 ,698 1,433
(constante)
DURE_R
IMP_CLIM
Modle
1
B
Erreur
standard
Coeff icients non
standardiss
Bta
Coeff icien
ts
standardi
ss
t Signif ication Tolrance VIF
Stat is tiques de
colinarit
Variable dpendante : ATT_VILLa.
Chapitre 2: Corrlation, rgression et causalit
5.2. Analyse multivarie
Rponse :
89 Karim DOUMI
SPSS
-
Coefficientsa
,337 ,567 ,595 ,567
,481 ,059 ,764 8,160 ,000 ,698 1,433
,289 ,086 ,314 3,353 ,008 ,698 1,433
(constante)
DURE_R
IMP_CLIM
Modle
1
B
Erreur
standard
Coeff icients non
standardiss
Bta
Coeff icien
ts
standardi
ss
t Signif ication Tolrance VIF
Stat is tiques de
colinarit
Variable dpendante : ATT_VILLa.
Chapitre 2: Corrlation, rgression et causalit
5.2. Analyse multivarie
Rponse :
1 et 2 sont significatifs. Ces 2 facteurs
sont donc importants pour expliquer Y
Lquation de la droite de rgression est : = 0,337 +
0,481X1 + 0,289X2
Pas de problme de
multicolinarit
Karim DOUMI
SPSS 90
-
Diagramme gaussien P-P de rgression de Rsidu standardis
Variable dpendante: ATT_VILL
Probabilit cumule observe
1,00,75,50,250,00
Pro
ba
bili
t o
bse
rv
e t
h
ori
qu
e
1,00
,75
,50
,25
0,00
Chapitre 2: Corrlation, rgression et causalit
5.2. Analyse multivarie
Rponse :
on de rsidu i (Yi calcul)
Yi observs
Pour lobservation i, on
estime ei par la distance
entre le point et la droite
Y=y
Karim DOUMI
SPSS 91
-
Chapitre 2: Corrlation, rgression et causalit
5.2. Analyse multivarie
La rgression pas pas :
Le but de la rgression pas pas est de slectionner, partir dun grand nombre de variables
explicatives, un petit sous-ensemble de variables qui expliquent la plus grande partie de la variation
de la variable dpendante ( expliquer).
Les variables explicatives sont introduites ou retires une une de lquation que lon cherche
optimiser.
2 mthodes sont possibles :
Karim DOUMI
SPSS 92
-
Chapitre 2: Corrlation, rgression et causalit
5.2. Analyse multivarie
Rgression pas pas ascendante : les variables sont entres dans le modle les unes aprs les
autres, en recherchant dabord la variable Xi la plus explicative, puis celle qui explique le plus la part
de variance restant expliquer etc.
Rgression pas pas descendante : les variables sont limines du modle global les unes aprs
les autres, en liminant dabord la variable Xi la moins explicative de Y, puis celle qui explique le
moins la variance restant expliquer etc.
Karim DOUMI
SPSS 93
-
Chapitre 2: Corrlation, rgression et causalit
5.2. Analyse multivarie
Conclusion sur la rgression multiple :
Choisir la rgression si lobjectif est un modle de prdiction
Bien rflchir au statut des variables dpendante et indpendantes
Disposer de variances suffisantes sur les variables introduites dans le modle.
Ne retenir que les significatifs.
viter les donnes avec des valeurs extrmes ou aberrantes
Karim DOUMI
SPSS 94