Cours_DOUMI SPSS 2013 2014.pdf

94
Introduction à SPSS Technique d’analyse quantitative des données I Professeur: Karim DOUMI Karim DOUMI SPSS 1

Transcript of Cours_DOUMI SPSS 2013 2014.pdf

  • Introduction SPSS

    Technique danalyse quantitative des donnes I

    Professeur: Karim DOUMI

    Karim DOUMI

    SPSS 1

  • Chapitre 1 : Fonctionnement de SPSS Gnralits

    SPSS est un outil statistique permettant des analyses simples:

    Statistiques descriptives,statistiques infrentielle. tests dhypothse.

    analyses plus sophistiques: Analyses multivaries

    des graphiques

    Les analyses se font partir des donnes saisies!!! La qualit des analyses statistiques est fonction de

    la qualit des donnes saisies

    Karim DOUMI

    SPSS 2

  • Fonctionnement de SPSS: Gnralits

    Quatre types de fichiers utiliss:

    Un fichier des donnes de ltude

    Fichier texte (.txt) ou excel (.xls)

    BD (access, Mysql, oracle..)

    Un fichier ddition des donnes (.sav)

    Un fichier de syntaxe (.sps)

    Un fichier de rsultats (.spo)

    Karim DOUMI

    SPSS 3

  • Fonctionnement de SPSS: Fichier de donnes

    Ce fichier nappartient pas SPSS:

    Peut prendre diverses formes (Excel, base de donnes, fichier texte,).

    Avantages du fichier texte:

    Utilisation sur PC ou Macintosh.

    Peut tre lu par nimporte quel programme de traitement de texte.

    Rsiste au temps et lvolution des diverses versions des logiciels.

    Cration du fichier texte:

    Utilisation du bloc-notes ou enregistrement dans WORD ou EXCEL sous le format texte

    Karim DOUMI

    SPSS 4

  • Karim DOUMI

    SPSS 5

  • Description des principales fentres :

    File : permet la gestion des fichiers (ex. : ouvrir un nouveau fichier, fermer, enregistrer,

    etc.). Edit : permet deffectuer les oprations de traitement de texte (ex. : copier, couper,

    coller, etc.). View : permet de dfinir les options de lcran (ex. : barres doutils). Data : traite tout ce qui est li la gestion de la barre de donnes (ex. : dfinir une variable, insrer une variable, etc.). Transform : permet deffectuer les diffrentes oprations de transformation des

    variables (ex. : recodification, catgorisation, cration dindices, etc.). Analyse : permet toutes les analyses statistiques que SPSS permet deffectuer (ex. : analyses descriptives, corrlations, rgressions, etc.). Graphs : prsente tous les types de graphiques que SPSS permet de crer (ex. : histogrammes, etc.). Utilities : comprend les utilitaires sur le programme (ex. : infos sur les fichiers, infos

    sur les variables, etc.). Windows : permet la gestion des fentres. Help : outil daide lutilisation du logiciel.

    Karim DOUMI

    SPSS 6

  • La dfinition des variables Name : sert donner un nom la variable. Le nom ne doit pas dpasser 8 caractres et il est recommand de ne

    pas utiliser de caractres accentus. Il doit bien reprsenter la variable pour vous permettre de la reconnatre facilement.

    Type : sert dcrire la variable et le format de la colonne. Il est recommand de laisser loption numeric qui

    est indique par dfaut. Pour les dcimales decimal places, vous pouvez les laisser gales 2 ou les mettre 0, selon la situation.

    Label : permet de donner une identification plus explicite la variable qui sera affiche dans les diffrents

    calculs statistiques. Values : permet de dfinir les valeurs que peuvent prendre la variable.

    Missing : permet dindiquer si la variable peut accepter ou non des valeurs manquantes. Remarque : la saisie des

    donnes manquantes se fait habituellement en effectuant un simple retour (cest la mthode recommande). Si vous avez prvu dutiliser des codes spcifiques (ex. : 9, 99, etc.), il faut les dfinir dans missing.

    Columns : permet de terminer la largeur de la colonne. Vous pouvez augmenter ou rduire la taille de la

    colonne. Align : sert aligner les donnes lintrieur des cellules. Scale : permet de dfinir le type de lchelle (nominale, ordinale, intervalles et ratio).

    Karim DOUMI

    SPSS 7

  • Fonctionnement de SPSS: Fichier de donnes

    Dans un fichier texte, les donnes de chaque sujet sont entres successivement, spares par un ; une , , une espace ou une tabulation. Il est prfrable dutiliser un ; ou une espace Exemple:

    Variables: identification (id), sexe du sujet (sexe, o f=1, h=2) et ge (age) on entrera: 1 1 28 participant 1 est une femme de 28 ans

    2 2 33 participant 2 est un homme de 33 ans

    3 2 32 participant 3 est un homme de 32 ans

    etc.

    Karim DOUMI

    SPSS 8

  • Fonctionnement de SPSS: Fichier de donnes

    Le fichier de donnes inclut les valeurs numriques associes vos donnes

    Ex. 7 pour signifier totalement en accord ou 1 pour signifier que le participant est un homme

    Principes gnraux de saisie:

    Chaque ligne = 1 participant

    Chaque colonne = 1 variable

    Karim DOUMI

    SPSS 9

  • Fonctionnement de SPSS: Fichier ddition des donnes

    Pour insrer les donnes dans ce fichier:

    Saisie des donnes manuellement

    Importation du fichier avec la syntaxe:

    Karim DOUMI

    SPSS

    GET DATA /TYPE = TXT /FILE = 'C:\Ex2.txt' /DELCASE = LINE /DELIMITERS = "\t" /ARRANGEMENT = DELIMITED /FIRSTCASE = 2 /IMPORTCASE = FIRST 1000 /VARIABLES = ID F3.2 L100KM F6.2 CHEVAPEU F3.2 POIDS A9 ACCEL F5.2 ORIGIN F3.2 NBCYL F3.2 ANNEE A8 . CACHE. EXECUTE.

    GET DATA /TYPE=XLS /FILE='C:\Ex2.xls' /SHEET=name 'Ex2' /CELLRANGE=full /READNAMES=on .

    10

  • Fonctionnement de SPSS: Fichier ddition des donnes

    Pour insrer les donnes dans ce fichier:

    Avec le menu

    Suivre les tapes affiches lcran

    Karim DOUMI

    SPSS 11

  • Fonctionnement de SPSS: Fichier ddition des donnes

    Attribuer un nom/code chaque variable

    Pour SPSS 12 et moins, max de 8 lettres/chiffres, mais dbutant ncessairement par une lettre

    Choisir des codes significatifs

    Conserver par crit les codes des variables!!!

    Karim DOUMI

    SPSS 12

  • Karim DOUMI

    SPSS

    ID identification du participant

    Code variable Signification

    motivation supprimer ses motions

    13

  • Fonctionnement de SPSS: Fichier ddition des donnes

    Attribuer une tiquette chaque variable

    Les codes sont limits. On peut dans SPSS attribuer une tiquette (label), laquelle permet de mieux se retrouver Onglet variable view

    pour modifier les paramtres des variables

    Karim DOUMI

    SPSS 14

  • Fonctionnement de SPSS: Fichier ddition des donnes

    Les donnes saisir dans SPSS sont numriques:

    Chaque modalit de rponse peut se voir attribuer une tiquette (Values)

    Karim DOUMI

    SPSS 15

  • Fonctionnement de SPSS: Fichier ddition des donnes

    Valeurs manquantes: Il importe dattribuer un

    code pour les valeurs manquantes; ceci facilite la vrification du fichier de donnes

    On doit spcifier SPSS un code pour signaler lexistence dune valeur manquante Ex. -999 pour une chelle

    allant de 1 7.

    Karim DOUMI

    SPSS 16

  • Fonctionnement de SPSS: Fichier syntaxe

    Les analyses avec SPSS se font:

    1.Par les menus ou

    2.Par les syntaxes

    Plus complexe premire vue, elle comporte des avantages majeurs: Certains types danalyses ou de sous-commandes ne sont pas

    disponibles via le menu.

    En spcifiant tous les paramtres de votre analyse vous tes plus mme de contrler les rsultats obtenus.

    Karim DOUMI

    SPSS 17

  • Fonctionnement de SPSS: Fichier syntaxe

    Le logiciel SPSS reconnat un ensemble dfini de commandes et de sous-commandes. Plusieurs d'entre elles seront vues lors des cours Sinon, guide en .pdf dans le menu daide

    Le fichier syntaxe est un fichier de commandes Elles indiquent SPSS quoi faire avec les donnes Les commandes et sous-commandes sont spares par

    une barre oblique (/) Aucun accent ne doit tre employ dans les commandes,

    sous-commandes et noms de variables Il ne faut pas oublier que les commandes SPSS se

    terminent toujours par un point.

    Karim DOUMI

    SPSS 18

  • Fonctionnement de SPSS: Fichier syntaxe

    Karim DOUMI

    SPSS 19

  • Fonctionnement de SPSS: Fichier syntaxe

    Karim DOUMI

    SPSS 20

  • Fonctionnement de SPSS: Fichier rsultats

    Karim DOUMI

    SPSS 21

  • Calculer une Variable

    Il arrive trs souvent que les variables brutes d'une base de donnes ne soient pas suffisantes pour effectuer certaines analyses. On peut avoir besoin de crer une ou des nouvelles variables partir des variables existantes, comme dans les cas suivants :

    Crer une variable qui contient la racine carre d'une variable existante

    Calculer la moyenne ou la somme d'une srie de variables existantes

    La commande Compute sert crer de nouvelles variables sur la base de fonctions arithmtiques, statistiques ou logiques.

    Karim DOUMI

    SPSS 22

  • Karim DOUMI

    SPSS

    Calculer une Variable Exemple

    23

  • Cette nouvelle variable sera la moyenne des rponses donnes par chaque sujet

    aux questions Q01, Q02, Q03,

    Allez dans le menu Transformer et choisissez Calculer la variable.

    Dans la boite de dialogue, crivez, dans Variable cible (tiquette), MOYSAT (cest le nom de la variable).

    Ensuite, allez dans la boite Groupe de fonctions et cliquez deux reprises sur Statistiques (il est dans le bas de la liste, vous devez utiliser lascenseur droite). Vous verrez dans la boite Fonctions et variables spciales la fonction Mean sur laquelle vous devez aussi cliquer deux reprises.

    Dans la boite du haut, vous verrez apparatre MEAN (?, ?). Vous devez alors insrer les variables Q01, Q02, Q03 dans la parenthse

    Karim DOUMI

    SPSS

    Calculer une Variable Exemple

    24

  • Vous pouvez galement crire la main la commande dans la boite

    Karim DOUMI

    SPSS

    Calculer une Variable Exemple

    25

  • Exercice sur la commande CALCULER : par syntaxe

    Maintenant, liminez la variable MOYSAT de la matrice de donnes (cliquez au haut de la colonne sur le nom de la variable, puis dans le menu dition, cliquez sur Effacer ou, plus simplement, sur le bouton effacer ou supprimer de votre clavier).

    Pour copier la commande lintrieur dun fichier Syntaxe recommencez les tapes prcdentes et remplacez le par

    Le texte copi dans cette fentre devrait se lire comme suit :

    Karim DOUMI

    SPSS

    Calculer une Variable Exemple

    26

  • faites la mme chose en crant la variable AGEX .(ge exacte de lindividu)

    Voici ce que devrait contenir maintenant votre fichier Syntaxe

    Karim DOUMI

    SPSS

    Calculer une Variable Exemple

    27

  • Cration dune variable La commande recode sert crer de nouvelles variables (ou

    modifier des variables existantes) sur la base dun regroupement des valeurs qu'on appelle aussi cl de recodage. Voici quelques situations dans lesquelles vous pouvez utiliser le recodage :

    partir d'une variable contenant la note d'examen sur 20, crer une nouvelle variable qui recode la note en lettre (A+, A-, A, etc..)

    Recoder les valeurs d'items inverss dans une chelle de mesure

    Diminuer le nombre de catgories d'une variable catgorielle en les regroupant diffremment

    Karim DOUMI

    SPSS 28

  • Imaginons que nous voulons raliser des analyses comparant les gens en formation (STATUT = 1) et les autres (STATUT = 2, 3 ou 4). Pour cela, il nous faut crer une variable qui diminue le nombre de catgories de 4 2. :

    Allez encore une fois dans le menu Transformer, puis slectionnez Cration de variables

    Recodez la variable STATUT de sorte que les sujets qui ont rpondu 1 auront la valeur 1 (en formation) alors que ceux qui ont la valeur 2, 3 ou 4 auront maintenant la valeur 2 (autres).

    Dans la boite de dialogue principale, inscrivez STATUTX dans la boite Nom de lencadr.

    Inscrivez ensuite Statut recod dans la boite tiquette du mme encadr.

    Cliquez sur

    Karim DOUMI

    SPSS

    Cration dune Variable Exemple

    29

  • Apres il faut Changer les anciennes valeurs par les nouvelles valeurs.

    Karim DOUMI

    SPSS

    Cration dune Variable Exemple

    30

  • Exercice sur la commande Recode : par syntaxe

    Pour les 3 variables a la fois la syntaxe est la suivante:

    Karim DOUMI

    SPSS

    Cration dune Variable Exemple

    31

  • Les expressions conditionnelles permettent de calculer des variables selon une condition, donc qui sapplique des sujets ou des observations (lignes) qui rpondent certains critres que nous allons dfinir selon nos besoins avec cette commande.

    La rsultante des expressions conditionnelles peut crer une nouvelle variable ou bien transformer les valeurs d'une variable existante. Dans le dernier cas, il faut s'assurer que l'crasement des valeurs originales ne porte pas consquence

    Voici lapparence Syntaxe la commande de cet exercice.

    IF (sexe = 1) satis1=MEAN (q01, q03, q05).

    Littralement, elle signifie que SI la valeur de la variable SEXE est gale 1 , la valeur de la variable SATIS1 sera gale la moyenne des valeurs des variables Q01, Q03 et Q05.

    Karim DOUMI

    SPSS

    Expression conditionnelle (IF)

    32

  • En utilisant le langage SPS:

    Karim DOUMI

    SPSS

    Expression conditionnelle (IF)

    33

  • Slection de cas:

    Pour certaines analyses, il peut tre ncessaire de filtrer une partie des observations (cas) pour obtenir des rsultats auprs d'un sous-groupe spcifique d'observations.

    Il est possible de slectionner une ou des observations laide de un ou d'une combinaison de critres, soit par la boite de dialogue, soit en utilisant une commande SYNTAXE.

    Les conditions de slection peuvent tre uniques ou multiples. Dans le cas dune seule condition, on inscrit la variable sur laquelle repose la slection avec la condition formule grce aux conditions arithmtiques (, =, =, ).

    Toutes les conditions multiples (deux variables ou plus) doivent utiliser les

    oprateurs logiques (AND et OR) pour sparer les conditions. Pour faire une slection de cas de manire interactive, allez dans le

    menu Donnes, puis cliquez sur Slectionnez des observations. Karim DOUMI

    SPSS 34

  • Slection de cas:

    Karim DOUMI

    SPSS

    Pour faire une slection de cas

    de manire interactive, allez

    dans le menu Donnes, puis

    cliquez sur Slectionnez des

    observations.

    35

  • Slection de cas:

    Dans la premire boite de dialogue, vous devez dterminer la stratgie de slection que vous allez utiliser. Vous avez plusieurs choix, mais le plus populaire est sans contredit Selon une condition logique. Dans ce cas, la slection se fait partir de la condition que vous noncez. Nous allons donc voir cette stratgie en premier et prciser les autres par la suite

    Karim DOUMI

    SPSS 36

  • Slection de cas

    Exemple :

    pour choisir les hommes de plus de 30 ans, on entrerait dans la boite:

    Sexe = 1 AND

    age > 30

    Karim DOUMI

    SPSS 37

  • Slection de cas:

    Si vous prfrez taper la commande manuellement,

    vous devriez crer la syntaxe suivante:

    Karim DOUMI

    SPSS 38

  • Slection de cas:

    Karim DOUMI

    SPSS 39

  • Les autres stratgies de slection

    Dans la boite de dialogue Slection de cas, vous avez bien sr la stratgie Si que nous venons de voir, mais aussi dautres choix. Voici une brve description pour chacun.

    Toutes les observations : vous ne faites pas de slection, vous utilisez toutes les observations. Trs utile quand vous voulez revenir la base initiale et annuler une condition pralablement tablie.

    Par chantillonnage alatoire : slection d'observations alatoire. Vous choisissez ce moment combien de cas vous voulez dans votre chantillon, soit en pourcentage (Environ _ % de toutes les observations), soit en prcisant un nombre d'observations parmi les X premiers (Exactement _ observations partir des premires _ Observations).

    Utiliser une variable de filtre : enfin, vous pouvez faire une slection en ne conservant que les cas qui ont des valeurs valides pour une variable filtre. Vous n'avez qu' transfrer la variable filtre dans la boite prvue cet effet.

    Karim DOUMI

    SPSS 40

  • Corrlation, rgression linaire simple avec SPSS

    41 Karim DOUMI

    SPSS

  • Chapitre 2 : Corrlation,

    rgression et causalit

    La rgression simple indique la nature de la liaison linaire entre

    deux variables (quantitatives). La corrlation indique le degr de

    linarit entre deux variables (quantitatives). Ainsi lanalyse de

    rgression fournit une fonction entire (une droite par exemple)

    alors que lanalyse de corrlation fournit un simple nombre un

    indice qui renseigne sur lintensit avec laquelle 2 variables voluent

    ensemble. Ces 2 techniques sont donc complmentaires. Lanalyse

    causale enfin va plus loin en prcisant le sens de la relation, le

    chemin de la cause leffet.

    Introduction : prcisions smantiques

    Karim DOUMI

    SPSS 42

  • Chapitre 2 : Corrlation,

    rgression et causalit

    Exemple

    Si je mintresse au lien entre le temps hebdomadaire moyen pass travailler (X) et la note obtenue

    au partiel (Y) :

    Lanalyse de rgression permet de dterminer une fonction qui lie les deux variables : ex : Y =

    aX + b

    Lanalyse de corrlation renseigne sur lintensit du lien entre les deux variables : ex : le lien est

    fort et trs significatif .

    Lanalyse causale dtermine le sens de la relation : ex temps de travail note au partiel

    Karim DOUMI

    SPSS 43

  • Chapitre 2 : Corrlation, rgression et causalit

    5.1. Analyse bivarie

    Corrlation entre deux variables quantitatives

    Le coefficient de corrlation de Pearson r est une mesure

    dassociation (dinterdpendance) entre deux variables mtriques

    Il mesure lintensit de la co-variation entre les deux variables : les deux variables, mesures sur le mme ensemble dobservations, varient-elles de faon

    analogue (si pour une observation, lune prend une valeur leve, lautre a galement une

    valeur leve) ?

    Karim DOUMI

    SPSS 44

  • Chapitre 2: Corrlation, rgression et causalit

    5.1. Analyse bivarie

    Calcul du coefficient de corrlation de Pearson :

    r est toujours compris entre 1 et 1

    si r est proche de 1 alors le lien est fort et ngatif (quand 1 des 2 variables augmente lautre

    diminue), alors que si r est proche de 1 le lien est fort et positif (quand 1 des deux variable augmente,

    lautre augmente aussi)

    si r est proche de 0 alors il ny a pas de lien entre x et y

    )().(

    )cov(

    yx

    xyr

    Karim DOUMI

    SPSS 45

  • Chapitre 2: Corrlation, rgression et causalit

    5.1. Analyse bivarie

    r et r2 :

    Comme r indique le degr de la relation entre la variation dune variable et celle dune autre

    variable, il peut galement reprsenter la dcomposition de la variation totale (en tant au carr). On

    retiendra que r2 = variation explique variation totale

    r2 mesure la proportion de la variation dune variable qui est explique par lautre.

    r et r2 sont des mesures symtriques dassociation : la corrlation entre X et Y est la mme que la

    corrlation entre Y et X. Il nest pas important de savoir quelle est la variable indpendante et quelle

    est la variable dpendante.

    Karim DOUMI

    SPSS 46

  • Chapitre 2: Corrlation, rgression et causalit

    5.1. Analyse bivarie

    Interprtation du R2 :

    Variance explique : R, coefficient de dtermination (proportion de variance totale de Y

    qui nest pas due lerreur, ou encore proportion de la variance de Y explique par la

    variance de X)

    R = 0 : la variable indpendante nexplique rien

    R = 1 : la variable explique compltement Y

    R = 0,11 : 11% des variations de Y sont expliques par le modle

    Karim DOUMI

    SPSS 47

  • Chapitre 2: Corrlation, rgression et causalit

    5.1. Analyse bivarie

    Prcisons tout de suite que r indique la force dune relation linaire. Si on a r = 0, cela

    signifie quil ny a pas de relation linaire entre X et Y, mais cela ne signifie pas que les 2

    variables ne sont pas lies !!! Il peut trs bien y avoir une relation non linaire entre elles non

    traduite par r. Faites un graph !

    Y

    X

    Illustration : Il existe

    bien une relation entre X

    et Y, mais non linaire. Ici

    r = 0

    Karim DOUMI

    SPSS 48

  • Chapitre 2: Corrlation, rgression et causalit

    5.1. Analyse bivarie

    Le coefficient de corrlation linaire r renseigne sur lintensit du lien entre 2 variables quantitatives.

    Il doit tre complt afin de dterminer si lventuel lien mis jour est significatif ou non. On utilise

    pour cela un test t :

    Remarque : sous SPPS, la probabilit critique du test est fournie par la rubrique sig. (bilatrale)

    rnrt 21

    2.

    Karim DOUMI

    SPSS 49

  • Chapitre 2: Corrlation, rgression et causalit

    5.1. Analyse bivarie

    Exemple SPSS : y a-t-il un lien entre la taille de lunit sociale de visite (le nombre de personnes

    qui forment le groupe) et le temps pass dans le muse dart ?

    H0 : il ny a aucun lien entre ces deux variables (r=0)

    H1 : il existe un lien entre ces deux variables (r0)

    Analyse Corrlation Bivarie

    Rsultat : coefficient de corrlation linaire de Pearson : r (entre -1 et 1)

    Karim DOUMI

    SPSS 50

  • Chapitre 2: Corrlation, rgression et causalit

    5.1. Analyse bivarie

    Corrlations

    1 ,078

    , ,071

    542 538

    ,078 1

    ,071 ,

    538 613

    Corrlat ion de Pearson

    Sig. (bilatrale)

    N

    Corrlat ion de Pearson

    Sig. (bilatrale)

    N

    dure estime de la v isite

    taille de l'unit sociale

    dure

    est ime de

    la v isite

    taille de l'unit

    soc iale

    Le coefficient de Pearson est faible et non significatif. On conclut quil nexiste pas de lien entre la dure de la visite et la taille de lunit sociale de visite

    Karim DOUMI

    SPSS 51

  • Chapitre 2: Corrlation, rgression et causalit

    5.1. Analyse bivarie

    Exercice

    BDD Employes de SPSS : ya-t-il une corrlation positive significative entre salaire actuel et salaire

    lembauche ? Entre salaire actuel et nombre de mois danciennet ?

    Karim DOUMI

    SPSS 52

  • Chapitre 2: Corrlation, rgression et causalit

    5.1. Analyse bivarie

    Corrlations

    1,000 ,880** ,084

    , ,000 ,067

    474 474 474

    ,880** 1,000 -,020

    ,000 , ,668

    474 474 474

    ,084 -,020 1,000

    ,067 ,668 ,

    474 474 474

    Corrlat ion de Pearson

    Sig. (bilatrale)

    N

    Corrlat ion de Pearson

    Sig. (bilatrale)

    N

    Corrlat ion de Pearson

    Sig. (bilatrale)

    N

    Salaire courant

    Salaire d'embauche

    Anciennet (nombre

    de mois)

    Salaire

    courant

    Salaire

    d'embauche

    Anciennet

    (nombre de

    mois)

    La corrlat ion est s ignif icativ e au niveau 0.01 (bilatral).**.

    Corrlation positive forte et

    significative

    Corrlation positive faible et non

    significative

    Karim DOUMI

    SPSS 53

  • Chapitre 2: Corrlation, rgression et causalit

    5.1. Analyse bivarie

    Rponse :

    On veut calculer la corrlation entre Y (attitude envers la ville) et X (dure de rsidence dans la ville),

    aprs contrle dune troisime variable Z (limportance du climat).

    On commence par calculer les corrlations simples entre chaque variables :

    rYX = 0,9361

    rYZ = 0,7334

    rXZ = 0,5495

    Karim DOUMI

    SPSS 54

  • Chapitre 2: Corrlation, rgression et causalit

    5.1. Analyse bivarie

    Corrlations

    1,000 ,936** ,733**

    , ,000 ,007

    12 12 12

    ,936** 1,000 ,550

    ,000 , ,064

    12 12 12

    ,733** ,550 1,000

    ,007 ,064 ,

    12 12 12

    Corrlat ion de Pearson

    Sig. (bilatrale)

    N

    Corrlat ion de Pearson

    Sig. (bilatrale)

    N

    Corrlat ion de Pearson

    Sig. (bilatrale)

    N

    ATT_VILL

    DURE_R

    IMP_CLIM

    ATT_VILL DURE_R IMP_CLIM

    La corrlat ion est s ignif icativ e au niv eau 0.01 (bilatral).**.

    Analyse Corrlation Bivarie

    Karim DOUMI

    SPSS 55

  • Chapitre 2: Corrlation, rgression et causalit

    5.1. Analyse bivarie

    La rgression simple :

    Elle consiste dterminer une quation qui relie 2 variables quantitatives. Contrairement la

    corrlation simple, elle ncessite didentifier lune des 2 variables comme tant dpendante (

    expliquer) et lautre comme tant indpendante (explicative). Remarquons tout de mme que cette

    mthode nimplique pas de causalit.

    Le modle type est de la forme :

    Yi = 0 + 1Xi + ei avec Y = variable dpendante ( expliquer)

    X = variable indpendante (ou explicative)

    0 = ordonne lorigine de la droite 1 = pente de la droite

    ei = terme derreur associ la ime observation

    Karim DOUMI

    SPSS 56

  • Chapitre 2: Corrlation, rgression et causalit

    5.1. Analyse bivarie

    La rgression simple, vocabulaire :

    Coefficient de dtermination r2 : proportion de la variation totale de Y explique par la variation

    de X

    Valeur estime (ou prdite) de Yi : i = a + bx avec i la valeur estime de Yi et a et b les

    estimateurs respectifs de 0 et 1.

    Coefficient de rgression : le paramtre b est appel coefficient de rgression non standardis.

    Lcart-type rsiduel (SEE) : cest lcart-type des erreurs (valeurs relles Y moins valeurs

    estimes ).

    Erreur type (SEb): estimation de lcart-type de b

    Karim DOUMI

    SPSS 57

  • Chapitre 2: Corrlation, rgression et causalit

    5.1. Analyse bivarie

    La rgression simple, vocabulaire (suite) :

    Coefficient de rgression standardis (coefficient bta) : il correspond la pente obtenue par la

    rgression de Y sur X lorsque les donnes sont standardises.

    Somme des erreurs au carr : les distances de tous les points la droite de rgression sont

    leves au carr et additionnes pour obtenir la somme des erreurs au carr, qui est une mesure de

    lerreur totale

    Statistique t : valeur du t de Student n-2 degrs de libert, afin de rejeter ou non H0. Cette

    statistique est associe sa probabilit critique (significative lorsquelle est < 0,05)

    Karim DOUMI

    SPSS 58

  • Chapitre 2: Corrlation, rgression et causalit

    5.1. Analyse bivarie

    Les tapes dune analyse de rgression simple : 1. La premire tape consiste reprsenter le nuage de points, variable dpendante sur laxe

    vertical et variable indpendante sur laxe horizontal.

    Cela permet de se faire une ide sur le type de lien (est-ce linaire ?) et de dtecter les ventuelles

    valeurs extrmes qui risquent de perturber lanalyse.

    Sous SPSS : Graph Diagramme de dispersion Simple

    Karim DOUMI

    SPSS 59

  • Chapitre 2: Corrlation, rgression et causalit

    5.1. Analyse bivarie

    DURE_R

    20100

    AT

    T_

    VIL

    L

    12

    10

    8

    6

    4

    2

    0

    Karim DOUMI

    SPSS 60

  • Chapitre 2: Corrlation, rgression et causalit

    5.1. Analyse bivarie

    2. Il sagit ensuite de trouver les caractristiques de la droite qui dcrit le mieux les donnes. On

    utilise gnralement la mthode des moindres carrs. Elle consiste dterminer la droite de

    rgression qui minimise le carr des distances verticales entre les points et la droite.

    Avec une quation du type Yi = 0 + 1Xi + ei la distance verticale du point la droite est

    reprsent par ei.

    Les distances de tous les points la droite levs au carrs et additionns forment la somme des

    carrs des erreurs, ou erreur totale , note

    Le but est que cette valeur soit minimale (que les distances verticales soient minimises)

    e j2

    Karim DOUMI

    SPSS 61

  • DURE_R

    20100

    AT

    T_

    VIL

    L

    12

    10

    8

    6

    4

    2

    0

    y = 0 + 1x

    ei

    Yi

    i

    Karim DOUMI

    SPSS 62

  • Chapitre 2: Corrlation, rgression et causalit

    5.1. Analyse bivarie

    3. Estimation des paramtres de la droite :

    Dans la plupart des cas, 0 et 1 sont inconnues et estimes partir des observations de lchantillon

    en utilisant lquation : i = a + bxi

    O i est la valeur estime ou prdite de Yi et a et b sont les estimateurs respectifs de 0 et 1. La

    constante b, qui est la pente de la droite de rgression est gnralement appele coefficient de

    rgression non standardis. Cest la variation attendue de Y quand X varie dune unit.

    )()cov(

    XVXY

    b XbYa

    Karim DOUMI

    SPSS 63

  • Chapitre 2: Corrlation, rgression et causalit

    5.1. Analyse bivarie

    4. Estimation du coefficient de rgression standardis :

    La standardisation est le procd par lequel les donnes brutes sont transformes en nouvelles

    variables, ayant une moyenne de 0 et une variance de 1. Lordonne lorigine prend alors une valeur

    de 0. La pente obtenue par la rgression de Y par rapport X (BYX) est alors la mme que celle

    obtenue par la rgression de X par rapport Y (BXY).

    En outre, chacun de ces coefficients de rgression standardiss (bta) est gal au coefficient de

    rgression simple entre X et Y : BYX = BXY = rXY

    Il existe une relation simple entre les coefficients de rgression standardiss et non standardiss : BYX

    = bXY(SX/SY)

    Karim DOUMI

    SPSS 64

  • Chapitre 2: Corrlation, rgression et causalit

    5.1. Analyse bivarie

    5. Test dhypothse :

    En toute rigueur, la signification statistique de la relation linaire entre X et Y doit faire lobjet dun

    test dhypothse. On pose :

    H0 : 1 = 0 et H1 : 1 0

    H0 implique quil ny a pas de relation linaire entre X et Y, tandis que lhypothse alternative H1 en

    suppose une, positive ou ngative. On utilise un test bilatral t n-2 degrs de libert associ une

    probabilit critique pour dterminer la significativit de 1.

    Avec b coefficient de rgression et SEb lestimation de lcart-type de b.

    bSEbt

    Karim DOUMI

    SPSS 65

  • Chapitre 2: Corrlation, rgression et causalit

    5.1. Analyse bivarie

    Exercice

    En utilisant la BDD SPSS attitude envers la ville , ralisez une tude de corrlation et de rgression

    entre la variable dpendante attitude envers la ville et la variable indpendante dure de rsidence.

    Analyse Rgression Linaire

    Karim DOUMI

    SPSS 66

  • Chapitre 2: Corrlation, rgression et causalit

    5.1. Analyse bivarie

    Rcapitulatif du modle

    ,936a ,876 ,864 1,2233

    Modle

    1

    R R-deux R-deux ajust

    Erreur

    standard de

    l'est imat ion

    Valeurs prdites : (constantes), DURE_Ra.

    Analyse de corrlation :

    Karim DOUMI

    SPSS 67

  • Chapitre 2: Corrlation, rgression et causalit

    5.1. Analyse bivarie

    Rcapitulatif du modle

    ,936a ,876 ,864 1,2233

    Modle

    1

    R R-deux R-deux ajust

    Erreur

    standard de

    l'est imat ion

    Valeurs prdites : (constantes), DURE_Ra.

    Analyse de corrlation :

    La dure de rsidence dans la ville explique

    87,6 % lattitude

    Le R2 ajuste permet de corriger le R2 en

    fonction du nombre de variable. Ici, pas

    dincidence.

    Coefficient de Pearson

    SEE

    Karim DOUMI

    SPSS 68

  • ANOVAb

    105,952 1 105,952 70,803 ,000a

    14,964 10 1,496

    120,917 11

    Rgress ion

    Rs idu

    Total

    Modle

    1

    Somme

    des carrs ddl Carr moy en F Signif ication

    Valeurs prdites : (constantes), DURE_Ra.

    Variable dpendante : ATT_VILLb.

    Chapitre 2: Corrlation, rgression et causalit

    5.1. Analyse bivarie

    Significativit du modle de corrlation :

    Karim DOUMI

    SPSS 69

  • ANOVAb

    105,952 1 105,952 70,803 ,000a

    14,964 10 1,496

    120,917 11

    Rgress ion

    Rs idu

    Total

    Modle

    1

    Somme

    des carrs ddl Carr moy en F Signif ication

    Valeurs prdites : (constantes), DURE_Ra.

    Variable dpendante : ATT_VILLb.

    Chapitre 2: Corrlation, rgression et causalit

    5.1. Analyse bivarie

    Significativit du modle de corrlation : Somme des carrs ddl

    SSY = SSreg + SSres

    La statistique F calcule pour 1 et 10 ddl correspond une

    proba critique < 0,05. La relation entre X et Y est positive

    et significative.

    Karim DOUMI

    SPSS 70

  • Coefficientsa

    1,079 ,743 1,452 ,177

    ,590 ,070 ,936 8,414 ,000

    (constante)

    DURE_R

    Modle

    1

    B

    Erreur

    standard

    Coeff icients non

    standardiss

    Bta

    Coeff icien

    ts

    standardi

    ss

    t Signif ication

    Variable dpendante : ATT_VILLa.

    Chapitre 2: Corrlation, rgression et causalit

    5.1. Analyse bivarie

    Paramtres du modle de corrlation :

    Karim DOUMI

    SPSS 71

  • Coefficientsa

    1,079 ,743 1,452 ,177

    ,590 ,070 ,936 8,414 ,000

    (constante)

    DURE_R

    Modle

    1

    B

    Erreur

    standard

    Coeff icients non

    standardiss

    Bta

    Coeff icien

    ts

    standardi

    ss

    t Signif ication

    Variable dpendante : ATT_VILLa.

    Chapitre 2: Corrlation, rgression et causalit

    5.1. Analyse bivarie

    Paramtres du modle de corrlation : BYX = BXY = rXY

    Attitude () = 1,079 + 0,590

    (dure de rsidence)

    T = 0,5900,070=8,414 avec 12-2 ddl. Proba critique

    associe < 0,05 ce qui confirme le test F : relation positive

    significative entre X et Y

    Karim DOUMI

    SPSS 72

  • Karim DOUMI

    SPSS

    Exemple

    73

  • Chapitre 2: Corrlation, rgression et causalit

    5.1. Analyse bivarie

    Hypothses implicites poses lors de lestimation des paramtres :

    H1 : Le terme derreur est normalement distribu (pour chaque valeur fixe de X la distribution de Y

    est normale).

    H2 : Les moyennes de toutes ces distributions normales de Y, pour X donn, forment une droite

    dont la pente est b.

    H3 : La moyenne du terme derreur est 0.

    H4 : La variance du terme derreur est constante, et ne dpend pas des valeurs prises par X.

    H5 : Les termes derreur ne sont pas corrls (les observations ont t ralises indpendamment les

    unes des autres).

    Karim DOUMI

    SPSS 74

  • Chapitre 2: Corrlation, rgression et causalit

    5.1. Analyse bivarie

    Exercice

    1) Ralisez une analyse de corrlation et de rgression dans BDD employs entre salaire et salaire

    embauche.

    2) BDD enqute du comportement des amricains en 1993 : peut-on expliquer la tendance tre

    libral ou conservateur (variable mtrique 7 modalits affilpol ) en fonction du revenu du

    rpondant ?

    3) Reprenez la BDD enqute du comportement des amricains en 1993 et ralisez une nouvelle

    analyse de corrlation et de rgression susceptibles de prsenter un intrt, entre les variables de

    votre choix.

    Karim DOUMI

    SPSS 75

  • Chapitre 2: Corrlation, rgression et causalit

    5.1. Analyse bivarie

    Corrlation ou rgression simple ?

    Les deux mthodes donnent des rsultats totalement quivalents, et les conclusions qui peuvent en

    tre tires sont identiques (R est, dans le cas de la rgression simple, le carr de r)

    On choisira la rgression lorsque lobjectif est destimer un modle de prdiction (ex : prdire les ventes par les dpenses publicitaires)

    Karim DOUMI

    SPSS 76

  • Chapitre 2: Corrlation, rgression et causalit

    5.2. Analyse multivarie

    Principe : tudier les relations entre n variables prises simultanment (n>2)

    Mthodes :

    Explicative : rgression multiple, analyse discriminante

    Descriptive : analyse factorielle des correspondances (AFC), analyse en composantes principales

    (ACP)

    Nature des variables :

    Mtrique : rgression multiple (explicative) et ACP (descriptive)

    Nominale : analyse discriminante (explicative), analyse factorielle (descriptive)

    Karim DOUMI

    SPSS 77

  • Chapitre 2: Corrlation, rgression et causalit

    5.2. Analyse multivarie

    Pourquoi raliser des rgressions multivaries ?

    Limite de la rgression simple : un phnomne a rarement une seule cause. Par exemple, quest-ce qui

    explique les ventes dun produit ?

    Le budget pub, le budget force de vente, le prix, le nombre de points de vente, etc.

    La rgression multiple permet, elle, de confirmer une relation de cause effet entre variables, cest--

    dire expliquer les variations dune variable par plusieurs autres variables. Si cette relation est

    confirme, il faut alors valuer son intensit.

    Karim DOUMI

    SPSS 78

  • Chapitre 2: Corrlation, rgression et causalit

    5.2. Analyse multivarie

    Mthode :

    Y est la variable quantitative expliquer (dpendante), et X1, X2, , Xi, les i variables explicatives

    (indpendantes) quantitatives ( la rigueur binaires). La forme gnrale du modle est :

    Y = 0 + 1 X1 + 2 X2 + . + i Xi + avec minimum.

    On recherche une fonction f qui lie les valeurs de Y celle des X et telle que f(Xi) soit le plus proche possible de Y.

    Dans la pratique, on calcule lquation :

    = b0 + b1 X1 + b2 X2 + . + bi Xi

    Karim DOUMI

    SPSS 79

  • Chapitre 2: Corrlation, rgression et causalit

    5.2. Analyse multivarie

    Prsentation des rsultats sous SPSS (1/4):

    Analyse Rgression Linaire

    La significativit globale du modle est fournie laide dun test F et une probabilit associe

    Le R ajust indique le % de variance de Y explique par lquation (ajuste au nombre de variables

    indpendantes et la taille de lchantillon)

    Le coefficient de corrlation multiple R tend vers 1 lorsque la relation est forte, vers 0 lorsquelle

    est nulle

    1

    )1(2

    22

    kn

    kajust RRR

    Karim DOUMI

    SPSS 80

  • Chapitre 2: Corrlation, rgression et causalit

    5.2. Analyse multivarie

    Prsentation des rsultats sous SPSS (2/4) :

    Les coefficients , dits coefficients de rgression partiels reprsentent la variation attendue de Y

    quand Xi varie dune unit mais que les autres variables indpendantes sont maintenues constantes.

    A chacun dentre eux est associ un tests t pour en estimer la significativit.

    Pour comparer la contribution relative des Xi Y, il suffit de comparer les valeurs absolues des t

    associs ou de lire les coefficients de rgression partiels standardiss Bta (moyenne=0 et cart-

    type=1) qui permettent la comparaison entre Xi alors mme que celles-ci ont des units de mesure

    diffrentes (exemple, pour estimer les ventes dun magasin : surface en m, nombre de produits en

    promo, proximit du centre ville en km etc.)

    Karim DOUMI

    SPSS 81

  • Chapitre 2: Corrlation, rgression et causalit

    5.2. Analyse multivarie

    Prsentation des rsultats sous SPSS (3/4) :

    Il est ncessaire de tester la colinarit, car la multicolinarit entre variables explicatives biaisent les

    estimations de R :

    Il faut tudier la tolrance : pourcentage de la variable explicative non explique par les autres variables explicatives (elle doit tre proche de 1, et en tout cas > 0,3)

    Il faut aussi tudier le VIF (variance inflation factor) : degr daugmentation de lerreur li la multicolinarit (le VIF doit tre infrieur 4)

    Karim DOUMI

    SPSS 82

  • Chapitre 2: Corrlation, rgression et causalit

    5.2. Analyse multivarie

    Prsentation des rsultats sous SPSS (4/4) :

    Enfin, il est ncessaire dexaminer les rsidus. Le rsidu ei est la diffrence entre la valeur observe

    yi et la valeur calcule par le modle i. Ces erreurs ei sexpliquent dune part par leffet des variables

    non prises en compte dans le modle, et dautre part par des variations alatoires. Pour que

    linterprtation du modle soit valide, il faut que les rsidus se rpartissent de manire alatoire

    autour de la valeur calcule. Pour vrifier ce dernier point, il suffit dexaminer le diagramme PP-

    Gaussien : il ne doit y avoir aucune forme apparente dans la distribution des rsidus

    Karim DOUMI

    SPSS 83

  • Chapitre 2: Corrlation, rgression et causalit

    5.2. Analyse multivarie

    Exercice

    Peut-on expliquer lattitude envers la ville en fonction de la dure de rsidence et de limportance

    accorde au climat ?

    Karim DOUMI

    SPSS 84

  • Rcapitulatif du modle

    ,972a ,945 ,933 ,8597

    Modle

    1

    R R-deux R-deux ajust

    Erreur

    standard de

    l'est imat ion

    Valeurs prdites : (constantes), IMP_CLIM, DURE_Ra.

    Chapitre 2: Corrlation, rgression et causalit

    5.2. Analyse multivarie

    Rponse :

    Sous SPSS : Analyse Rgression Linaire

    Karim DOUMI

    SPSS 85

  • Rcapitulatif du modle

    ,972a ,945 ,933 ,8597

    Modle

    1

    R R-deux R-deux ajust

    Erreur

    standard de

    l'est imat ion

    Valeurs prdites : (constantes), IMP_CLIM, DURE_Ra.

    Chapitre 2: Corrlation, rgression et causalit

    5.2. Analyse multivarie

    Rponse :

    Le modle explique 93,3 % de la variance

    de Y

    La relation est forte

    SEE

    Karim DOUMI

    SPSS 86

  • ANOVAb

    114,264 2 57,132 77,294 ,000a

    6,652 9 ,739

    120,917 11

    Rgress ion

    Rs idu

    Total

    Modle

    1

    Somme

    des carrs ddl Carr moy en F Signif ication

    Valeurs prdites : (constantes), IMP_CLIM, DURE_Ra.

    Variable dpendante : ATT_VILLb.

    Chapitre 2: Corrlation, rgression et causalit

    5.2. Analyse multivarie

    Rponse :

    Sous SPSS : Analyse Rgression Linaire

    Statistiques : test de colinarit

    Diagrammes : diagramme P-P gaussien

    Karim DOUMI

    SPSS 87

  • ANOVAb

    114,264 2 57,132 77,294 ,000a

    6,652 9 ,739

    120,917 11

    Rgress ion

    Rs idu

    Total

    Modle

    1

    Somme

    des carrs ddl Carr moy en F Signif ication

    Valeurs prdites : (constantes), IMP_CLIM, DURE_Ra.

    Variable dpendante : ATT_VILLb.

    Chapitre 2: Corrlation, rgression et causalit

    5.2. Analyse multivarie

    Rponse :

    Le test F est associ une probabilit derreur < 5 %. Le modle

    est donc globalement significatif

    Karim DOUMI

    SPSS 88

  • Coefficientsa

    ,337 ,567 ,595 ,567

    ,481 ,059 ,764 8,160 ,000 ,698 1,433

    ,289 ,086 ,314 3,353 ,008 ,698 1,433

    (constante)

    DURE_R

    IMP_CLIM

    Modle

    1

    B

    Erreur

    standard

    Coeff icients non

    standardiss

    Bta

    Coeff icien

    ts

    standardi

    ss

    t Signif ication Tolrance VIF

    Stat is tiques de

    colinarit

    Variable dpendante : ATT_VILLa.

    Chapitre 2: Corrlation, rgression et causalit

    5.2. Analyse multivarie

    Rponse :

    89 Karim DOUMI

    SPSS

  • Coefficientsa

    ,337 ,567 ,595 ,567

    ,481 ,059 ,764 8,160 ,000 ,698 1,433

    ,289 ,086 ,314 3,353 ,008 ,698 1,433

    (constante)

    DURE_R

    IMP_CLIM

    Modle

    1

    B

    Erreur

    standard

    Coeff icients non

    standardiss

    Bta

    Coeff icien

    ts

    standardi

    ss

    t Signif ication Tolrance VIF

    Stat is tiques de

    colinarit

    Variable dpendante : ATT_VILLa.

    Chapitre 2: Corrlation, rgression et causalit

    5.2. Analyse multivarie

    Rponse :

    1 et 2 sont significatifs. Ces 2 facteurs

    sont donc importants pour expliquer Y

    Lquation de la droite de rgression est : = 0,337 +

    0,481X1 + 0,289X2

    Pas de problme de

    multicolinarit

    Karim DOUMI

    SPSS 90

  • Diagramme gaussien P-P de rgression de Rsidu standardis

    Variable dpendante: ATT_VILL

    Probabilit cumule observe

    1,00,75,50,250,00

    Pro

    ba

    bili

    t o

    bse

    rv

    e t

    h

    ori

    qu

    e

    1,00

    ,75

    ,50

    ,25

    0,00

    Chapitre 2: Corrlation, rgression et causalit

    5.2. Analyse multivarie

    Rponse :

    on de rsidu i (Yi calcul)

    Yi observs

    Pour lobservation i, on

    estime ei par la distance

    entre le point et la droite

    Y=y

    Karim DOUMI

    SPSS 91

  • Chapitre 2: Corrlation, rgression et causalit

    5.2. Analyse multivarie

    La rgression pas pas :

    Le but de la rgression pas pas est de slectionner, partir dun grand nombre de variables

    explicatives, un petit sous-ensemble de variables qui expliquent la plus grande partie de la variation

    de la variable dpendante ( expliquer).

    Les variables explicatives sont introduites ou retires une une de lquation que lon cherche

    optimiser.

    2 mthodes sont possibles :

    Karim DOUMI

    SPSS 92

  • Chapitre 2: Corrlation, rgression et causalit

    5.2. Analyse multivarie

    Rgression pas pas ascendante : les variables sont entres dans le modle les unes aprs les

    autres, en recherchant dabord la variable Xi la plus explicative, puis celle qui explique le plus la part

    de variance restant expliquer etc.

    Rgression pas pas descendante : les variables sont limines du modle global les unes aprs

    les autres, en liminant dabord la variable Xi la moins explicative de Y, puis celle qui explique le

    moins la variance restant expliquer etc.

    Karim DOUMI

    SPSS 93

  • Chapitre 2: Corrlation, rgression et causalit

    5.2. Analyse multivarie

    Conclusion sur la rgression multiple :

    Choisir la rgression si lobjectif est un modle de prdiction

    Bien rflchir au statut des variables dpendante et indpendantes

    Disposer de variances suffisantes sur les variables introduites dans le modle.

    Ne retenir que les significatifs.

    viter les donnes avec des valeurs extrmes ou aberrantes

    Karim DOUMI

    SPSS 94