psy5520 - cours 8 - méthodes alternatives
Transcript of psy5520 - cours 8 - méthodes alternatives
![Page 1: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/1.jpg)
Régression multiple: Méthodes alternatives
PSY-5520
![Page 2: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/2.jpg)
Méthodes alternatives de régression Multicollinéarité:
Reformulation du modèle Régression sur les composantes principales Régression ‘ridge’
Mauvais ajustement du modèle: Régression non-linéaire Régression polynômiale Régression segmentée
Non normalité de la distribution des résidus et présence de scores extrêmes:
Régression robuste Régression pondérée
![Page 3: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/3.jpg)
Régression Non Linéaire
![Page 4: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/4.jpg)
Modèles intrinsèquement linéaires
![Page 5: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/5.jpg)
Modèles intrinsèquement linéaires (Suite)
![Page 6: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/6.jpg)
Régression polynômiale Modèles linéaires comportant un ou plusieurs termes
d’ordre supérieur Modèle quadratique:
Modèle cubique:
Modèle polynômial général:
20 1 2i i i iY x x x X X
2 30 1 2 3i i i i iY x x x x X X
20 1 2 ... p
i i p i i iY x x x x X X
![Page 7: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/7.jpg)
Transformation de la variable indépendante En général, la corrélation entre X et Xp est très
élevée, ce qui se traduit par une forte collinéarité Pour réduire le problème, on centre X par rapport à
la moyenne:
![Page 8: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/8.jpg)
Exemple numérique Relation entre le nombre de superviseurs et la
performance dans une ligne de montage
![Page 9: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/9.jpg)
Exemple numérique
![Page 10: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/10.jpg)
Exemple numérique
2705.474 54.893 4.249i i iY x x
![Page 11: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/11.jpg)
Modèles intrinsèquement non-linéaires (Exemples)
• Modèle de Gompertz:
• Modèle logistique:
• Modèle de Weibull:
f x ae e b cX
( )( )
f xa
e b cX( )
( )
1
f(x)= a[1- e ]-(bX )c
Paramètres: a, b et c
![Page 12: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/12.jpg)
Critère des moindres carrés et régression non-linéaire Étant donné la fonction Y' = f(X,), on
recherche le vecteur des coefficients qui minimise fE = [Y - f(X,)]2
Dans le cas d’un modèle linéaire, une solution unique existe et on l’obtient par la solution des équations normales
Dans le cas d’un modèle non-linéaire, il n’existe pas de solution unique à ce système d’équations: on doit procéder par optimisation
![Page 13: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/13.jpg)
Surfaces & Contours
![Page 14: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/14.jpg)
Illustration
y
x1x2
Y-
Y’)
2
Y-
Y’)
2
![Page 15: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/15.jpg)
Fonction d’erreur: représentation graphique
• Cas non-linéaire: il peut exister plusieurs minima ou maxima
• Cas linéaire: un seul minimum existe
![Page 16: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/16.jpg)
Exemple 1
X
1086420
Y
15.3
15.2
15.1
15.0
' bXY ae
![Page 17: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/17.jpg)
SPSS
![Page 18: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/18.jpg)
SPSS
![Page 19: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/19.jpg)
SPSS
![Page 20: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/20.jpg)
SPSS
![Page 21: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/21.jpg)
SPSS
![Page 22: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/22.jpg)
Exemple: Réponse à un médicament
( )
'b cXeY ae
y = Réponse
x = dosage
![Page 23: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/23.jpg)
Détermination des paramètres initiaux Travaux antérieurs
Nature du modèle: détermination analytique
Essais et erreurs (grille)
linéarisation
![Page 24: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/24.jpg)
SPSS: Régression non linéaire
![Page 25: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/25.jpg)
SPSS: Régression non linéaire
![Page 26: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/26.jpg)
SPSS: Régression non linéaire
![Page 27: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/27.jpg)
SPSS: Régression non linéaire
![Page 28: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/28.jpg)
Régression segmentée
Régression Linéaire Simple
![Page 29: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/29.jpg)
Définition Supposons qu’une variable a un effet linéaire à
l’intérieur d’une certaine étendue de ses valeurs, mais un effet linéaire différent pour une autre étendue…
Régression segmentée: permet un changement dans la pente Le modèle implique deux ou plusieurs segments Le vrai modèle est continu, mais avec une brisure structurale
![Page 30: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/30.jpg)
Exemple: segments continus
Y
X
1 1
2 2
y a b x pour x c
y a b x pour x c
1 1 2 2
2 1 1 2( )
a b c a b c
a a c b b
1 1
1 1 2 2( )
y a b x pour x c
y a c b b b x pour x c
![Page 31: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/31.jpg)
Définition Supposons qu’une variable a un effet linéaire à
l’intérieur d’une certaine étendue de ses valeurs, mais un effet linéaire différent pour une autre étendue…
Régression segmentée discontinue: permet un changement dans la pente ET dans l’intercept Le modèle implique deux ou plusieurs segments Le vrai modèle n’est pas continu au niveau de la brisure
structurale
![Page 32: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/32.jpg)
Problème Où se trouve(nt) le(s) point(s) de
rupture? L’utilisation de critère statistiques est
dangereuse Il est préférable de définir ce(s)
point(s) sur la base de la théorie
![Page 33: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/33.jpg)
Modèle Régression segmentée, continue:
Régression segmentée, discontinue:
0 1 2'
1:
0:
RUPTURE
RUPTURE
RUPTURE
Y b b X b C X P
C X P
C X P
0 1 2 3'
1:
0:
RUPTURE
RUPTURE
RUPTURE
Y b b X b C b C X P
C X P
C X P
![Page 34: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/34.jpg)
Exemple numérique Fichier: Regseg_Ex1.sav
Rupture à x=303
![Page 35: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/35.jpg)
Exemple numérique Création d’une variable indiquant que X est
plus petit (C=0) ou plus grand (C=1) que le point de rupture (303):
![Page 36: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/36.jpg)
Exemple numérique Création d’une variable telle que:
PR = (X – 303) x C
![Page 37: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/37.jpg)
Exemple numérique Régression: Y en fonction de X et de PR:
Régression: Y en fonction de X et de PR:
Sous X=303, le coefficient de régression n’est pas significatif
À partir de X=303, la pente passe à 0.567+0.007 = 0.574, un accroissement qui est significatif…
![Page 38: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/38.jpg)
Exemple numérique Régression: Y en fonction de X et de PR:
Régression: Y en fonction de X et de PR:
Sous X=303, le coefficient de régression n’est pas significatif
À partir de X=303, la pente passe à 0.567+0.007 = 0.574, un accroissement qui est significatif…
![Page 39: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/39.jpg)
Syntaxe SPSSRECODE X (0 THRU 303 = 0)(303 THRU HI = 1) INTO C. COMPUTE PR = C * (X – 303). REGRESSION
/VARIABLES = Y X PR/DEPENDENT = Y
/ ENTER X / ENTER PR.
![Page 40: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/40.jpg)
Régression Segmentée Discontinue
Relation discontinue à une valeur donnée de la variable indépendante
0 1 2 3'
1:
0:
RUPTURE
RUPTURE
RUPTURE
Y b b X b C b C X P
C X P
C X P
Rupture à x=45
![Page 41: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/41.jpg)
Régression Segmentée Discontinue
Données:
![Page 42: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/42.jpg)
Régression Segmentée Discontinue
Résultats:
![Page 43: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/43.jpg)
Régression Segmentée Discontinue
Résultats:
Résultats: Sous X=45, Y augmente de 0.63 unités
pour chaque augmentation d’une unité dans X. Ce résultat n’est pas significativement différent de zéro
À X=45, le saut est de 30.931 unités, résultat significatif
Au-dessus de X=45, Y augmente de 2.72+0.633 = 3.35 unités pour chaque augmentation d’une unité dans X. Ce résultat est significatif
![Page 44: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/44.jpg)
CORRECTION DE L’HÉTÉROSCÉDASTICITÉ
Moindres Carrés GénéralisésRégression Robuste
![Page 45: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/45.jpg)
Moindres Carrés Généralisés Compléter une régression OLS et sauvegarder les valeurs
résiduelles Calculer le logarithme naturel du carré des valeurs résiduelles
Compléter une régression OLS en utilisant Y’LN comme variable dépendante et en incluant toutes les variables indépendantes
Sauvegarder les valeurs prédites (Y’) Créer une nouvelle variable définie par :
Compléter une régression OLS en utilisant W comme pondération Les résultats de cette régression sont de manière approximative,
corrigés pour l’hétéroscédasticité
' 2ln( )LNY e
'
1Y
We
![Page 46: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/46.jpg)
Moindres Carrés Généralisés: Exemple numérique Fichier: CPS83.SAV Variables:
Dépendante: Wklywage Indépendante: yrseduc
Diagramme de dispersion: Hétérocédasticité évidente… Régression GLS indiquée…
![Page 47: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/47.jpg)
Moindres Carrés Généralisés: Exemple numérique Régression OLS & Sauvegarde des valeurs résiduelles
![Page 48: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/48.jpg)
Moindres Carrés Généralisés: Exemple numérique Régression OLS & Sauvegarde des valeurs résiduelles
![Page 49: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/49.jpg)
Moindres Carrés Généralisés: Exemple numérique Calcul du logarithme naturel du carré des valeurs résiduelles:
![Page 50: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/50.jpg)
Moindres Carrés Généralisés: Exemple numérique Régression OLS en utilisant Y’LN comme variable dépendante
et en incluant toutes les variables indépendantes et sauvegarde des valeurs prédites (Y’)
![Page 51: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/51.jpg)
Moindres Carrés Généralisés: Exemple numérique
Régression OLS en utilisant Y’LN comme variable dépendante et en incluant toutes les variables indépendantes et sauvegarde des valeurs prédites (Y’):
![Page 52: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/52.jpg)
Moindres Carrés Généralisés: Exemple numérique
Calcul des pondérations:
'
1Y
We
![Page 53: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/53.jpg)
Moindres Carrés Généralisés: Exemple numérique
Compléter une régression pondérée:
![Page 54: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/54.jpg)
Moindres Carrés Généralisés: Comparaison OLS vs GLS
![Page 55: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/55.jpg)
Régression Robuste
![Page 56: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/56.jpg)
Régression ‘OLS’ Lorsque tous les prérequis sont
respectés, la régression multiple régulière est optimale: Produit des estimations des coefficients
de régression qui ont de bonnes propriétés statistiques
Dans le cas contraire, la méthode peut produire des résultats inappropriés
![Page 57: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/57.jpg)
Régression robuste: Introduction Alternative à la régression linéaire
lorsque les conditions ne sont pas idéales Distributions non normales Présence de cas extrêmes Hétéroscédasticité
Méthode dont les prérequis sont moins restrictifs que dans le cas de la régression ‘OLS’
![Page 58: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/58.jpg)
Effets des cas extrêmes Ils peuvent avoir une influence importante sur
la régression Aucun cas extrême: l’influence de chaque cas est 1/n Cas extrêmes présents: le poids attribué à ces cas
peut atteindre des proportions suffisantes pour se traduire par des distortions importantes dans les résultats
Leur présence rend leur détection plus difficile: Ils attirent vers eux le plan de régression Les valeurs résiduelles sont plus faibles qu’elles ne
devraient l’être
![Page 59: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/59.jpg)
Régression robuste: objectif Identifier les cas extrêmes Diminuer l’influence de ces cas et
l’impact qu’ils ont sur les estimations des coefficients de régression
Maintenir élevée la valeur des résidus qui leur sont associés
![Page 60: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/60.jpg)
Estimateurs L Obtenus en minimisant la somme
d’une fonction des résidus:
OLS L2:
OLS L1:
OLS Lp:
2'Y Y minimum
'Y Y minimum
' 1 2p
Y Y minimum p
![Page 61: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/61.jpg)
L1 = Min(abs(résidus))
20100
100
80
60
40
20
0
-20
L1 - PRED
X
OLS Pred
X
Y
X
![Page 62: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/62.jpg)
SPSS: Fonction à minimiser
![Page 63: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/63.jpg)
Fonction à minimiser: L1
![Page 64: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/64.jpg)
Régression pondérée: Étapes
Estimer l’équation de régression (OLS) et analyser (et sauvegarder) les résidus
Si aucun problème est apparent, conserver cette solution
S’il y a problème: RÉGRESSION PONDÉRÉE
![Page 65: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/65.jpg)
Régression pondérée: Étapes Utilisant la procédure NONLIN, effectuer une
régression utilisant le critère L1, et sauvegarder les valeurs résiduelles non-standardisées
Calculer une nouvelle variable:NEWY = ABS(résidus)
Calculer une régression linéaire NEWY vs X, et sauvegarder les valeurs prédites (pred)
Est-ce que les valeurs résiduelles varient en fonction de X?
Calculer les poids: W = 1/pred**2 Plus la valeur résiduelle est grande, plus son poids est
petit… Exécuter une régression pondérée (OLS)
![Page 66: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/66.jpg)
ExempleRelation entre le taux de mortalité dans les grands centres urbains et le taux de pollution atmosphérique
![Page 67: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/67.jpg)
Sauvegarde des résidus non standardisés
![Page 68: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/68.jpg)
Résultats avant pondération
![Page 69: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/69.jpg)
Calcul de abs(résidus)
![Page 70: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/70.jpg)
Newy versus X et sauvegarde des valeurs prédites
![Page 71: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/71.jpg)
Poids
![Page 72: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/72.jpg)
Régression pondérée
![Page 73: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/73.jpg)
Régression pondérée
![Page 74: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/74.jpg)
SPSS: Estimation des pondérations
Variable liée auxvariations dans la
dispersion des erreursÉtendue de la
puissanceà examiner
![Page 75: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/75.jpg)
SPSS: Estimation des pondérations
On recherche la plus petite valeur de la fonction de vraisemblance maximale…
1.8
1
i
wX
![Page 76: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/76.jpg)
SPSS: Estimation des pondérations
La variable wgt_1 contient les pondérations recherchées…
![Page 77: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/77.jpg)
SPSS: Régression pondérée
![Page 78: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/78.jpg)
SPSS: Régression pondérée
![Page 79: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/79.jpg)
SPSS: Régression pondérée
![Page 80: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/80.jpg)
SPSS: Régression pondérée
![Page 81: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/81.jpg)
SPSS: Relation entre X et W
Les points observés pour les valeurs élevées de X ont moins de poids que ceux observés pour les valeurs faibles de X: correction pour l’hétérocédasticité…
![Page 82: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/82.jpg)
Estimateurs M Obtenus en minimisant une fonction
telle que:
La constante 0.6745 fait de s une estimation non biaisée de lorsque n est grand et que la distribution de l’erreur est normale
( )
0.6745
i i
i i
e yminimum
s s
median e median es
'ix β
![Page 83: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/83.jpg)
Estimation M: procédure1. Obtenir un ensemble de valeurs initiales pour
les coefficients de régression (eg ceux que l’on obtient par OLS)
2. Calculer les résidus à partir des données de l’étape précédente
3. Obtenir un ensemble de pondérations (Wi) initiales:
1. 0 ≤ Wi ≤ 1
2. Wi est faible pour les grands résidus
3. Wi est grand pour les petits résidus
4. La relation entre Wi et les résidus est déterminée par la fonction d’influence
![Page 84: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/84.jpg)
Estimation M: procédure (Suite)
4. Utilisant les pondérations obtenues en (3), compléter une régression pondérée pour obtenir un nouvel ensemble de coefficients de régression
5. De (4), obtenir un nouvel ensemble de résidus et retourner à l’étape 3
6. Ré-itérer les étapes 3-5 jusqu’à ce qu’il n’y ait plus de changement important entre deux itérations successives
![Page 85: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/85.jpg)
Fonction d’influence Contrôle le poids attribué à chaque observation La plupart des fonctions d’influence impliquent des
résidus ré-échelonnés définis par:
s est une alternative résistante basée sur la médiane des résidus (MAD: ‘Median Absolute Deviation’)
Lorsque la distribution des erreurs est normale, MAD sera très près de l’erreur standard d’estimation
Lorsque la distribution des erreurs n’est pas normale, MAD sera plus résistant que l’erreur standard d’estimation
( ),
0.6745i ii
i
median e median eeu s
s
![Page 86: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/86.jpg)
Fonctions d’influence
OLS: Wi = 1 pour tout i tous les cas ont un poids de 1
.
LAV (Least-Absolute-Values):
Wi = 1 / |ui| (pour ui ≠ 0) Problème: pour les valeurs
rapprochées de 0, les poids sont trop élevés!
![Page 87: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/87.jpg)
Fonctions d’influence Fonction de Huber:
Wi = 1 if |ui| c Wi = c/|ui| if |ui| > c Diminue graduellement le poids des cas associés
à des résidus supérieurs à une constante d’ajustement c
Plus c est grand, plus cette fonction s’approche de OLS
La fonction d’influence n’atteint jamais 0: aucun cas n’est totalement éliminé
Avec c=1.345, l’estimation est 95% aussi efficace qu’OLS lorsque les erreurs sont normalement distribués
![Page 88: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/88.jpg)
Fonction de Huber
0.0
0.4
0.8
1.2
-1.0 1.3 3.7 6.0
Residus vs Poids
Residus
Poid
s
![Page 89: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/89.jpg)
Fonctions d’influence (Suite) Fonction de Tukey:
Plus le résidu s’approche de c, plus le poids diminue. Si le résidu dépasse c, le poids devient nul (le cas est
effectivement éliminé de l’analyse) Avec c=4.685 et des erreurs normalement distribuées,
l’efficacité atteint 95% de celle d’OLS Fonction utile lorsque les distributions ont des
extrémités très importantes Problème: il peut exister plusieurs solutions et la
méthode est sensible aux valeurs initiales; on peut obtenir des estimations inadéquates des coefficients de régression
22
1 if
0 if
ii i
i i
uw u c
c
w u c
![Page 90: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/90.jpg)
Fonction de Tukey
![Page 91: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/91.jpg)
Fonctions d’influence (Suite) Fonction de Andrew:
Les résultats sont similaires à ceux obtenus avec la fonction de Tukey
La constance c est généralement égale à 1.339
sinif
0 if
i
i ii
i i
uc
w u cuc
w u c
![Page 92: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/92.jpg)
Fonctions d’influence (Suite)
Fonction de Andrew:
sinif
0 if
i
i ii
i i
u
cw u c
u
cw u c
![Page 93: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/93.jpg)
Exemple: Pollution et Mortalité
Influence de la pollution sur le taux de mortalité dans les grandes villes américaines (n=60)
On transforme la variable indépendante pour corriger un problème de normalité (asymétrie très prononcée)
![Page 94: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/94.jpg)
Exemple
![Page 95: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/95.jpg)
Exemple: Régression OLS La pollution permet
d’expliquer 2.3% de la variance dans la mortalité
À partir de cette analyse, on est amené à conclure que la pollution a peu d’impact sur le taux de mortalité
![Page 96: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/96.jpg)
Exemple: Régression OLS Quatre données se
démarquent du groupe: Los Angeles, San Francisco, San Diego et San Jose
Pollution élevée Taux de mortalité faible
Quatre villes de Californie:
Erreurs non aléatoires Une ou plusieurs
variables importantes ont été omises
![Page 97: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/97.jpg)
Exemple: Régression OLS Solutions:
Inclure les variables qui ont été omises, si c’est possible…
Reconduire l’analyse suite à l’élimination des 4 points déviants
Utiliser une procédure de régression robuste
Une régression robuste offre une meilleure alternative
Résultats plus raisonnables qu’une régression OLS affectée par des cas extrêmes non corrigés
![Page 98: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/98.jpg)
Exemple: Régression Robuste
![Page 99: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/99.jpg)
Éléments d’une régression robuste Estimation robuste des coefficients de
régression et des erreurs standards Une différence par rapport aux estimations
OLS indiquent les effets de cas influents: les résultats OLS ne sont pas fiables
Valeurs prédites et valeurs résiduelles robustes Les prédictions se conforment à la majorité des
points Les résidus permettent d’identifier les cas vraiment
inhabituels Poids robustes: indices permettant de déceler
les cas extrêmes
![Page 100: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/100.jpg)
Limites de la régression robuste Les mêmes problèmes pouvant survenir
en régression multiples peuvent survenir en régression robuste Multicollinéarité Données manquantes Erreurs de spécification (choix du modèle)
Elle n’élimine pas l’étape de diagnostic et d’exploration préliminaire des données
![Page 101: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/101.jpg)
Avantages de la régression robuste On obtient des coefficients et des erreurs
standards robustes Des différences importantes entre une solution
OLS et une solution robuste indiquent que les effets de scores extrêmes sont importants: confirmation des résultats d’OLS
Une prédiction fondée sur une solution robuste pourrait mieux correspondre à la majorité des données, puisque les scores extrêmes attirent moins le plan de régression vers eux
Un outil de diagnostic permettant une meilleure détection des scores extrêmes
![Page 102: psy5520 - cours 8 - méthodes alternatives](https://reader035.fdocuments.us/reader035/viewer/2022062405/5571f34249795947648dbdf3/html5/thumbnails/102.jpg)
Exercices Analysez les données contenues dans le
fichiers NONLIN.SAV. La fonction liant X à Y est de la forme:
Analysez les données contenues dans le fichier DAVIS.SAV:
Est-ce que le poids rapporté par les sujets permet de prédire leur poids réel?
Est-ce que la taille rapportée par les sujets permet de prédire leur taille réelle?
( )
'b cxeY ae
a : 100 -130b : 0 - 4c : 0 - 2