4 Regression

84
Partie IV ethodes de r´ egression 17. Inf´ erence classique pour la r´ egression simple 18. R´ egression multiple: introduction 19. Ajustement du mod` ele de r´ egression multiple 20. Inf´ erence classique pour la r´ egression multiple 21. Inf´ erence par bootstrap pour la r´ egression 22. Introduction ` a la r´ egression logistique 23. Introduction ` a l’analyse de survie

Transcript of 4 Regression

Page 1: 4 Regression

Partie IV

Methodes de regression

17. Inference classique pour la regression simple18. Regression multiple: introduction19. Ajustement du modele de regression multiple20. Inference classique pour la regression multiple21. Inference par bootstrap pour la regression22. Introduction a la regression logistique23. Introduction a l’analyse de survie

Page 2: 4 Regression

17.1

Chapitre 17Inference classique pour la regression simple

Dans le Chapitre 3, le modele de regression simple a ete introduit. Ce modele decrit larelation entre deux variables X et Y a l’aide d’une droite. X est la variable explicative etY la reponse. Les coefficients a (intercept) et b (pente) de la droite sont determines a l’aided’un echantillon (x1, y1), . . . , (xn, yn): le critere des moindres carres fournit les estimationsa et b. Les methodes d’inference permettent de tester des hypotheses telles que “b (ou a)est egal a une valeur specifiee” et de determiner des intervalles de confiance pour a et b.Dans ce chapitre, nous utilisons les notations introduites au Chapitre 3.

17.1 Modele classique pour l’inference

Selon l’approche introduite au Chapitre 8, Section 8.3, nous decrivons les reponses a l’aidede variables aleatoires Y1, . . . , Yn. Il n’est pas necessaire de supposer que les xi sont obtenusde facon aleatoire. Les xi pourraient etre, par exemple, les doses d’un medicament, fixeesarbitrairement lors d’une experience ou les Yi representent une mesure d’amelioration;plusieurs individus pourraient etre soumis a la meme dose et manifester des niveauxdifferents d’amelioration. L’approche classique a l’inference, se fonde sur un ensemblede conditions connues comme le modele de Gauss .

1. Yi = a + bxi + Ui, i = 1, . . . , n ou a et b sont des parametres.2. Les erreurs Ui sont i.i.d. et independentes de Xi.

La moyenne des erreurs est nulle et la variance est un parametre note σ2.3. Ui ∼ N (0, σ2).

La distribution de Yi en fonction de xi est esquissee dans la Figure 1.

Y

X1 X2 X3 X4 Xn...

Figure 1. Distribution de Yi en fonction de xi

Remarques

1. Souvent les Xi sont obtenus de facon aleatoire simultanement aux Yi. Dans ce cas,il faudra interpreter les resultats concernants la distribution des estimateurs de faconconditionnelle, les valeurs obervees des Xi etant donnees.

c©A. Marazzi

Page 3: 4 Regression

17.2

2. Les equations Yi = a+bxi +Ui pour les variables aleatoires correspondent a n equationspour les reponses observees:

yi = a + bxi + ui, i = 1, . . . , n.

Notez que les erreurs ui ne sont pas observables (car a et b sont inconnus).

3. On dit que les equations Yi = a + bxi + Ui caracterisent la “structure du modele”,tandis que les conditions 2 et 3 caracterisent la “partie aleatoire du modele”. Une autreexpression de la structure du modele est

E(Y |X = x) = a + bx.

Ici, E(Y |X = x) est l’esperance conditionnelle de Y pour X = x (c’est-a-dire, l’esperancede la distribution conditionnelle de Y pour X = x donne).

17.2 Distributions des estimateurs

Les resultat suivants s’obtiennent sous le modele de Gauss.

– les estimateurs a et b suivent des distributions de Gauss:

a ∼ N (a, σ2(a)), b ∼ N (b, σ2(b)),

ou

σ2(a) =[

1n

+x2

s2xx

]σ2, σ2(b) =

1s2

xx

· σ2, s2xx =

n∑i=1

(xi − x)2.

En outre, si yx = a+ bx indique la reponse calculee en fonction d’une valeur x donnee,alors yx suit une distribution de Gauss de moyenne yx = a + bx et de variance

σ2(yx) =[

1n

+(x − x)2

s2xx

]σ2.

Ces resultats pourraient permettre de realiser des inferences si σ2 etait connu. Mais enpratique, σ2 est presque toujours inconnu et il faut l’estimer. Dans ce but, on utilisel’estimateur

σ2 =1

n − 2

n∑1

e2i ,

ou ei = yi−(a+ bxi). (Noter que les residus observes ei ne sont pas les erreurs aleatoires Ui

et que σ2 est note s2E au Chapitre 3.) Des estimations σ2(a), σ2(b) et σ2(yx) des variances

de a, b et yx sont alors obtenues des expressions de σ2(a), σ2(b) et σ2(yx), en remplacantσ2 par σ2. On demontre alors que:

– La variable aleatoire (n − 2)σ2/σ2 suit une distribution χ2 a n − 2 degres de liberte.

– Les estimateurs standardises

(a − a)/σ(a), (b − b)/σ(b), (yx − yx)/σ(yx)

suivent une distribution t a n − 2 degres de liberte.

Page 4: 4 Regression

17.3

17.3 Intervalles de confiance usuels

Le resultats precedents permettent d’obtenir les intervalles de confiance pour a, b et yx =a + bx pour un x fixe. Soit α une probabilite prefixee (par exemple, α = 2.5%). Alors, desintervalles de confiance bilateraux avec coefficient de couverture 1 − 2α sont:

[a − σ(a) t1−α,n−2, a + σ(a) t1−α,n−2],

[b − σ(b) t1−α,n−2, b + σ(b) t1−α,n−2],[yx − σ(yx) t1−α,n−2, yx + σ(yx) t1−α,n−2],

ou t1−α,n−2 indique le percentile 1 − α de la distribution t a n − 2 degres de liberte.En outre,

[(n − 2)σ2/χ21−α,n−2 , (n − 2)σ2/χ2

α,n−2],

ou χ2α,n−2 est le percentile α de la distribution χ2 a n−2 degres de liberte, est un intervalle

de confiance avec coefficient de couverture 1 − 2α pour σ2

17.4 Tests usuelsL’hypothese

H0 : b = b0,

ou b0 est une valeur donnee, peut etre rejetee au niveau α, en faveur de l’alternativeH1 : b �= b0, si la statistique de test

T =(b − b0)

σ(b)

n’appartient pas a l’intervalle [tα/2,n−2, t1−α/2,n−2]. Un exemple frequent est b0 = 0,auquel cas H0 signifie que la covariable n’explique pas la reponse. De facon equivalente,on peut rejeter H0 en faveur de H1 au niveau α si l’intervalle de confiance avec coefficientde couverture 1−α pour b ne contient pas b0. L’hypothese H0 : a = a0 contre l’alternativeH1 : a �= a0, ou a0 est une valeur donnee, est traitee de la meme maniere.

Remarques

1. Il est possible d’ajuster aux donnees une droite qui passe par l’origine, c’est-a-dire,d’imposer la condition a = 0 au modele. On peut alors etudier les distributions de b,yx = bx et σ et etablir de nouvelles formules pour les intervalles de confiance et les tests.Voir Chapitre 18 pour une approche generale a la regression qui inclue le modele Yi = bxi.2. Les logiciels de statistique courants fournissent dans leurs outputs standards les valeursde σ(a) et de σ(b), ainsi que celles des statistiques a/σ(a) et b/σ(b) et les P-values corre-spondantes. Par exemple, R et S-plus calculent

P(|tn−2| > |a/σ(a)|) et P(|tn−2| > |b/σ(b)|),ou tn−2 indique une variable aleatoire qui suit une distribution t a n − 2 degres de liberteet a/σ(a) et b/σ(b) designent les valeurs observees des statistiques correspondantes.

17.5 Analyse des residusSi le modele de Gauss est approprie, les residus ont approximativement une distributionde Gauss. Il faut donc examiner cette condition a l’aide d’un qq-plot. En outre, lavariance des residus ne doit pas dependre de la variable explicative. Il est donc opportunde representer graphiquement les residus en fonction des valeurs observees de X . Aucune

c©A. Marazzi

Page 5: 4 Regression

17.4

relation (relation non lineaire, variance non homogene) ne doit apparaıtre. Si une relationapparaıt le modele de Gauss et les inferences obtenues avec son appui doivent etre mis endoute.

17.6 Exemple

La Table 1 donne les temps t [s] de chute d’une bille lachee de differentes hauteurs h[m]. Les mesures ont ete prises par une etudiante du gymnase aux travaux pratiques dephysique, dans le but de verifier la relation h = (1/2)γt2 avec γ = 9.81 [m/s2].

Table 1. Mesures des hauteurs h et des temps t

h [m] t [s] h [m] t

0.15 0.173 0.15 0.1790.15 0.177 0.15 0.1840.20 0.199 0.20 0.2010.20 0.218 0.20 0.2020.25 0.244 0.25 0.2250.25 0.227 0.25 0.2260.30 0.244 0.30 0.2530.30 0.244 0.30 0.2480.35 0.275 0.35 0.2700.35 0.268 0.35 0.2640.40 0.289 0.40 0.2840.40 0.288 0.40 0.2830.45 0.308 0.45 0.2980.45 0.305 0.45 0.3020.50 0.331 0.50 0.3180.50 0.319 0.50 0.3190.55 0.332 0.55 0.3330.55 0.355 0.55 0.3310.60 0.360 0.60 0.3500.60 0.347 0.60 0.349

Les points (hi, t2i), avec t2i = t2i sont representes dans la Figure 2. L’allure est celle d’unerelation lineaire; la relation entre h et t2 peut donc etre decrite par le modele h = a+b·(t2).Un programme de regression simple donne les resultats suivants:

Coefficients:Value Std.Error t value Pr(>|t|)

Intercept a 0.0001 0.0076 0.0176 0.9861Pente b 4.8320 0.0917 52.6938 0.0000Residual standard error: 0.01712 on 38 degrees of freedomMultiple R-Squared: 0.9865

Correlation of Coefficients:Interceptb -0.9346

Page 6: 4 Regression

17.5

Dans les notations des sections precedentes, nous avons donc:

a = 0.0001, b = 4.8320

σ(a) = 0.0076, σ(b) = 0.0917.

La proportion de variance expliquee par le modele est R2 = 0.9865 et l’erreur standarddes residus est σ = 0.01712. (Le programme nous donne aussi le coefficient de correlationentre a et b: ce coefficient vaut −0.9346.) En outre,

a

σ(a)= 0.0176, P(|t38| > 0.0176) = 0.9861,

b

σ(b)= 52.6938, P(|t38| > 52.6938) = 0.0000,

ou t38 indique une variable aleatoire qui suit une distribution t a 38 degres de liberte. Ilfaut donc retenir l’hypothese a = 0 et rejeter l’hypothese b = 0. En supprimant l’intercepton obtient:

Coefficients:Value Std.Error t value Pr(>|t|)

Pente b 4.8335 0.0322 150.1507 0.0000

Residual standard error: 0.0169 on 39 degrees of freedomMultiple R-Squared: 0.9983

La pente de la droite est maintenant b = 4.8335. On remarquera que 2b = 9.6670 estune estimation de l’acceleration de gravite γ. Pour construire un intervalle de confiancepour γ calculons le percentile 97.5% de la distribution t a 39 degres de liberte. On trouvet97.5%,39 = 2.0226, et donc

[9.6670 − 2 · 0.0322 · 2.0226, 9.6670 + 2 · 0.0322 · 2.0226] = [9.537, 9.797]

est un intervalle de confiance avec coefficient de couverture 95% pour γ. Selon ce calculil faut alors rejeter l’hypothese que l’acceleration est 9.81 [m/s2] (et ceci, au niveau 5%).Toutefois, l’analyse des residus des Figures 3 et 4 indique que la condition de normalite deserreurs n’est pas bien satisfaite. L’inference basee sur cette condition est alors douteuse.Voir la remarque ci-dessous.

Dans la Figure 5 plusieurs intervalles de confiance pour les hauteurs h = a + b(t2) sontrepresentes par les lignes traitillees. Pour leur calcul, la valeur de t97.5%,38 = 2.024 a eteutilisee. La ligne continue est obtenue selon la regle decrite dans le Complement 2 (avecF95%,2,38 = 3.245).

Remarque. Nous avons ajuste le modele h = b · (t2) + erreur car il fournit directementune estimation et un intervalle de confiance pour γ = 2b selon les formules des sectionsprecedentes. Toutefois, dans l’experience, les temps de chute ont ete mesures en fonctiond’hauteurs prefixees. Il est donc preferable d’ajuster le modele t2 = c + d · h + erreur.

c©A. Marazzi

Page 7: 4 Regression

17.6

L’hypothese c = 0 peut etre retenue et on obtient

Coefficients:Value Std.Error t value Pr(>|t|)

Pente d 0.2065 0.0014 150.1507 0.0000

Residual standard error: 0.003493 on 39 degrees of freedomMultiple R-Squared: 0.9983

L’estimation de γ est alors 2/d = 9.6837. Pour construire un intervalle de confiancepour 2/d nous utilisons le procede, decrit dans le Complement 3, qui sert a construireun intervalle de confiance pour le rapport entre deux parametres. On obtient l’intervalle[9.5560, 9.8159] avec un coefficient de couverture de 95%.

Temps**2

Hau

teur

0.04 0.06 0.08 0.10 0.12

0.2

0.3

0.4

0.5

0.6

Figure 2. Diagramme de dispersion hauteur/(temps2)

Quantiles of Standard Normal

Res

idus

-2 -1 0 1 2

-0.0

6-0

.02

0.0

0.02

Hauteur

Res

idus

0.2 0.3 0.4 0.5 0.6

-0.0

6-0

.02

0.02

0.06

Figure 3. qq-plot des residus Figure 4. Diagramme residus/hauteurs

Page 8: 4 Regression

17.7

• •• ••• ••

••••• •• •

•••••• ••

•• •••••••• ••

••••

Temps**2

Hau

teur

0.0 0.02 0.04 0.06 0.08 0.10 0.12

0.0

0.2

0.4

0.6

Figure 5. Intervalles de confiance pour les hauteurs h en fonction de t2

c©A. Marazzi

Page 9: 4 Regression

17.8

Complements1. Consequences theoriques du modele de Gauss

a. Les conditions 1 et 2 impliquent que les estimateurs des moindres carres a et b ne sontpas biaises pour a et b (Chapitre 9, Complement 1: E(a) = a, E(b) = b).

b. Sous les conditions 1 et 2, σ2 est un estimateur sans biais de σ2.c. Les conditions 1 et 2 impliquent que les estimateurs a et b sont les estimateurs de vari-

ance minimale parmi tous les estimateurs lineaires en y1, . . . , yn et sans biais (theoremede Gauss-Markov).

d. Les conditions 1, 2 et 3 impliquent que les estimateurs a et b sont les estimateurs devariance minimale parmi tous les estimateurs de a et b.

2. Bandes de confianceSupposons de construire des intervalles de confiance avec coefficient de couverture 1 − 2αpour yx = a + bx et pour differentes valeurs de x: x = x1, x = x2, etc. Supposons ensuiteque nous joignions les extremites superieures et les extremites inferieures, obtenant ainsi lesdeux courbes comme celles indiquees en traitille dans la Figure 5. Il serait faux d’affirmerque la region entre les deux courbes couvre l’ensemble de toutes les valeurs de a + bx avecprobabilite 1 − 2α. (Si Ii est l’intervalle de confiance pour yxi

et P (yxi∈ Ii) = 1 − 2α

pour i = 1, . . . , n, on ne peut pas conclure que P (yx1 ∈ I1 ∩ . . .∩ yxn∈ In) = 1− 2α.) Une

region de confiance “simultanee” pour tous les yx peut etre obtenue (Miller R.G, 1966, p.111) en joignant les extremites superieures et les extremites inferieures des intervalles

[yx − σ(yx)√

2F1−2α,2,n−2 , yx + σ(yx)√

2F1−2α,2,n−2],

ou F2α,2,n−2 est le percentile 1 − 2α de la distribution F a 2 et n − 2 degres de liberte.

3. Intervalle de confiance pour un rapportSoient a et b des estimateurs sans biais de deux parametres a et b. Notre objectif estd’estimer le rapport r = a/b et de construire un intervalle de confiance pour r. Supposonsque a et b suivent approximativement une distribution de Gauss et que

V (a) = vaaσ2, V (b) = vbbσ2, V (a, b) = vabσ

2,

ou vaa, vab, vbb et σ sont connues. Alors, V (a − rb) = (vaa − 2rvab + r2vbb)σ2, et

P

((a − rb)2

V (a − rb)≤ z2

1−α

)≈ 1 − 2α,

ou z1−α est le percentile 1 − α de la distribution de Gauss standard. Pour trouver leslimites rl et ru d’un intervalle de confiance avec coefficient de couverture 1 − 2α pour r,il suffit donc de resoudre pour r l’equation quadratique (a − rb)2 = z2

1−αV (a − rb). Lessolutions sont

(rl, ru) =

[r − g

(vab

vbb

)± z1−ασ

|b|

{vaa − 2rvab + r2vbb − g

(vaa − v2

ab

vbb

)}1/2]/

(1 − g),

ou g = z21−ασ2vbb/b2, et r = a/b est l’estimateur de r. Dans un probleme de regression,

a et b sont souvent des coefficients, les valeurs de vaa, vab et vbb sont fournies par lesprogrammes (“matrice de covariance sans echelle”) et σ2 est estime par σ2 (avec n − 2degres de liberte). Il faut alors remplacer z1−α par t1−α,n−2. Dans l’exemple (Section 6)la valeur t97.5%,39 = 2.0226 a ete utilisee.

Page 10: 4 Regression

18.1

Chapitre 18

Regression multiple: introduction

La regression multiple est l’une des methodes les plus importantes en statistique. Son butest d’etudier et modeliser la relation entre une variable reponse Y et plusieurs variablesexplicatives X1, X2, . . ., Xp.

18.1 Modele de regression multiple: exemples

Ajustement d’un polynome. La Table 1 contient des mesures de concentration (pmol/ml)du peptide C en relation avec l’age pour n = 43 enfants diabetiques.

Table 1. Concentrations de peptide C et age de 43 enfants

Age Conc. Age Conc.5.2 4.8 11.3 5.18.8 4.1 1.0 3.9

10.5 5.2 14.5 5.710.6 5.5 11.9 5.110.4 5.0 8.1 5.21.8 3.4 13.8 3.7

12.7 3.4 15.5 4.915.6 4.9 9.8 4.85.8 5.6 11.0 4.41.9 3.7 12.4 5.22.2 3.9 11.1 5.14.8 4.5 5.1 4.67.9 4.8 4.8 3.95.2 4.9 4.2 5.10.9 3.0 6.9 5.1

11.8 4.6 13.2 6.07.9 4.8 9.9 4.9

11.5 5.5 12.5 4.110.6 4.5 13.2 4.68.5 5.3 8.9 4.9

11.1 4.7 10.8 5.112.8 6.6

La Figure 1 represente les logarithmes des concentrations en fonction d’Age. Comme larelation n’a pas une allure lineaire, on peut penser de la decrire a l’aide d’un polynomede deuxieme degre (fonction quadratique). Plus precisement, nous considerons la variablereponse Y = ln(Concentration), la variable explicative X1 = Age, ainsi que son carreX2 = Age2 et nous ajustons le modele

Y ≈ θ0 + θ1X1 + θ2X2 (1)

aux donnees. (Le signe “≈” indique que la relation n’est pas parfaite: une “erreur” seraintroduite par la suite). Il faut donc determiner les coefficients θ0, θ1 et θ2 a l’aide desdonnees.

c©A. Marazzi

Page 11: 4 Regression

18.2

••

• •

••

•••

••

••

••

••

• •

••

Age

log(

Con

c.)

5 10 15

1.2

1.4

1.6

1.8

Figure 1. Log(concentration) du peptide C et age de 43 enfants diabetiques

Nous indiquons par yi (i = 1, . . . , n) les valeurs de la variable reponse, par xi1 les valeurs dela variable explicative X1 = Age et par xi2 les valeurs de la deuxieme variable explicativeX2 = Age2. Dans l’exemple,

y1 = ln(4.8), y2 = ln(4.1), . . . , y43 = ln(5.1);x11 = 5.2, x21 = 8.8, . . . , x43,1 = 10.8;x12 = (5.2)2, x22 = (8.8)2, . . . , x43,2 = (10.8)2.

Alors, une methode frequemment utilisee pour determiner θ0, θ1, et θ2 consiste a les choisirde facon que la somme

n∑i=1

(yi − θ0 − θ1xi1 − θ2xi2)2

soit minimale. C’est la methode des moindres carres. Les valeurs θ0 = 1.197, θ1 = 0.079et θ2 = −0.004 ont ete obtenues de cette facon. Avec ces valeurs on obtient la courberepresentee dans la Figure 1.

Page 12: 4 Regression

18.3

Variables explicatives quantitatives et qualitatives. Un certain type d’appareil medicaladministrant de facon automatique et continue une hormone anti-inflammatoire a ete testesur 27 sujets. La Table 2 donne les quantites d’hormone (“Quantite” en mmg) qui restentdans 27 appareils – un par sujet – apres un certain nombre d’heures (“Hrs”) d’utilisation.

Table 2. Quantites d’hormone dans 27 appareilsLot Hrs Quantite Lot Hrs Quantite Lot Hrs Quantite

A 99 25.8 B 376 16.3 C 119 28.8A 152 20.5 B 385 11.6 C 188 22.0A 293 14.3 B 402 11.8 C 115 29.7A 155 23.2 B 29 32.5 C 88 28.9A 196 20.6 B 76 32.0 C 58 32.8A 53 31.1 B 296 18.0 C 49 32.5A 184 20.9 B 151 24.1 C 150 25.4A 171 20.9 B 177 26.5 C 107 31.7A 52 30.4 B 209 25.8 C 125 28.5

Les appareils ont ete echantillonnes dans trois groupes (“Lot”) provenant de trois fa-bricants: A, B, C. Il faut etudier la relation entre la variable reponse “Quantite” et lesvariables explicatives “Hrs” et “Lot”. Les donnees sont representees dans la Figure 2.

Hrs

Qua

ntite

100 200 300 400

1520

2530

A

A

A

A

A

A

AA

A

Hrs

Qua

ntite

100 200 300 400

1520

2530

B

BB

B B

B

B

B B

Hrs

Qua

ntite

100 200 300 400

1520

2530

C

C

CC

CC

C

C

C

Figure 2. “Quantite” versus “Hrs” pour les groupes A, B et C et modeles ajustes.

La variable Lot est qualitative: on dit que c’est un facteur en trois classes. Les facteursdoivent etre codes comme variables numeriques et il y a plusieurs facons de faire. La plussimple utilise trois variables indicatrices X1, X2 et X3 definies par leurs valeurs observeesxi1, xi2 et xi3:

xi1 = 1 si l’appareil i appartient au Lot A,

= 0 si l’appareil i n’appartient pas au Lot A,

xi2 = 1 si l’appareil i appartient au Lot B,

= 0 si l’appareil i n’appartient pas au Lot B,

xi3 = 1 si l’appareil i appartient au Lot C,

= 0 si l’appareil i n’appartient pas au Lot C.

c©A. Marazzi

Page 13: 4 Regression

18.4

En definissant Y = Quantite et X4 = Hrs, on peut alors decrire les donnees par le modele

Y ≈ θ1X1 + θ2X2 + θ3X3 + θ4X4 (2)

et determiner les coefficients θ1, θ2, θ3 et θ4 a l’aide des donnees. Ces coefficients sont lesintercepts des trois droites paralleles Y = θ1 + θ4X4, Y = θ2 + θ4X4 et Y = θ3 + θ4X4 quidecrivent les relations entre Quantite et Hrs pour les trois groupes.

La methode des moindres carres pour determiner θ1, θ2, θ3, et θ4 consiste a les choisir defacon que la somme

n∑i=1

(yi − θ1xi1 − θ2xi2 − θ3xi3 − θ4xi4)2

soit minimale. Dans l’exemple on trouve θ1 = 32.13, θ2 = 36.11, θ3 = 35.60, θ4 = −0.06,ce qui signifie que pour les donnees du groupe A, Y ≈ 32.13 − 0.06X4, pour les donneesdu groupe B, Y ≈ 36.11 − 0.06X4, et pour celles du groupe C, Y ≈ 35.60 − 0.06X4. Cestrois droites sont indiquees dans les diagrammes de la Figure 2.

Une autre facon de “parametriser” le modele utilise seulement deux variables indicatrices,par exemple, X1 et X2:

Y ≈ θ0 + θ1X1 + θ2X2 + θ4X4. (3)

Dans ce cas, θ0 est l’intercept de la droite du groupe C, tandis que θ1 et θ2 sont les ecartsentre les intercepts de A et B par rapport a C, qui constitue le niveau de reference. Lamethode des moindres carres donne θ0 = 35.60, θ1 = −3.47, θ2 = 0.51 et θ4 = −0.06.L’intercept de A est donc 35.60 − 3.47 = 32.13 et celui de B est 35.60 + 0.51 = 36.11.En general, pour coder un facteur a deux niveaux il suffit d’utiliser une seule variableindicatrice (pour la presence ou l’absence de l’une des deux caracteristiques). Pour coderun facteur a k niveaux il suffit d’utiliser k − 1 variables indicatrices.

Remarque. Les coefficients θ0, . . . , θ4 du modele

Y ≈ θ0 + θ1X1 + θ2X2 + θ3X3 + θ4X4

ne peuvent pas etre determines de facon unique. En effet, une infinite de valeurs de θ0, θ1, θ2

et θ3 peuvent fournir θ0 + θ1 = 32.13, θ0 + θ2 = 36.11 et θ0 + θ3 = 35.60.

Modele avec interactions. Pour decrire les quantites d’hormone distribuees par trois ap-pareils nous avons utilise trois droites paralleles. On peut se demander si un modele plussouple, avec trois droites non necessairement paralleles, ne serait pas plus avantageux. Lamodelisation des trois droites peut se faire en utilisant les variables indicatrices X1, X2 etX3 ainsi que trois variables supplementaires X5, X6, X7 definies comme suit:

xi5 = Hrs de l’appareil i, si i appartient au Lot A,

= 0 si l’appareil i n’appartient pas au Lot A,

xi6 = Hrs de l’appareil i, si i appartient au Lot B,

= 0 si l’appareil i n’appartient pas au Lot B,

xi7 = Hrs de l’appareil i, si i appartient au Lot C,

= 0 si l’appareil i n’appartient pas au Lot C.

Page 14: 4 Regression

18.5

Si Y indique la reponse, on peut decrire les donnees par le modele

Y ≈ θ1X1 + θ2X2 + θ3X3 + θ5X5 + θ6X6 + θ7X7. (4)

Les coefficients θ1, θ2 et θ3 sont les intercepts, tandis que θ5, θ6 et θ7 sont les pentes destrois droites. Si les pentes sont differentes, on dit qu’il y a interaction entre le facteur Lotet la variable Hrs: dans ce cas, la variable Hrs explique Y de facon differente selon le Lot.Notons que X5 = X1X4, X6 = X2X4 et qu’une autre facon de parametriser (5) est

Y ≈ θ0 + θ1X1 + θ2X2 + θ4X4 + θ5X1X4 + θ6X2X4. (5)

Dans cette parametrisation θ4 est la pente de la droite du Lot C (pente de reference). Ondit que θ5 mesure l’interaction entre Hrs et Lot A et que θ6 est l’interaction entre Hrs etLot B. L’utilisation de produits entre deux variables est la facon habituelle d’introduiredes interactions dans un modele.Le degre d’ajustement des modeles (4) et (5) est certainement superieur a celui des modeles(2) et (3). Toutefois, il n’est pas certain que la complexite accrue de (4) et (5) justifie cegain. La question du choix entre ces modeles sera abordee au Chapitre 20.

18.2 Definitions et proprietes

Plusieurs concepts et proprietes de la regression simple s’etendent a la regression multiple.Considerons par exemple le modele

Y ≈ θ0 + θ1X1 + . . . + θpXp.

On dit que θ0, θ1, . . ., θp sont les coefficients et que θ0 est la constante additive du modele.Les coefficients sont habituellement estimes selon la methode des moindres carres par unprogramme d’ordinateur. Nous indiquons les estimations par θ0, θ1, etc. Alors

yi = θ0 + θ1xi1 + . . . + θpxip, i = 1, . . . , n

sont les reponses calculees et

ei = yi − yi i = 1, . . . , n

les residus. Evidemmentyi = yi + ei

d’ou decoule la decomposition

s2(Y ) = s2(Y ) + s2(E),

ou Y est le vecteur des reponses calculees et E celui des residus. Cette decompositionde s2(Y ) est connue comme analyse de la variance (Chapitre 3). Le premier terme est lavariance expliquee par le modele et le deuxieme la variance residuelle. En outre, la sommedes residus est nulle:

∑ei = 0. (Mais ceci n’est pas certain si la constante additive est

absente.)

c©A. Marazzi

Page 15: 4 Regression

18.6

Le coefficient de determination est defini par

R2 = s2(Y )/s2(Y ).

Il jouit des proprietes habituelles– 0 ≤ R2 ≤ 1– Si R2 est proche de 1 (par exemple R2 = 0.8) le modele explique tres bien la variation

de Y . Si R2 est proche de 0, les variables X1, X2, etc. ne contiennent pas d’informationutile pour expliquer la variation de Y .

L’ecart type de l’erreur (ou erreur standard des residus) note sE ou σ est defini par

sE =

√√√√ 1n − p − 1

n∑i=1

e2i .

18.3 Notation matricielleLa notation matricielle est tres utile dans la regression multiple car les donnees ont laforme d’une matrice dont les colonnes correspondent aux variables et les lignes aux ob-servations. Nous introduisons cette notation en reprenant d’abord le cas de la regressionsimple (Chapitre 3). On definit le vecteur des reponses observees y, et le vecteur des erreursu par

y =

⎛⎜⎜⎝

y1

y2...

yn

⎞⎟⎟⎠ , u =

⎛⎜⎜⎝

u1

u2...

un

⎞⎟⎟⎠ .

(On utilise d’habitude les minuscules y et u dans ce contexete.) La matrice du modele X(ou matrice de design) et le vecteur des parametres θ sont definis par

X =

⎛⎜⎜⎝

1 x1

1 x2...

...1 xn

⎞⎟⎟⎠ , θ =

(ab

).

La premiere colonne contient des “1” et sera associee a a; la deuxieme contient les valeursde la variable explicative. On obtient ainsi

Xθ =

⎛⎜⎜⎝

a + bx1

a + bx2...

a + bxn

⎞⎟⎟⎠

et les n equations caracterisant la structure modele sont exprimees d’un seul coup par:

y = Xθ + u. (6)

Cette equation represente aussi les modeles de regression multiple si on definit de facon ap-propriee la matrice X et le vecteur θ. Par exemple, pour exprimer le modele (1) definissons

X =

⎛⎜⎜⎝

1 5.2 5.22

1 8.8 8.82

......

...1 10.8 10.82

⎞⎟⎟⎠ , θ =

⎛⎝ θ0

θ1

θ2

⎞⎠ .

Page 16: 4 Regression

18.7

La premiere colonne sera associee a θ0, la deuxieme contient les valeurs de X1 et la troisiemeles valeurs de X2. On obtient ainsi l’equation (6). Dans le cas du modele (3) definissons

X =

⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

1 1 0 991 1 0 152...

......

...1 0 1 3761 0 1 385...

......

...1 0 0 1191 0 0 188...

......

...1 0 0 125

⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

, θ =

⎛⎜⎝

θ0

θ1

θ2

θ4

⎞⎟⎠ .

La premiere colonne est associee a θ0, la deuxieme contient les valeurs de X1, la troisiemeles valeurs de X2 et la quatrieme les valeurs de X4. On obtient encore l’equation (6).En general, on considerera un vecteur y de n reponses observees, un vecteur u de n erreurs(non observees), une matrice de modele X a n lignes et p colonnes

X =

⎛⎜⎜⎝

x11 x12 . . . x1p

x21 x22 . . . x2p

......

......

xn1 xn2 . . . xnp

⎞⎟⎟⎠

et un vecteur θ de p parametres

θ =

⎛⎝ θ1

...θp

⎞⎠

tels quey = Xθ + u. (7)

Les colonnes de X contiennent les valeurs des variables explicatives. Si une constanteadditive est presente, la premiere colonne est formee de “1”. On notera par xT

1 , xT2 , . . . , xT

n

les lignes de la matrice X et par X1, X2, . . . , Xp ses colonnes. (Ici, (·)T indique l’operationmatricielle de transposition.) L’equation matricielle (7) resume les n equations

yi = θ1xi1 + . . . + θpxip + ui, i = 1, . . . , n

que l’on peut aussi ecrire de la facon suivante:

yi = xTi θ + ui, i = 1, . . . , n.

Pour specifier le modele, on ecrira aussi

Y ≈ θ1X1 + . . . + θpXp.

c©A. Marazzi

Page 17: 4 Regression

19.1

Chapitre 19

Ajustement du modele de regression multiple

Ce chapitre considere quelques aspects du calcul des coefficients d’une regression par lamethode des moindres carres ainsi qu’une interpretation geometrique de cette methode. Iln’est pas requis pour les chapitres suivants.Dans ce chapitre, la longueur d’un vecteur y sera notee par |y|: donc, |y| = (yTy)1/2.

19.1 La methode des moindres carres

Nous considerons un modele de regression multiple defini par sa matrice de modele X , (nlignes et p colonnes) son vecteur de parametres θ (p composantes), son vecteur de reponsesobservees y (n composantes) et l’equation structurelle

y = Xθ + u,

ou u est le vecteur des erreurs. On dit que cette equation represente un modele lineairedans les coefficients θ1, . . . , θp.Selon la methode des moindres carres, une estimation du vecteur θ est obtenue en min-imisant la fonction

Q(θ) = |y − Xθ|2.Dans ce but, il faut resoudre le systeme de p equations ∂Q/∂θj = 0, j = 1, . . . , p, ou ∂Q/∂θj

indique la derivee partielle de Q par rapport a θj . On obtient l’equation matricielle

XTXθ = XTy

connue comme le systeme des equations normales.Le calcul de la solution est normalement realise par un programme d’ordinateur. Lasolution est un vecteur note θ. On definit:

– le vecteur des reponses calculees y = Xθ;– le vecteur des residus e = y − y.

Remarques sur le calcul de θ

1. Si le rang de la matrice X est egal a p (c’est a dire, si les colonnes de X sont lineairementindependantes) alors le rang de XTX est egal a p et le probleme de minimisation a unesolution unique

θ = (XTX)−1XTy,

ou (·)−1 indique l’operation d’inversion d’une matrice.

2. Si le rang de X est inferieur a p il y a une infinite de vecteurs θ qui minimisent Q(θ).Pour en choisir une, on reduit d’habitude le nombre de coefficients en posant des conditionssupplementaires. Par exemple, on supprime certaines variables explicatives (c’est a dire,on pose leur coefficient egal a zero). Il y a aussi des procedes qui permettent de choisir lasolution de longueur

√θTθ minimale.

c©A. Marazzi

Page 18: 4 Regression

19.2

19.2 Proprietes algebriques et geometriques

Nous supposons que le rang de X est r ≤ p.• Les composantes de θ sont des fonctions lineaires en y1, . . . , yn.• Les colonnes de X generent un sous-espace de dimension r de IRn. Notons ce sous-

espace par V r. Pour tout θ, le vecteur v = θ1X1 + . . . + θpXp = Xθ obtenu commecombinaison lineaire des colonnes X1, . . . , Xp de X appartient donc a V r.

• La methode des moindres carres minimise la longueur du vecteur y −Xθ = y − v. Levecteur v = Xθ est donc la projection de y en V r. Il coıncide avec le vecteur y desreponses calculees.

y

e

IRn

v = y^ ^O

y - v

Vr

v

• Le vecteur des residus e est orthogonal a V r. Par consequent, XTe = 0. Cette derniereequation vectorielle coıncide avec les equations normales.

• Evidemmenty = y + e,

et, par le theoreme de Pythagore,

|y|2 = |y|2 + |e|2.Si y indique le vecteur avec n composantes egales a la moyenne arithmetique des yi,nous avons aussi y − y = y − y + e et, comme y est orthogonale a e (eTy = 0):

|y − y|2 = |y − y|2 + |e|2.Ceci signifie que la variance de y est la somme de deux parties: la premiere est la“partie expliquee par le modele” et la deuxieme est la variance residuelle (analyse dela variance). Donc,

R2 =|y − y|2|y − y|2 .

Page 19: 4 Regression

20.1

Chapitre 20Inference classique pour la regression multiple

Ce chapitre etend les resultats du Chapitre 17 a la regression multiple. Nous consideronsla relation

Y ≈ θ1X1 + . . . + θpXp

entre une reponse Y et p variables explicatives X1, . . . , Xp; X1 pourrait etre identique a1, auquel cas, θ1 serait une constante additive.

20.1 Modele classiques pour l’inference

Comme dans le cas de la regression simple, l’inference classique pour la regression multiplese fonde sur un ensemble de conditions concernant la distribution de la variable reponse Yen relation avec les variables explicatives X1, . . . , Xp. Il n’est pas necessaire de supposer queles observations des variables explicatives sont obtenues de facon aleatoire. Les conditionssuivantes forment le modele de Gauss pour la regression multiple.

1. Yi = θ1xi1 + . . . + θpxip + Ui, i = 1, . . . , n, ou θ1, . . . , θp sont des parametres.2. Les erreurs Ui sont i.i.d. et independents de X1, . . . , Xp.3. Ui ∼ N (0, σ2) ou σ2 est un parametre.

La condition 1 correspond a n equations pour les reponses observees:

yi = θ1xi1 + . . . + θpxip + ui, i = 1, . . . , n.

Les erreurs ui ne sont pas observables. La condition 1 caracterise la structure du modele;les condition 2 et 3 la partie aleatoire.

20.2 Distributions des estimateurs

Les resultats suivants s’obtiennent sous le modele de Gauss.– θ suit une distribution de Gauss multivariee avec vecteur de moyennes θ et matrice

de covariance Σ2(θ):

θ ∼ N (θ, Σ2(θ)), avec Σ2(θ) = σ2(XTX)−1.

En outre, si x = (x1, . . . , xp)T est un vecteur (colonne) contenant des valeurs donneesdes variables explicatives, nous considerons la reponse calculee yx = θTx ainsi queyx = θTx. Alors,

yx ∼ N (yx, σ2(yx)), avec σ2(yx) = xT Σ2(θ) x.

Ces resultats pourraient permettre de realiser des inferences si σ2 etait connu. En pratique,il faut presque toujours estimer σ2 et, dans ce but, on utilise l’estimateur

σ2 =1

n − p

n∑1

e2i .

Des estimations Σ2(θ) et σ2(yx) sont alors obtenues en remplacant σ2 par σ2 dans lesexpressions de Σ2(θ) et σ2(yx). On demontre que:

– La variable aleatoire (n − p)σ2/σ2 suit une distribution χ2 a n − p degres de liberte.

c©A. Marazzi

Page 20: 4 Regression

20.2

– Les estimateurs standardises

(θj − θj)/σ(θj), j = 1, . . . , p et (yx − yx)/σ(yx)

suivent une distribution t a n − p degres de liberte.

Note. La matrice (XTX)−1 est parfois appelee matrice de covariance sans echelle descoefficients estimes.

20.3 Intervalles de confiance et test usuels

Les resultats precedents permettent d’obtenir les intervalles de confiance pour les coeffi-cients θj (j = 1, . . . , p) et pour yx = xTθ. Soit α une probabilite prefixee (par exempleα = 2.5%). Alors, des intervalles de confiance bilateraux avec coefficient de couverture1 − 2α sont:

[θj − σ(θj) t1−α,n−p , θj + σ(θj) t1−α,n−p], j = 1, . . . , p,

[yx − σ(yx) t1−α,n−p , yx + σ(yx) t1−α,n−p],

ou t1−α,n−p est le percentile 1− α de la distribution t a n− p degres de liberte. En outre,un intervalle de confiance avec coefficient de couverture 1 − 2α pour σ2 est donne par

[(n − 2)σ2/χ21−α,n−p , (n − 2)σ2/χ2

α,n−p],

ou χ2α,n−p est le percentile α de la distribution χ2 a n − 2 degres de liberte.

Pour un certain k, l’hypotheseH0 : θk = c0,

ou c0 est une valeur donnee, peut etre rejetee au niveau α, en faveur de H1 : θk �= c0, si lastatistique

T = (θk − c0)/σ(θk)

n’appartient pas a l’intervalle [−tα/2,n−p, tα/2,n−p].

De facon equivalente, on peut rejeter H0 en faveur de H1 au niveau α si l’intervalle deconfiance avec coefficient de couverture 1−α pour θk ne contient pas la valeur prefixee c0.

Remarques

1. Les logiciels de statistique courants fournissent les valeurs de σ(θj) (j = 1, . . . , p) ainsique celles des statistiques θj/σ(θj) et les P-values correspondantes. Par exemple, R etS-plus donnent

P(|tn−p| > |θj/σ(θj)|), j = 1, . . . , p

ou tn−p indique une variable aleatoire suivant une distribution t a n − p degres de liberteet θj/σ(θj) designe la valeur observee de la statistique correspondante.

2. Si [A, B] et [C, D] sont des intervalles de confiance avec coefficient de couverture 1 − αpour θ1 et θ2 (par exemple) on ne peut pas affirmer que le rectangle [A, B]×[C, D] couvre lepoint (θ1, θ2) avec probabilite 1−α ! Nous effleurons ici un probleme d’inference statistiquesimultanee que nous n’approfondirons pas.

Page 21: 4 Regression

20.3

20.4 Analyse des residus

Si le modele de Gauss est approprie, les residus ont approximativement une distributionde Gauss. Il faut donc examiner cette condition a l’aide d’un qq-plot. En outre, lavariance des residus ne doit pas dependre des variables explicatives. Il est donc opportunde representer graphiquement les residus en fonction des valeurs observees de X1, . . . , Xp.Aucune relation (relation non lineaire, variance non homogene) ne doit apparaıtre. Enfin,on peut representer les residus en fonction des reponses calculees. Si une relation apparaıtle modele de Gauss et les inferences obtenues avec son appui doivent etre mis en doute.

20.5 Exemples

Ajustement d’un polynome. Nous considerons les donnees de la Table 1, Chapitre 18 etajustons le modele

log(Concentration) ≈ θ0 + θ1Age + θ2Age2.

On a les resultats suivants:

Coefficients:Value Std.Error t value Pr(>|t|)

theta0 1.1973 0.0767 15.6040 0.0000theta1 0.0787 0.0204 3.8673 0.0004theta2 -0.0037 0.0012 -3.0406 0.0042

Residual standard error: 0.1299 on 40 degrees of freedomMultiple R-Squared: 0.3686

Correlation of Coefficients:theta0 theta1

theta1 -0.8880theta2 0.7678 -0.9696

Donc, dans les notations des sections precedentes,

θ0 = +1.1973, σ(θ0) = 0.0767,

θ1 = +0.0787, σ(θ1) = 0.0204,

θ2 = −0.0037, σ(θ2) = 0.0012.

L’erreur standard des residus est σ = 0.1299 et R2 = 0.3686. (La correlation entre θ1 etθ2 est −0.9696, celle entre θ1 et θ0 est −0.8880 et celle entre θ0 et θ2 est 0.7678.)Si le modele de Gauss peut etre retenu, on obtient les inferences suivantes:

θ0

σ(θ0)= 15.6040 et P(|t40| > 15.6040) = 0.0000,

θ1

σ(θ1)= +3.8673 et P(|t40| > 3.8673) = 0.0004,

θ2

σ(θ2)= −3.0406 et P(|t40| > 3.0406) = 0.0042.

c©A. Marazzi

Page 22: 4 Regression

20.4

En outre, les intervalles de confiance avec coefficient de couverture 95% pour θ0, θ1 et θ2

sont (avec t40,0.975 = 2.0211):

[1.1973 − 2.0211 · 0.0767, 1.1973 + 2.0211 · 0.0767] = [1.0422, 1.3524],[0.0787 − 2.0211 · 0.0204, 0.0787 + 2.0211 · 0.0204] = [0.0376, 0.1198],

[−.0037 − 2.0211 · 0.0012,−.0037 + 2.0211 · 0.0012] = [−.0062,−.0012].

Selon cette analyse, θ0, θ1 et θ2 sont significativement differentes de 0 (au niveau 1%).La courbe dessinee dans la Figure 1, Chapitre 18, souleve toutefois quelques doutes apropos du modele polynomial de deuxieme degre, comme description de la relation entrelog(Conc.) et Age. En effet, on ne voit pas clairement pour quelle raison biologique larelation devrait etre decroissante pour Age> 10. Enfin, l’analyse graphique des residusfournie dans la Figure 1 suggere que la variance des erreurs croıt en fonction de l’age. Ils’agit d’une violation du modele de Gauss qui souleve quelques doutes supplementaires surla validite de l’inference.

•••

••

•• •

••

Quantiles of Standard Normal

Res

idus

-2 -1 0 1 2

-0.2

0.0

0.2

•• •

••

•••

••

Age

Res

idus

5 10 15

-0.2

0.0

0.2

•• •

••

•••

•••

Reponses ajustees

Res

idus

1.3 1.4 1.5 1.6

-0.2

0.0

0.2

Figure 1. Analyse des residus de la regression polynomiale. (1) Quantile-quantile plot desresidus; (2) residus versus age; (3) residus versus reponses calculees.

Page 23: 4 Regression

20.5

Variables explicatives quantitatives et qualitatives. En ajustant le modele (3), Chapitre18, aux donnees de la Table 2, Chapitre 18, on obtient:

Coefficients:Value Std.Error t value Pr(>|t|)

theta0 35.5973 0.6596 53.9698 0.0000theta1 -3.4657 0.7691 -4.5061 0.0002theta2 0.5078 0.8681 0.5849 0.5643theta4 -0.0601 0.0035 -17.3095 0.0000

Residual standard error: 1.605 on 23 degrees of freedomMultiple R-Squared: 0.945

Correlation of Coefficients:theta0 theta1 theta2

theta1 -0.4600theta2 -0.2136 0.5164theta4 -0.5847 -0.1787 -0.4900

L’analyse graphique des residus fournie dans la Figure 2 ne contredit pas les hypothesesclassiques pour l’inference. L’ecart 0.5078 entre l’intercept du groupe B et l’interceptde reference C (35.5973) n’est donc pas significativement different de zero. En d’autretermes, l’hypothese H0 : θ2 = 0 ne peut pas etre rejetee, car P(|t23| > 0.5849) = 0.5643.Par contre, l’intercept de A est significativement plus petit que celui de C, car P(|t40| >4.5061) = 0.0002. La difference est visible dans la Figure 2 du Chapitre 18.

••

Quantiles of Standard Normal

Res

idus

-2 -1 0 1 2

-3-2

-10

12

3

Reponses ajustees

Res

idus

15 20 25 30 35

-3-2

-10

12

3

A

A

A

AA

A

A

A

A

B

B

B

B

B

B

B

B

B

C

C

C

C

C

C

C

C

C

Figure 2. Analyse des residus du modele pour les quantite d’hormone. (1) Quantile-quantile plot des residus; (2) residus versus reponses calculees.

c©A. Marazzi

Page 24: 4 Regression

20.6

20.6 Le test F d’une hypothese lineaire

Nous avons considere des hypotheses du type H0 : θk = 0. Ce type d’hypothese concernel’un ou l’autre des parametres pris individuellement. Dans la suite de ce chapitre, nousconsiderons des hypothese plus complexes qui concernent plusieurs parametres a la fois.

Exemple: test de parallelisme

Pour decrire les quantites d’hormone distribuees par trois appareils nous avions utilise troisdroites paralleles. Un modele avec trois droites non paralleles aurait un degre d’ajustemntsuperieur (R2 plus eleve); toutefois, il n’est pas certain que la complexite accrue du modelejustifie ce gain. Cosiderons le modele (4) du Chapitre 18:

Ω : Y ≈ θ1X1 + θ2X2 + θ3X3 + θ5X5 + θ6X6 + θ7X7.

Ce modele Ω sera appele le modele complet. Il sera compare au modele reduit

ω : Y ≈ η1Z1 + η2Z2 + η3Z3 + η4Z4,

ou Z1 = X1, Z2 = X2, Z3 = X3 et Z4 = X5 + X6 + X7. Le modele ω est obtenu de Ω enutilisant les deux equations

H0 : θ5 = θ6 = θ7,

qui representent l’hypothese de parallelisme. Dans le modele ω, η4 represente la pentecommune des trois droites exprimees comme fonctions de Z4 = Hrs. L’hypothese H0 estun systeme de deux equations lineaires dans les coefficients:

θ5 − θ6 = 0,

θ5 − θ7 = 0.

On dit que H0 est une hypothese lineaire.

Le coefficient R2 de Ω vaut 0.9971, tandis que celui de ω vaut 0.9966. La difference estminime: en d’autre termes le gain en ajustement ne semble pas justifier le modele pluscomplexe.

Cas general

En general, soitΩ : Y ≈ θ1X1 + . . . + θpXp

un modele de regression multiple. Nous appellerons Ω le modele complet. Nous supposonsque les conditions de Gauss s’appliquent a Ω. Une hypothese lineaire est un systeme de requations independantes dans les coefficients, c’est a dire,

H0 : Aθ = 0

ou A est une matrice p× p (de constantes) de rang r et θ = (θ1, . . . , θp)T. En utilisant cesequations il est possible d’exprimer r coefficients a l’aide des autres et d’obtenir ainsi unmodele reduit

ω : Y ≈ η1Z1 + . . . + ηqZq,

ou q = p − r et Z1, . . . , Zq sont des combinaisons lineaires de X1, . . . , Xp.

Page 25: 4 Regression

20.7

Statistique de test

Les ajustement de Ω et ω aux donnees fournissent les vecteurs de residus rΩ et rω. In-diquons par |rΩ|2 et |rω|2 les sommes des carres de leurs composantes, et soit

f =n − p

p − q· (|rω|2 − |rΩ|2

)/|rΩ|2.

Sous H0, la variable aleatoire f suit une distribution F a p − q degres de liberte (dans lenumerateur) et n − p degres de liberte (dans le denominateur). On peut donc rejeter H0

au niveau α si la valeur observee de f est superieure au percentile 1−α de la distributionF a p − q et n − p degres de liberte.

Remarque. Une expression equivalente de f est

f =(R2

Ω − R2ω)/(p − q)

(1 − R2Ω)/(n − p)

,

ou R2Ω et R2

ω indiquent les coefficients de determination des modeles Ω et ω.

Exemple: continuation

Pour Ω on obtientCoeff. Value Std.Error t value Pr(>|t|)theta1 33.3601 1.2116 27.5343 0.0000theta2 35.2061 1.0645 33.0726 0.0000theta3 37.1937 1.5063 24.6918 0.0000theta5 0.0062 0.0147 0.4241 0.6758theta6 0.0182 0.0133 1.3659 0.1864theta7 -0.0745 0.0127 -5.8490 0.0000

Residual standard error: 1.556 on 21 degrees of freedomMultiple R-Squared: 0.9971

Pour ω on obtientCoeff. Value Std.Error t value Pr(>|t|)eta1 32.1316 0.7483 42.9408 0.0000eta2 36.1051 0.9716 37.1588 0.0000eta3 35.5973 0.6596 53.9698 0.0000eta4 -0.0601 0.0035 -17.3095 0.0000

Residual standard error: 1.605 on 23 degrees of freedomMultiple R-Squared: 0.9966

Les sommes des carres des residus sont obtenues a partir des erreurs standards des residus:

|rΩ|2 = 50.8691 ≈ 21 · 1.5562 et |rω|2 = 59.2709 ≈ 23 · 1.6052.

Ainsi,

f =27 − 66 − 4

· (59.2709 − 50.8691)/50.8691 = 1.7342.

Le percentile 95% de la distribution F a 2 et 21 degres de liberte se situe a 3.4668. Il n’estdonc pas possible de rejeter l’hypotese de parallelisme au niveau 5%.

c©A. Marazzi

Page 26: 4 Regression

20.8

20.7 Recherche et validation d’un modele

La recherche et la validation d’un modele sont parmi les domaines les plus difficiles de lastatistique. Construire un modele est, en partie, un art. Dans ce qui suit, seules les ideesprincipales sont presentees. On peut distinguer deux categories de techniques:(1) Techniques exploratoires, habituellement basees sur l’analyse graphique des donnees

et des residus(2) Techniques d’inference basees sur les tests.Toute analyse de donnees devrait commencer par une analyse exploratoire pour obtenirune bonne comprehension des donnees et reperer des valeurs et des tendances particulieres.

Selection de variables. Plusieurs etudes font intervenir un grand nombre de predicteursXj , mais on ne pourrait pas tous les inclure dans le modele qui deviendrait trop complexeet l’ajustement trop imprecis. En outre, certains predicteurs sont fortement correles. Lesprincipes suivants devraient etre observes:(i) Inclure les variables qui sont pertinentes dans le domaine d’application;(ii) Reduire au maximum le nombre de variables;(iii) Utiliser l’analyse exploratoire comme guide.Si le nombre k de variables est eleve et les connaissances prealables sont faibles, unemethode de selection pas-a-pas (“stepwise”) peut etre envisagee. La methode “forwardselection” commence avec β0 et inclut les variables au fur et a mesure selon un ordredicte par leur signification statistique (par exemple, le p-value de la statistique T ). Lamethode “backward selection” debute avec le modele le plus complet et elimine une a uneles variables de moindre importance (la possibilite de recuperer certaines variables elimineesest prise en consideration). En principe, la “backward selection” est preferable, mais ellen’est faisable que si le nombre total de variables est modere. Le principe d’elimination est lesuivant: calculer la signification statistique (p-value) de chaque variable Xj (j = 1, . . . , k)tout en gardant les autres; eliminer la variable Xj la moins significative. Certaines variablesparticulierement importantes peuvent etre retenues obligatoirement dans le modele. Si ungroupe de variables indicatrices representent la codification d’une variable categorielle,elles doivent etre retenues ou eliminees en bloc.Linearite. Jusqu’ici nous avons considere des modeles avec des variables explicatives nonmodifiees; mais parfois il convient de les transformer. Supposons avoir une bonne raisonpour penser qu’une certaine variable Xj agit de maniere quadratique sur la reponse. Il estalors possible de creer une nouvelle variable X2

j et de tester son utilite (H0: le coefficientde X2

j est nul). D’autres outils sont disponibles pour detecter et etudier des eventuellesnon-linearites, par exemple: le “plot des residus partiels” (Collett (1991), p.135), les trans-formations de Box-Cox (Carrol and Ruppert, 1988) de la variable reponse, la “modelisationadditive generalisee” (Hasties et Tibshirani (1990)).Interactions. Le nombre d’interactions deux a deux entre k variables est k(k−1)/2. D’autrepart, les interactions sont relativement rares, mais elles meritent de l’attention. Si k n’estpas trop eleve, pour ecarter les interactions clairement inutiles, on peut les modeliser touteset appliquer une “backward selection” tout en gardant les termes lineaires dans le modele.Outliers et points influents. Pour detecter les outliers et les points influents (cas quideterminent en grande partie les resultats de l’analyse) on peut utiliser des “procedesstatistiques robustes” (Hampel et al., 1986; Rousseuw et Leroy, 1987).

Page 27: 4 Regression

21.1

Chapitre 21

Inference par bootstrap pour la regression

Le bootstrap (Chapitre 16) permet de realiser l’inference sans faire appel a un modelemathematique de la distribution des donnees. Ce chapitre decrit le bootstrap pour laregression multiple. Les notations du Chapitre 18 seront utilisees; en particulier, le symbolexT

i indiquera la i-eme ligne de la matrice X du modele et yi la i-eme reponse observee.On utilisera aussi l’abreviation zi = (xT

i , yi).

21.1 Rappel des idees de base

Supposons que z1, . . . , zn soient les observations dans un probleme de regression et qu’ellesproviennent d’une population de distribution multivariee F : zi i.i.d. ∼ F . Nous souhaitonscalculer la distribution d’une statistique s(z1, . . . zn). L’approche classique utilise la de-scription de F fournie par un modele mathematique (par exemple, la distribution de Gauss)dont les parametres sont ajustes aux donnees. Cette approche repose donc sur l’hypotheseque le modele est adequat. L’approche bootstrap remplace F par la fonction de distribu-tion empirique Fn, qui associe une probabilite 1/n a chaque observation. On derive ensuitela distribution de s en fonction de Fn, appelee la distribution bootstrap de s. Le calcul esteffectue par simulation: plusieurs echantillons sont generes a partir de la distribution Fn;la statistique s est evaluee a l’aide de chaque echantillon simule; la distribution empiriquedes valeurs simulees de s (distribution bootstrap) est alors consideree comme une appro-ximation de la distribution de s. On l’utilise, par exemple, pour calculer les intervalles deconfiance percentiles (Chapitre 16). Pour la regression, il y a deux schemas de simulationpossible: le bootstrap des paires et le bootstrap des residus.

21.2 Bootstrap des paires et bootstrap des residus

Le bootstrap des paires est particulierement approprie lorsque les lignes de X caracterisentdes individus qui ont ete echantillonnes et pour lesquels on a observe la reponse conjointe-ment aux variables explicatives. On obtient k echantillons simules (par exemple, k = 1000)par tirage au sort, avec remplacement, de n paires (x∗

1T, y∗

1), . . . , (x∗nT, y∗

n) de l’ensembledes n lignes de X et des reponses y correspondantes. Par exemple, pour les donnees dela Table 2, Chapitre 18, chaque echantillon simule est obtenu en tirant au sort 27 triades(Lot, Hrs, Quantite). Un de ces echantillons figure dans la table suivante:

Lot Hrs Quantite Lot Hrs Quantite Lot Hrs QuantiteB 29 32.5 A 155 23.2 C 88 28.9C 125 28.5 A 52 30.4 B 209 25.8B 177 26.5 C 107 31.7 A 171 20.9B 29 32.5 A 184 20.9 B 177 26.5A 99 25.8 C 58 32.8 C 119 28.8C 107 31.7 A 53 31.1 B 296 18.0B 385 11.6 B 402 11.8 C 115 29.7C 119 28.8 B 76 32.0 C 58 32.8A 171 20.9 C 107 31.7 A 99 25.8

En ajustant le modele a chacun des k echantillons simules, on obtient k vecteurs de coef-ficients simules et leur distribution bootstrap conjointe.

c©A. Marazzi

Page 28: 4 Regression

21.2

Si on admet les hypotheses 1 et 2 de la Section 17.1, mais qu’on se mefie de l’hypothese 3,on peut se limiter a “simuler les erreurs”. Celles-ci sont representees par les residus

ri = yi − θ1xi1 + . . . + θpxip, i = 1, . . . , n.

Le bootstrap des residus utilise la distribution empirique des residus comme estimation dela distribution des erreurs ei: on obtient donc un echantillon simule d’erreurs en tirantau sort, avec remplacement, n residus r∗1 , . . . , r

∗n de l’ensemble {r1, . . . , rn}. On construit

ensuite n reponses simulees

y∗i = θ1xi1 + . . . + θpxip + r∗i , i = 1, . . . , n.

L’ajustement du modele a (x1, y∗1), . . . , (xn, y∗

n) fournit alors un vecteur de coefficientssimules. Le procede est repete k fois (par exemple, k = 1000) pour obtenir la distributionbootstrap du vecteur des coefficients estimes.

21.3 Exemples

Exemple 1. Considerons les donnees de la Table 2, Chapitre 18, et le modele ω du Chapitre20, Section 6. La Figure 1 montre les histogrammes des 1000 valeurs simulees par bootstrapdes paires de η1, η2, η3 et η4.Les estimations bootstrap des erreurs standard de η1, η2, η3 et η4 sont: 0.798, 1.252,0.645 et 0.004. Ces valeurs sont assez proches de celles fournies par la methode classiqueet reportees au Chapitre 20, Section 6. L’estimation bootstrap la moins semblable al’estimation classique est celle de l’erreur standard de η2; or, la distribution bootstrap deη2 est clairement asymetrique.Les intervalles percentiles de couverture 95% pour η1, η2, η3 et η4 sont respectivement:

[30.54, 33.74], [34.34, 39.46], [34.45, 37.02], [−0.07,−0.05].Ils sont indiques par des segments verticaux continus dans la Figure 1. Les intervallesclassiques correspondants, obtenus par la methode decrite au Chapitre 20, Section 3, sont:

[30.58, 33.68], [34.09, 38.11], [34.23, 36.96], [−0.07,−0.05].Ils sont indiques par des segments verticaux en traitille dans la Figure 1. Les intervallesclassiques et les intervalles percentile sont assez semblables dans cet exemple. Ce fait n’estpas surprenant car, comme nous l’avions remarque grace a l’analyse graphique du Chapitre20, Section 5, les hypotheses classiques pour l’inference sont plausibles.

Exemple 2. Le bootstrap des residus du modele ω produit les histogrammes de la Figure 2.Les estimations des erreurs standard de η1, η2, η3 et η4 sont respectivement 0.695, 0.926,0.609, 0.003 et les intervalles percentiles de couverture 95% sont:

[30.78, 33.44], [34.26, 38.01], [34.44, 36.84], [−0.07,−0.05].Les extremites de ces intervalles sont indiquees par des segments verticaux dans la Figure 2.

Remarque. Le bootstrap fournit une approximation de la distribution conjointe de η1,η2, η3 et η4. Cette distribution nous permet d’estimer, par exemple, la correlation entreles coefficients estimes. Les histogrammes dans la Figure 1 et Figure 2 representent lesdistributions marginales.

Page 29: 4 Regression

21.3

30 31 32 33 34 35

020

4060

8010

0

Theta 1

34 35 36 37 38

020

4060

Theta 3

34 36 38 40 42

020

4060

80

Theta 2

-0.08 -0.07 -0.06 -0.05

020

4060

8010

0

Theta 4

Figure 1. Histogrammes de 1000 valeurs simulees par bootstrap des paires des coefficientsde ω. Les traits verticaux continus indiquent les intervalles percentiles et les traits entraitille les intervalles de confiance classiques. La couverture est de 95% dans tous les cas.

30 31 32 33 34

020

4060

8010

012

0

Theta 1

34 35 36 37

020

4060

Theta 3

34 35 36 37 38 39

020

4060

80

Theta 2

-0.070 -0.065 -0.060 -0.055 -0.050

020

4060

Theta 4

Figure 2. Histogrammes de 1000 valeurs simulees par bootstrap des residus des coefficientsde ω. Les segments verticaux indiquent les intervalles percentiles de couverture 95%.

c©A. Marazzi

Page 30: 4 Regression

21.4

21.4 Test bootstrap d’une hypothese lineaire

En general, pour effectuer un test statistique, il faut choisir une statistique de test s etdeterminer sa distribution sous l’hypothese nulle. La methode bootstrap estime la distri-bution des donnees sous l’hypothese nulle a l’aide d’une distribution empirique coherenteavec l’hypothese nulle, et derive la distribution de s par simulation. Dans le cas de laregression, nous considerons un modele complet

Ω : Y ≈ θ1X1 + . . . + θpXp

avec p parametres, une hypothese lineaire H : Aθ = 0, ou A est une matrice p× p de rangr, et un modele reduit

ω : Y ≈ η1Z1 + . . . + ηqZq

(q = p − r) obtenu de Ω en utilisant H (voir Chapitre 20, Section 6). L’ajustement de Ωaux donnees fournit le vecteur de residus rΩ = (rΩ,1, . . . , rΩ,n) et l’ajustement de ω fournitles estimtions θω,1, . . . , θω,n et le vecteur des residus rω. Comme Ω est retenu en tant quemodele adequat, les residus rΩ ne contiennent pas de biais et peuvent servir a estimerla distribution des erreurs ei. On derive donc la distribution de la statistique de testpar bootstrap des residus rΩ. Plus precisement, soit r∗Ω,1, . . . , r

∗Ω,n un echantillon simule

d’erreurs tirees, avec remise, de {rΩ,1, . . . , rΩ,n}. Un echantillon de reponses simulees sousH est

y∗i = θω,1xi,1 + . . . + θω,qxi,q + r∗Ω,i, i = 1, . . . , n.

En ajustant Ω et ω a (x1, y∗i ), . . . , (xn, y∗

n), on obtient deux vecteurs de residus r∗Ω et r∗ω,qui permettent de calculer une valeur simulee

f∗ = [(n − p)/(p − q)](|r∗ω|2 − |r∗Ω|2)/|r∗Ω|2de la statistique de test f . Avec k valeurs simulees f∗ on estime le p-value du test par(Nombre de f∗ > f0)/k, ou f0 est la valeur observee de f .

Exemple 3. La Figure 3 montre l’histogramme de 1000 valeurs simulees de f pour testerl’hypothese de parallelisme des droites representees par le modele Ω, Chapitre 20, Section6. La densite de la distribution F a 2 et 21 degres de liberte, indiquee dans la figure, esttres proche de l’histogramme. La valeur observee de f est f0 = 1.7342 (segment vertical);le p-value bootstrap est 0.215, tandis que celui classique est 0.2009.

0 2 4 6 8

0.0

0.2

0.4

0.6

0.8

Figure 3. Histogramme de 1000 valeurs simulees de la statistique f et densite de la distri-bution F a 2 et 21 degres de liberte. Le trait vertical indique f0 = 1.7342.

Page 31: 4 Regression

21.5

Complement

Bootstrap d’un lissage non parametrique.

La Figure 4 montre a nouveau les donnees de la Table 1, Chapitre 18. La ligne foncee, quirepresente une fonction �(Age), est obtenue par un procede de lissage non parametrique(“loess”). La description de ce procede est en dehors du cadre de ce cours; voir, parexemple, Chambers et Hastie, Eds., “Statistical Models in S”, Wadworth & Brooks/Cole,1992; Chapitre 8. La ligne s’adapte aux donnees de facon locale, sans faire appel a unmodele parametrique unique pour l’ensemble des valeurs d’Age. Il faut la comparer aupolynome de deuxieme degre de la Figure 1, Chapitre 18. Le polynome decroıt pour Age> 10, tandis que le lissage s’aplatit a partir de Age = 5 ou 6.Les lignes en traitille representent 20 lissages �∗(Age) calcules, par le meme procede �,sur autant d’echantillons simules. Chaque echantillon a ete obtenu en tirant au sort, avecremise, 43 paires (Age, ln(Conc.)) de la Table 1. Le nuage donne une image palpable dela variabilite du lissage et confirme visuellement son aplatissement.Pour tester l’existence d’une eventuelle flexion pour Age > 10, nous avons simule 500echantillons et, pour chaque echantillon, nous avons calcule un lissage simule �∗. Pourchaque lissage, nous avons cherche a calculer la pente

(�∗(15.6) − �∗(10))/(15.6− 10),

mais seuls 329 echantillons s’etendaient jusqu’a la valeur 15.6. Ainsi, nous n’avons obtenuque 329 pentes simulees. Les percentiles 5% et 95% de la distribution des 329 pentes ainsiobtenus sont respectivement −0.0183 et 0.0153. On ne peut donc pas rejeter l’hypotheseque la flexion est nulle.

o

o

o

o

o

o o

o

o

o

o

o

oo

o

o

o

o

o

o

o

o

o

o

o

oo

o

oo

o

oo

o

o

o o

o

o

o

o

o

o

Age

log(

Con

c.)

5 10 15

1.2

1.4

1.6

1.8

Figure 4. Lissage non-parametrique (ligne foncee) des donnees de la Table 1, Chapitre 18,et 20 lissages non-parametriques simules (lignes traitillees).

c©A. Marazzi

Page 32: 4 Regression

22.1

Chapitre 22

Introduction a la regression logistique

La regression ordinaire permet d’analyser une variable reponse quantitative en fonctiond’une ou plusieurs variables explicatives. Souvent, c’est un resultat binaire (ou dichotomi-que) d’une experience ou d’une observation que l’on souhaite mettre en relation avec desvariables explicatives; par exemple:

– des patients peuvent survivre ou deceder; les differentes therapies et les facteurs derisque peuvent etre consideres comme des variables qui contribuent a expliquer lasurvie ou le deces;

– des personnes peuvent etre atteintes par une maladie. On souhaite etudier la relationentre les chances d’etre atteint et certains facteurs explicatifs ou facteurs de risque(par exemple, age, fumee, sexe);

– des personnes peuvent avoir ou ne pas avoir un emploi selon leur age, sexe, type deformation;

– un appareil peut fonctionner ou ne pas fonctionner; cet etat peut etre mis en relationavec son age, les conditions de l’environnement, etc.

La regression logistique permet d’etudier la relation entre une variable reponse binaire etplusieurs variables explicatives. Ce chapitre donne une breve introduction a la regressionlogistique. On trouvera un traitement plus approfondi dans le livre de Hosmer et Lemeshow(1989), duquel cette introduction est tiree.

22.1 Introduction

En general, le resultat d’une observation binaire est appele “succes” ou “echec”. Il estrepresente mathematiquement par une variable aleatoire Y telle que Y = 1 s’il y a succeset Y = 0 s’il y a echec. Cette variable a une distribution de Bernoulli et on note parp = P (Y = 1) la probabilite de succes; donc P (Y = 0) = 1−p. L’esperance mathematiqueet la variance de Y sont, respectivement, E(Y ) = p et σ2(Y ) = p(1 − p). Le resultat Ypeut dependre des valeurs assumees par k variables explicatives X1,. . .,Xk au moment del’observation et nous souhaitons etudier cette relation. L’exemple suivant montre que lestechniques de regression ordinaire ne sont pas adaptees a ce type d’analyse.

Exemple 1. La Table 1 concerne un echantillon de 100 personnes, pour lesquels la presence(CHD = 1) ou l’absence (CHD = 0) d’une maladie cardiovasculaire a ete observee. Onsouhaite etudier la relation entre CHD et la variable explicative age (AGE). La Figure 1montre un diagramme de dispersion de CHD versus AGE. Evidemment, ce diagrammene donne pas une information tres utile meme si on remarque une proportion plus eleveede “cas” (CHD = 1) pour les personnes agees que pour les jeunes. Il n’est pas opportund’adapter une droite a ce diagramme. Il est, toutefois, raisonnable de decrire la relationentre la probabilite de CHD = 1 pour une valeur donnee a de AGE, c’est a dire, laprobabilite conditionnelle P (CHD = 1|AGE = a), par une fonction mathematique simple(modele) de la variable AGE. La Figure 2, qui represente les frequences relatives de CHD =1 selon les categories d’age definies par la variable AGRP de la Table 1, nous suggere l’allurede cette fonction.

c©A. Marazzi

Page 33: 4 Regression

22.2

Table 1. Age (AGE) et presence (1) ou absence (0) d’une maladie cardiovasculaire (CHD)pour un echantillon de 100 personnes. AGRP represente des categories d’age et ID est lenumero du cas.

ID AGRP AGE CHD ID AGRP AGE CHD ID AGRP AGE CHD

1 1 20 0 35 3 38 0 68 6 51 02 1 23 0 36 3 39 0 69 6 52 03 1 24 0 37 3 39 1 70 6 52 14 1 25 0 38 4 40 0 71 6 53 15 1 25 1 39 4 40 1 72 6 53 16 1 26 0 40 4 41 0 73 6 54 17 1 26 0 41 4 41 0 74 7 55 08 1 28 0 42 4 42 0 75 7 55 19 1 28 0 43 4 42 0 76 7 55 1

10 1 29 0 44 4 42 0 77 7 56 111 2 30 0 45 4 42 1 78 7 56 112 2 30 0 46 4 43 0 79 7 56 113 2 30 0 47 4 43 0 80 7 57 014 2 30 0 48 4 43 1 81 7 57 015 2 30 0 49 4 44 0 82 7 57 116 2 30 1 50 4 44 0 83 7 57 117 2 32 0 51 4 44 1 84 7 57 118 2 32 0 52 4 44 1 85 7 57 119 2 33 0 53 5 45 0 86 7 58 020 2 33 0 54 5 45 1 87 7 58 121 2 34 0 55 5 46 0 88 7 58 122 2 34 0 56 5 46 1 89 7 59 123 2 34 1 57 5 47 0 90 7 59 124 2 34 0 58 5 47 0 91 8 60 025 2 34 0 59 5 47 1 92 8 60 126 3 35 0 60 5 48 0 93 8 61 127 3 35 0 61 5 48 1 94 8 62 128 3 36 0 62 5 48 1 95 8 62 129 3 36 1 63 5 49 0 96 8 63 130 3 36 0 64 5 49 0 97 8 64 031 3 37 0 65 5 49 1 98 8 64 132 3 37 1 66 6 50 0 99 8 65 133 3 37 0 67 6 50 1 100 8 69 134 3 38 0

Page 34: 4 Regression

22.3

Figure 1. Diagramme de CHD et AGE.

• •••

• •••

•••

•••

••

•••

••

••

•••

••

••

••••

•• •

20 30 40 50 60 70

0.0

0.2

0.4

0.6

0.8

1.0

AGE

C

HD

Figure 2. Diagramme des proportions de personnes avec CHD = 1 selon AGE en groupes.

• ••

••

•• •

20 30 40 50 60 70

0.0

0.2

0.4

0.6

0.8

1.0

AGE

C

HD

Figure 3. p(AGE) = exp(−5.31 + 0.111 · AGE)/(1 + exp(−5.31 + 0.111 · AGE))

• ••

••

•• •

20 30 40 50 60 70

0.0

0.2

0.4

0.6

0.8

1.0

AGE

C

HD

c©A. Marazzi

Page 35: 4 Regression

22.4

Considerons d’abord le cas d’une seule variable explicative quantitative X . Nous nous pro-posons d’utiliser une fonction mathematique p(x) simple comme modele pourP (Y = 1|X = x). S’agissant d’une probabilite, la fonction p(x) doit etre bornee parles valeurs 0 et 1. Elle ne peut donc pas etre lineaire. L’Exemple 1 suggere que p(x) a uneforme sigmoıdale qui peut etre approchee par une fonction de distribution cumulative, parexemple, la fonction de distribution normale F = Φ. Plus precisement, on peut utiliser lemodele

p(x) = Φ(β0 + β1x).

Ici, β0 et β1 sont les parametres du modele ou coefficients. Si Φ−1 est la fonction inversede Φ (transformation probit), on obtient

Φ−1(p(x)) = β0 + β1x,

c’est-a-dire, une relation lineaire. Ce modele, connu comme le modele probit, a joui d’unecertaine popularite dans l’essai biologique (Finney, 1978).Toutefois, la forme la plus utilisee est celle de la fonction de distribution logistique FL,c’est-a-dire:

FL(β0 + β1x) =exp(β0 + β1x)

1 + exp(β0 + β1x).

On pose donc le modelep(x) = FL(β0 + β1x)

appele modele logit ou logistique. La transformation inverse

F−1L (y) = ln(y/(1 − y)), 0 < y < 1,

est appelee la transformation logit et l’expression ln(p/(1−p)) est appele le logit de p, notelogit(p). Donc,

F−1L (p(x)) = logit(p(x)) = ln

(p(x)

1 − p(x)

)= β0 + β1x

est une fonction lineaire. La fonction K(x) = logit(p(x)) est aussi appelee une link functiondans la theorie des modeles lineaires generalises (McCullagh et Nelder, 1989). On observequ’elle peut varier entre −∞ et +∞.Le modele peut etre etendu a l’analyse d’une variable reponse binaire Y en fonction deplusieurs variables explicatives X1, . . . , Xk, qui peuvent etre quantitatives, en categoriesordonnees, ou qualitatives (exprimees de facon numerique). Dans ce cas, on cherche unefonction p(x1, . . . , xk) a plusieurs variables comme modele pour la probabilite condition-nelle P (Y = 1|X1 = x1, . . . , Xk = xk). Le modele logit utilise la fonction

p(x1, . . . , xk) =exp(β0 + β1x1 + . . . + βkxk)

1 + exp(β0 + β1x1 + . . . + βkxk),

c’est-a-dire la relation lineaire

K(x1, . . . , xk) = β0 + β1x1 + . . . + βkxk,

avec link function

K(x1, . . . , xk) = ln(p(x1, . . . , xk)/(1 − p(x1, . . . , xk)).

Page 36: 4 Regression

22.5

En pratique, les coefficients β0, β1, . . . , βk doivent etre determines a l’aide des donneesOn utilise la methode du maximum de vraisemblance (Chapitre 8). En general, cettemethode fournit des estimateurs avec de bonnes proprietes statistiques: les estimateurs ontapproximativement une distribution normale et leurs variances sont relativement petites.Toutefois, ces proprietes ne sont valables que si la taille n de l’echantillon est grande etque le nombre de parametres est petit (McCullagh et Nelder, 1989).Les estimations sont souvent associees a des tests d’hypotheses du type

H0 : βh = βh+1 = . . . = βk = 0

avec 1 ≤ h ≤ k. L’hypothese H0 affirme que Xh, Xh+1, . . . , Xk ne sont pas utiles pourexpliquer la probabilite conditionnelle de succes P (Y = 1|X1 = x1, . . . , Xk = xk). A l’aidede ces tests, le probleme de la construction d’un modele adequat – c’est-a-dire, avec unbon degre d’ajustement et un faible nombre de parametres – peut etre aborde. Enfin, onpeut calculer des intervalles de confiance pour les coefficients β0, β1, . . . , βp.

Remarque. En general, les modeles logit et probit fournissent des valeurs tres proches.Toutefois, l’interpretation des parametres du modele logit est avantageuse, car elle s’appuiesur des importants concepts utilises en epidemiologie (Section 4, ci-dessous).

22.2 Estimation et tests: cas d’une seule variable explicative

Nous allons esquisser la methode du maximum de vraisemblance pour le cas d’une seulevariable explicative X , c’est-a-dire la regression logistique simple. La vraisemblance d’unechantillon (xi, yi), i = 1, . . . , n (ou les xi sont les valeurs observees de X et les yi cellesde Y – donc yi = 0 ou 1) est

p(xi)yi(1 − p(xi))1−yi ,

ou

p(x) =exp(β0 + β1x)

1 + exp(β0 + β1x)depend de β0 et β1. Comme on admet que les observations sont independantes, la vraisem-blance de l’echantillon selon le modele est

L(β0, β1) = Πni=1p(xi)yi(1 − p(xi))1−yi .

Le critere du maximum de vraisemblance determine les valeurs de β0 et β1 qui rendentmaximale cette vraisemblance. Dans ce but, il convient de considerer l’oppose de sonlogarithme, c’est-a-dire, la fonction log-likelihood

�(β0, β1) = − ln L(β0, β1)

= −n∑

i=1

[yi ln p(xi) + (1 − yi) ln(1 − p(xi))].

On minimise alors cette fonction en annulant ses derivees partielles selon β0 et β1. Onobtient ainsi les conditions

n∑i=1

(yi − p(xi)) = 0 etn∑

i=1

xi(yi − p(xi)) = 0.

Les solutions β0 et β1 de ces equations sont les estimateurs du maximum de vraisemblancede β0 et β1. En general, elles sont calculees a l’aide de programmes de calcul numerique.

c©A. Marazzi

Page 37: 4 Regression

22.6

A l’aide des estimations β0 et β1, on peut estimer les probabilites de succes pour differentesvaleurs x de la variable explicative:

p(x) =exp(β0 + β1x)

1 + exp(β0 + β1x).

Les valeurs de la fonction p(x) sont parfois appelees les probabilites ajustees.

Exemple 2. Avec les donnees de la Table 1, on obtient les coefficients estimes indiquesdans la Table 2, c’est-a-dire, β0 = −5.310 et β1 = 0.111 et donc

p(x) =exp(−5.31 + 0.111 × AGE)

1 + exp(−5.31 + 0.111 × AGE).

La Figure 3 donne le graphique de cette fonction qui s’adapte assez bien aux frequencesrelatives de CHD selon AGE (en groupes). La valeur du log likelihood �(β0, β1) est −53.677.

Table 2. Resultats de l’ajustement d’un modele logistiquea une seule variable explicative X = AGE aux donnees de la Table 1.

Estimation ErreurVariable Coefficient Standard Coeff./σ

AGE 0.111 0.024 4.61Constante -5.310 1.134 -4.68

Log-likelihood=-53.677

Les programmes usuels fournissent aussi les ecarts types σ(β0) et σ(β1) de β0 et β1. Graceau fait que la distribution des estimateurs est approximativement normale on peut con-struire des intervalles de confiance avec coefficient de couverture 1 − 2α:

[βj − σ(βj)z1−α, βj + σ(βj)z1−α], j = 0, 1,

ou z1−α est le quantile 1−α de la distribution normale standard (par exemple, α = 0.025et z0.975 = 1.96).

Enfin, on peut aussi tester l’hypothese

H0 : βj = 0

(j = 1 ou j = 2) contre l’une des deux alternatives

H1 : βj > 0 (unilaterale) ou H1 : βj �= 0 (bilaterale).

Page 38: 4 Regression

22.7

Le procede le plus simple utilise la statistique

T = βj/σ(βj).

Sous l’hypothese, la statistique T a approximativement une distribution normale standard.Au niveau α, on rejette donc H0 en faveur d’une alternative unilaterale H1 (par exemple)si T > z1−α. De facon equivalente, on rejette H0 si la valeur observee t0 de T est telle queP (T > t0) < α. Ce test est connu comme le test de Wald. Un autre test sera presentedans la section suivante.

Exemple 3. Les ecarts types et les valeurs de la statistique T pour les coefficients β0 etβ1 de l’Exemple 1 sont donnes dans la Table 2. Pour l’hypothese H0 : β1 = 0 (β1 est lecoefficient de la variable AGE) on obtient t0 = 0.111/0.024 = 4.610. A l’aide d’une tablede la distribution normale on trouve que P (T > 4.610) < 0.0001 et on conclut que lavariable AGE est importante pour expliquer la probabilite de CHD=1.

22.3 Estimation et tests: cas de plusieurs variables explicatives

Un des buts principaux de la regression logistique est celui d’examiner les effets conjointsde plusieurs variables explicatives et de leurs interactions.

Exemple 4. Comme un petit poids a la naissance (LBW = Low Birth Weight) a uneinfluence negative sur le developpement de l’enfant, les facteurs de risque de LBW sontde grand interet en medecine preventive. Dans une etude de 189 cas, 8 facteurs de risquepotentiels (age maternel, fumee, hypertension, etc.) ont ete enregistres. Les donneesfigurent dans Hosmer et Lemeshow (1989). n1 = 59 bebes avaient un poids au-dessousde la normale et n0 = 130 un poids normal. Quatre variables ont ete choisies commepredicteurs: l’age de la mere (AGE), son poids aux dernieres regles (PDS), le nombrede visites medicales qu’elle a eues durant le premier trimestre (VST) et sa race, en 3categories, codees a l’aide de deux variables indicatrices RACE1 et RACE2.

Souvent, comme dans l’Exemple 4, des informations concernant un grand nombre de vari-ables explicatives X1, . . . , Xk sont disponibles. Comme dans le cas de la regression mul-tiple ordinaire, elles forment une matrice du modele X dont les lignes sont les vecteurs(1, xi1, . . . , xik) et xik indique la i-eme observation (observation du cas i) de la variable k.Le modele

K(x1, . . . , xk) = β0 + β1x1 + . . . + βkxk,

est alors ajuste par la methode du maximum de vraisemblance. Dans ce but, on resoutun systeme de (k + 1) equations pour les coefficients β0 et β1, . . . , βk, que l’on obtient enannulant les derivees partielles de la fonction log likelihood �(β0, β1, . . . , βp):

∂�(β0, β1, . . . , βk)∂β0

=n∑

i=1

(yi − p(xi1, . . . , xip)) = 0,

∂�(β0, β1, . . . , βk)∂βj

=n∑

i=1

xij(yi − p(xi1, . . . , xip)) = 0, j = 1, . . . , k.

c©A. Marazzi

Page 39: 4 Regression

22.8

L’interpretation des donnees fournie par la regression multiple est superieure a celle fourniepar la regression simple. La regression multiple tient compte des eventuelles associationsentre les variables explicatives. Les coefficients de chaque variable sont epures des contri-butions fournies par les autres variables et representent, donc, des effets propres.

Exemple 4 (continuation). La Table 3 donne les coeffiecients estimes d’une regressionlogistique de LBW en fonction de AGE, PDS, RACE (RACE1 et RACE2) et VST. Laderniere colonne donne les valeurs de la statistique βj/σ(βj) pour le test de Wald de chaquecoefficient. On voit immediatement que les effets de PDS et RACE1 sont significatifs(P < 0.05). Au contraire, les effets de AGE et de VST sont nettement non-significatifs etces variables peuvent etre ecartees du modele. Toutefois, RACE2 ne peut pas etre elimineepuisqu’elle est utilisee en combinaison avec RACE1.

Table 3. Estimation des coefficients d’une regression logistique multiplesur des donnees concernant des bebes de faible poids a la naissance.

Estimation ErreurVariable Coefficient Standard σ Coeff./σ

AGE -0.024 0.034 -0.71PDS -0.014 0.00652 -2.14RACE1 1.004 0.497 2.02RACE2 0.433 0.362 1.20VST -0.049 0.167 -0.30Constante 1.295 1.069 1.21

Log-Likelihood=-111.286

Pour tester une hypothese lineaire qui concerne plusieurs coefficients on utilise le test durapport de vraisemblance. Supposons que le modele courant (ou complet) soit

K(x1, . . . , xk) = β0 + β1x1 + . . . + βkxk

et que l’hypothese a tester soit

H0 : βh = βh+1 = . . . = βk = 0

avec 1 ≤ h ≤ k (c’est le type d’hypothese lineaire le plus frequent). Le modele reduit estdonc

K(x1, . . . , xk) = β0 + β1x1 + . . . + βh−1xh−1.

On definit d’abord la deviance du modele courant par rapport au modele sature (voir noteci-dessous):

D(modele courant) = −2 ln(

vraisemblance du modele courantvraisemblance du modele sature

).

La deviance est une mesure de comparaison entre les probabilites p(x∗i ) ajustees a l’aide

du modele courant et celles ajustees a l’aide du modele sature, c’est-a-dire, les frequencesobservees.

Page 40: 4 Regression

22.9

La statistique du test du rapport de vraisemblance est

G = −2 ln(

vraisemblance du modele reduitvraisemblance du modele complet

)= D(modele reduit) − D(modele complet)= −2 [ln(vraisemblance du modele reduit) − ln(vraisemblance du modele complet)] .

Dans son esprit, ce calcul est similaire a la difference des sommes des carres des residusdans la regression ordinaire. Sous l’hypothese H0, la statistique G a approximativementune distribution χ2 avec k − h + 1 degre de liberte. On rejette donc H0, au niveau α, si lavaleur observee g0 de G depasse le quantile 1 − α de la distribution χ2 a k − h + 1 degrede liberte.Exemple 4 (continuation). On peut tester si l’ensemble des 5 variables de la Table 3explique la probabilite d’une reponse positive de facon significative. L’hypothese est:

H0 : β1 = β2 = β3 = β4 = β5 = 0.

La vraisemblance du modele complet (a 6 coefficients) doit etre comparee a celle du modelereduit K(x1, . . . , x5) = β0. On trouve

ln(vraisemblance du modele complet) = −111.29,

ln(vraisemblance du modele reduit) = −117.34.

Doncg0 = −2((−117.34) − (−111.29)) = 12.1

et P (G > 12.1) = 0.033 (G a 5 = 6 − 1 degres de liberte); le modele complet est doncsignificatif. Par analogie, on pourrait tester s’il est opportun d’inclure les variables VST etAGE en supposant que PDS, RACE1 et RACE2 soient incluses de toute facon. La vraisem-blance d’un modele a 6 coefficients (5 variables et un intercept) devrait etre comparee acelle d’un modele a 3 variables; G aurait 6 − 3 = 3 degres de liberte.Exemple 5. Pour le cas d’une seule variable explicative, il n’y a que trois “modelescourants” possibles: le modele K(x) = β0 + β1x, le modele sans intercept K(x) = β1x etle modele constant K(x) = β0. Si H0 : β1 = 0 on a k = h = 1, k − h + 1 = 1 et on obtient

D(modele courant) = −2n∗∑i=1

[y∗i ln(p(x∗

i )/y∗i ) + (1 − y∗

i ) ln((1 − p(x∗i ))/(1 − y∗

i ))] .

Le signe ∗ indique que des “cas similaires” (avec la meme valeur de la variable explicative)ont ete regroupes (comme dans la Figure 2). En d’autres termes, y∗

i est la frequence relativede succes pour X = xi; c’est aussi l’estimation de p(x∗

i ) sous le modele sature. Avec lesdonnees de la Table 1 et H0 : β1 = 0 on trouve g0 = 29.31. Comme G a approximativementune distribution χ2 a 1 degre de liberte, P (G > 29.31) est inferieur a 0.001.

Note. Un modele sature est un modele qui a autant de parametres que de points qu’ildoit ajuster; par exemple, une droite de regression lorsque les donnees representees dansle diagramme de dispersion sont regroupees dans deux seuls points.

c©A. Marazzi

Page 41: 4 Regression

22.10

22.4 Interpretation des coefficients

Dans le cas de la regression ordinaire simple, une variation unitaire dans la valeur x de lavariable X produit un changement de β1 unites dans l’esperance conditionnelle E(Y |X =x) de Y . Pour la regression logistique a une seule variable explicative la relation entre p(x)et x est donnee par le logit:

ln(

p(x)1 − p(x)

)= β0 + β1x.

Donc, un increment unitaire en x produit une variation de “β1 logits”. Nous allons preciserce que cette expression signifie pour differents types de variables explicatives X .

Variable explicative binaire. Nous considerons la regression logistique simple, mais lageneralisation au cas multiple est possible. Une variable explicative binaire est utilseepour indiquer la presence (X = 1) ou l’absence (X = 0) d’une certaine condition X . Pourmesurer l’association entre X et Y , ou Y = 1 indique la presence d’une maladie, on utiliseen epidemiologie le odds ratio ou rapport des cotes (Fleiss (1981)). La cote (odds) de Y = 1pour les individus avec X = 0 est definie comme

Ω(0) =P (Y = 1|X = 0)

1 − P (Y = 1|X = 0)=

p(0)1 − p(0)

.

Par analogie, on definit la cote de Y = 1 en presence de X = 1:

Ω(1) =P (Y = 1|X = 1)

1 − P (Y = 1|X = 1)=

p(1)1 − p(1)

.

La cote est donc le rapport entre la probabilite d’etre malade et la probabilite d’etre sainet son logarithme est le logit. Enfin, l’odds ratio pour comparer la presence et l’absence deX est le rapport

o(1, 0) = Ω(1)/Ω(0).

Si l’association entre X et Y est faible, P (Y = y|X = 0) ≈ P (Y = y|X = 1) et o(1, 0) estproche de 1. Inversement, un odds ratio superieur ou inferieur a 1 indique une associationentre X et Y . Avec p(x) = exp(β0 + β1x)/(1 + exp(β0 + β1x) on obtient

o(1, 0) = exp(β1)

et doncβ1 = ln(o(1, 0)) = logit(p(1)) − logit(p(0)).

Le coefficient β1 indique donc de combien le logit de devenir malade est augmente parl’exposition a la condition X .

Remarques

1. On peut estimer o(1, 0) par o(1, 0) = exp(β1) et obtenir un intervalle de confiance pouro(1, 0) en prenant l’exponentielle (exp(·)) des limites d’un intervalle de confiance pour β1.2. Si les valeurs de P (Y = 1|X = 0) et de P (Y = 1|X = 1) sont tres petites, les odds Ω(1)et Ω(0) sont proches de leur numerateur et la valeur numerique de l’odds ratio est prochede celle du risque relatif r(1, 0) = P (Y = 1|X = 1)/P (Y = 1|X = 0). L’approximationsuivante du risque relatif est toutefois meilleure: r ≈ o + o[1 − o]p(0).

Page 42: 4 Regression

22.11

Variable explicative qualitative a plusieurs niveaux. Pour l’interpretation d’une variableexplicative qualitative (facteur) a plusieurs niveaux, nous nous servons d’un exemple.

Exemple 6. La Table 4 fournit les frequences de Y = 1 (CHD present) et de Y = 0 (CHDabsent) selon les 4 categories de la variable Race a 4 niveaux: Blanche, Noire, Hispanique,Autre.

Table 4. Classification de donnees hypothetiques selon CHD et Race, pour 100 sujets.

CHD Blanche Noire Hispanique Autre Total

Present 5 20 15 10 50Absent 20 10 10 10 50

Total 25 30 25 20 100

Odds ratio (o) 1.0 8.0 6.0 4.0ln(o) 0.0 2.08 1.79 1.39Int. conf. a 95% (2.3,27.6) (1.7,21.3) (1.1,14.9)

Sans utiliser de modeles, les odds ratios pour comparer chaque niveau de Race a RaceBlanche peuvent etre estimes a l’aide des tableaux 2×2 correspondants.Pour utiliser le modele de regression, il faut coder numeriquement la variable Race a 4niveaux. Le codage usuel utilise 3 variables indicatrices D1, D2 et D3, par exemple cellesdefinies dans la Table 5, ou Blanche est le niveau de reference. (Comme pour la regressionmultiple, pour coder un facteur a k niveaux, il faut utiliser k − 1 variables indicatrices.)

Table 5. Codage du facteur Race avec niveau de reference Blanche.

Variables

Race D1 D2 D3

Blanche 0 0 0Noire 1 0 0Hispanique 0 1 0Autre 0 0 1

Les coefficients estimes β1, β2 et β3 de D1, D2 et D3 sont respectivement les logarithmesdes odds ratios qui figurent dans la Table 4. Par exemple:

ln(o(Noire,Blanche)) = logit(p(Noire)) − logit(p(Blanche))

= [β0 + β1(1) + β2(0) + β3(0)] − [β0 + β1(0) + β2(0) + β3(0)] = β1

Donc β1 = 2.079, β2 = 1.792, β3 = 1.386. En outre,

p(Blanche) = exp(β0)/(1 + exp(β0)) = 1/5

d’ou β0 = ln(1/4) = −1.386.

c©A. Marazzi

Page 43: 4 Regression

22.12

Variable explicative continue. Soit X une variable explicative continue et soit p(x) =P (Y = 1|X = x). Considerons l’odds ratio correspondant a deux valeurs x1 et x0 de X :

o(x1, x0) =p(x1)/(1 − p(x1))p(x0)/(1 − p(x0))

.

SiK(x) = β0 + β1x,

alors β1 est le log de l’odds ratio correspondant a un increment unitaire:

β1 = ln(o(x + 1, x)).

Si on s’interesse a un increment de c unites, on obtient evidemment,

K(x + c) − K(x) = cβ1, c’est-a-dire, o(x + c, x) = exp(cβ1).

Remarque. On peut facilement obtenir un intervalle de confiance avec coefficient de cou-verture 1 − 2α pour o(x + c, x). L’intervalle est:

[exp(cβ1 − z1−αcσ(β1), exp(cβ1 + z1−αcσ(β1)].

Exemple 7. Avec les donnees de la Table 1 on avait obtenu K(AGE) = −5.310 + 0.111 ×AGE. L’odds ratio pour un increment de AGE de 10 ans est alors o(AGE+10, AGE) = 3.03et un intervalle de confiance de couverture 95% est

[exp(10 × 0.111 − 1.96 × 10 × 0.024), exp(10 × 0.111 + 1.96 × 10 × 0.024)] = [1.90, 4.86].

Variable explicative en categories ordonnees. Une variable en categories ordonnees (ouvariable ordinale) est une variable dont les modalites ne sont pas numeriques mais peuventetre ordonnees. Un exemple est une variable avec modalites Bon, Satisfaisant, Suffisant,Insuffisant. Si le nombre de modalites est superieur a 3, il convient generalement de traiterune variable ordinale comme si elle etait quantitative (et coder les modalites avec leurrang); dans le cas contraire, il faut la traiter comme un facteur.

Page 44: 4 Regression

22.13

Interactions. Dans la regression logistique multiple, l’effet d’une variable explicative Xj

sur la reponse moyenne est ajuste en tenant compte des autres variables Xk, avec k �= j,comme dans la regression multiple ordinaire. Supposons, par exemple, que le modele

K(x1, x2) = β0 + β1x1 + β2x2

soit utilise pour expliquer Y = CHD a l’aide de X1 = AGE et de X2 = SEXE.(Evidemment, il faudrait connaıtre le sexe de chaque sujet, mais la Table 1 ne donnepas cette information.) Si AGE et SEXE etaient associes, l’effet d’AGE constate dansl’analyse univariee (Exemples 1, 2, 3) pourrait etre du au sexe. En effet, CHD est plusfrequent chez les hommes que chez les femmes, mais les chances de CHD augmentent aussiavec l’age, et les femmes atteignent en moyenne un age plus eleve. La regression multiplepermet d’evaluer l’effet propre du sexe en ayant pris en compte celui propre a l’age.Ce qu’on vient d’affirmer est valable s’il n’y a pas d’interaction entre X1 et X2. Dansnotre exemple, une interaction impliquerait que l’effet du sexe varie en fonction de l’age(il serait donc specifique a l’age). La Figure 4 illustre ce point: si les logits de CHD enfonction de AGE pour SEXE=hommes et SEXE=femmes sont paralleles (lignes l1 et l2),l’effet du sexe ne depend pas de l’age: il n’y a pas d’interaction. Si les logits ne sont pasparalleles (lignes l2 et l3), l’effet du sexe varie selon l’age et il y a interaction. (Dans cecas, l’odds ratio pour comparer les sexes est aussi dependant de l’age.)Pour inclure cette interaction dans le modele, on utilise une variable explicative supplemen-taire definie comme le produit X1 · X2, donc:

K(x1, x2, x3) = β0 + β1x1 + β2x2 + β12x1x2.

La presence de l’interaction peut etre verifiee par un test de l’hypothese H0 : β12 = 0.En definitive, la meilleure facon d’interpreter une regression logistique multiple est de cal-culer et de comparer les valeurs de p(x1, . . . , xp) pour differents jeux de valeurs (x1, . . . , xp).Par exemple, on pourrait comparer les probabilites de CHD pour les fumeurs-hommes-obeses et pour les non-fumeurs-femmes-obeses.

30 40 50 60 70

01

23

45

6

l

l

l

1

2

3

AGE

Log

(Odd

s+4)

Figure 4. Logit en fonction de AGE pour 3 modeles differents.

c©A. Marazzi

Page 45: 4 Regression

Chapitre 23Introduction à l�analyse de survie avec R

23.1 Introduction

L�analyse de survie est un domaine de la statistique qui a pour objet l�étude de la durée qui s�écoule

entre un temps d�origine et un certain événement d�intérêt. L�événement typique - qui donne son

nom à la discipline - est le décès. Toutefois, les méthodes qui se regroupent sous le terme de "analyse

de survie" peuvent être (et ont été) appliquées à l�étude de toute une variété d�événements, comme

par exemple l�occurrence d�une maladie et sa récurrence, le décès après une intervention chirurgicale

(biostatistique), le récidivisme criminel, le divorce, la naissance d�un enfant (science sociales), la panne

d�une machine (ingénierie).

La variable d�intérêt en analyse de survie est donc le temps. Il s�agit d�une variable toujours

positive et d�habitude continue. Elle est souvent caractérisée par une information incomplète, due

au fait que quelques uns des sujets pris en compte peuvent ne pas avoir connu l�événement d�intérêt

avant la �n de la période d�observation. Pour ces individus le chercheur ne connaît pas le temps exact

de l�événement, mais il sait seulement que l�événement a eu lieu à une durée au moins égale à un

certain temps t. Dans ce cas on dit que la durée est censurée.

En absence de censure, l�analyse de la variable "durée" pourrait eventuellement être conduite à

l�aide de procédures standard de régression. La présence de données censurées rend ces techniques

standard inadéquates, et rend donc indispensable l�adoption de méthodes ad hoc.

23.2 La censure

Une donnée censurée est une donnée dont on dispose d�une information incomplète. Il y a essentielle-

ment deux raisons pour lesquelles une censure peut se véri�er:

� Le sujet ne connaît pas l�événement avant la �n de la durée dobservation. On parle dans cecas de censure �xe, parce que si l�étude se termine après une période T (mesurée en jours,

semaines, années,...), tous les sujets qui ne connaissent pas l�événement avant la �n de l�étude

ont un temps de censure �xe égal a T:

1

Page 46: 4 Regression

� Le sujet sort de l�étude, sans connaître l�événement, avant qu�elle ne soit �nie (lost to follow-up).Dans ce cas on aura une censure de type random, parce les sujets censurés de cette façon ont

chacun un temps de censure di¤érent, qui n�est pas déterminé par la durée de l�étude elle même.

Considérons par exemple une étude de la survie de patients qui ont été soumis à une transplanta-

tion du coeur et qui sont suivis après l�opération pendant une période de 52 semaines. Dans ce cas le

temps origine est représenté par le moment de la transplantation et l�événement d�intérêt est le décès.

Dans la Figure 1 sont représentées les histoires de survie de cinq patients. Un cercle plain indique

un événement observé; un cercle vide représente un événement non observé; un carré représente une

censure. Une ligne continue représente une période pendant laquelle les sujets sont observés être

soumis au risque de connaître l�événement; une ligne pointillée, une période pendant laquelle un sujet

reste soumis au risque, sans qu�il ne soit observé.

La première observation est non-censurée; le deuxième sujet est censuré car il est encore vivant à

la �n des 52 semaines de l�étude (censure �xe); le troisième patient sort de l�étude, et donc la durée

correspondante est censurée, 20 semaines après la transplantation, par exemple parce qu�il déménage

et il est suivi par d�autres médecins (censure random). Les deux censures considérées représentent

des cas de censure à droite (la seule qui sera prise en compte dans la suite). Il est toutefois intéressant

de remarquer la possibilité d�une censure à gauche (truncation) qui se véri�e quand un sujet entre

dans l�étude un certain temps après le début de l�étude même (late entry). C�est le cas des patients 4

et 5, dont le premier connaît l�événement avant la �n de l�étude, alors que le deuxième est sujet aussi

à une censure a droite.

Dans les méthodes d�analyse de survie sont considérés comme "soumis au risque" à un certain

temps t tous les sujets qui sont encore observés en t, et donc qui n�ont pas été censurés avant t. Or,

pour que les estimateurs des temps ou des probabilités de survie soient non biaisées, il faut assumer

que les sujets observés en t soient représentatifs de tous les sujets, même de ceux qui sont sortis de

l�étude avant t. Ceci équivaut à assumer que le mécanisme de censure est indépendant du temps. On

parle dans ce cas de censure non-informative.

Si T est la variable aléatoire qui représente la durée jusqu�à l�événement et C la variable aléatoire

qui représente la durée jusqu�à la censure, l�hypothèse d�indépendance entre T et C assure que:

P (t < T < t+�t j C > t) = P (t < T < t+�t j C < t) :

2

Page 47: 4 Regression

La probabilité de "survivre" de t à (t+�t) est la même pour ceux qui sont encore dans l�étude à

l�instant t et pour ceux qui sont censurés avant.

0 20 40 60 80 100

Début de l’étude Fin de l’étude

Temps de l’origine de l’étude

1

2

3

4

5

Sujets

0 20 40 60 80 100

Début de l’étude Fin de l’étude

Temps de l’origine de l’étude

1

2

3

4

5

Sujets

Figure 1: Survie de patients soumis à une transplantation du coeur. Di¤érentes trajectoires indi-

viduelles.

23.3 Terminologie et notation

On indique avec T la variable aléatoire qui représente le time-to-event d�un individu. On se limite au

cas d�une variable T continue. Soit f la fonction de densité de T et F sa fonction cumulative:

F (t) = P (T � t) =Z t

0f(s) ds: (23.1)

Dans le contexte de l�analyse de survie on est souvent intéressé par le complément à un de la fonction

cumulative, la fonction de survie S, qui donne la probabilité pour un individu de survivre jusqu�à un

certain temps t:

S(t) = 1� F (t) = P (T > t) =Z 1

tf(s) ds: (23.2)

3

Page 48: 4 Regression

Une des notions les plus importantes en analyse de survie est celle de fonction de risque h. Celle-ci est

dé�nie comme la limite quand �t! 0 de la probabilité que la durée T soit comprise dans l�intervalle

[t; t+�t), sachant qu�elle est au moins égal à t, divisée par la longueur de l�intervalle:

h (t) = lim�t!0

Pr (t � T < t+�t j T > t)�t

: (23.3)

On montre facilement que la fonction de risque peut être écrite comme le rapport entre la fonction

de densité et la fonction de survie:

h (t) = lim�t!0

P (t � T < t+�t)�tP (T > t)

= (23.4)

=1

P (T > t)lim�t!0

P (t � T < t+�t)�t

=f (x)

S (x)

La fonction de risque h (t) caractérise le risque instantané de connaître l�événement à un certain

temps t, étant donné que l�individu est encore soumis au risque en t. Il est utile de remarquer que la

fonction de risque ne représente pas une probabilité conditionnelle, dans le même sens que la fonction

de densité ne représente pas une probabilité. En e¤et, si la fonction de risque ne peut pas être

négative, elle peut par contre avoir des valeurs supérieures à un.

On dé�nit en�n la fonction de risque cumulé H de la façon suivante:

H(t) =

Z t

0h(s) ds: (23.5)

Les fonctions f; F; S; h and H donnent des spéci�cations équivalentes de la distribution de la

variable aléatoire T . On peut facilement dériver des relations entre les quantités en question:

H(t) =

Z t

0h(s) ds =

Z t

0

f(s)

S (s)ds = � lnS (t) (23.6)

et donc:

S(t) = e�H(t) (23.7)

F (t) = 1� e�H(t) (23.8)

f (t) = h(t) e�H(t) (23.9)

4

Page 49: 4 Regression

23.4 Estimation non paramétrique de la fonction de survie: l�estimateur

de Kaplan Meier

Quand on travaille avec des données censurées, on doit faire face à deux processus non entièrement

observés. D�un côté les durées, représentées par la variable aléatoire T , de l�autre les censures, que

l�on peut indiquer avec une autre variable aléatoire C. Les deux variables sont non observées; ce

que l�on observe c�est le minimum entre les deux: Y = min(T;C) et une variable indicatrice D

qui donne valeur 1 aux durées observées qui aboutissent à un événement et 0 aux durées censurées:

D = I (T < C).

Les données se présentent donc dans la forme: (yi; di), i = 1; :::; n, où y1; :::; yn sont les durées

observées sur les n individus de l�échantillon et d1; ::::dn représentent les indicateurs de censure,

prenant la valeur 1 si la durée correspondante représente un événement et la valeur 0 si elle correspond

à une censure.

Soient y(1); :::y(k) (k � n) les temps, distincts et ordonnés, auxquels un ou plusieurs événementssont observés. Nous souhaitons estimer, pour chaque y(i) (i = 1; :::; k), la probabilité de survivre au

moins jusque y(i) (S�y(i)�= P

�T > y(i)

�). La méthode d�estimation de Kaplan Meier (Kaplan et

Meier 1958) correspond au calcul d�une probabilité conditionnelle de survie, notamment la probabilité

de survivre au moins jusque y(i) sachant que le sujet est encore "vivant" (soumis au risque de connaître

l�événement) à l�instant précédent y(i�1): P�T > y(i)jT > y(i�1)

�. Cette probabilité est beaucoup

plus facile à estimer à partir des données d�un échantillon, puisqu�il su¢ t de rapporter le nombre

d�événements qui ont lieu en y(i) au nombre de sujets qui sont observés comme étant soumis au

risque juste avant l�instant y(i) (probabilité conditionnelle de connaître l�événement) et de calculer le

complément à 1 de ce rapport (probabilité conditionnelle de ne pas connaître l�événement).

5

Page 50: 4 Regression

L�estimateur se base donc sur les relations:

S�y(i)�= P

�T > y(i)

�(23.10)

= P�T > y(i)jT > y(i�1)

�P�T > y(i�1)

�+

P�T > y(i)jT � y(i�1)

�P�T � y(i�1)

�= P

�T > y(i)jT > y(i�1)

�P�T > y(i�1)

�+ 0

= P�T > y(i)jT > y(i�1)

�P�T > y(i�1)jT > y(i�2)

�P�T > y(i�2)

�= P

�T > y(i)jT > y(i�1)

�P�T > y(i�1)jT > y(i�2)

�� � � P

�T > y(0)

�où y(0) représente le moment origine de l�étude.

Etant donné que P�T > y(0)

�= 1, la relation (23.10) peut être écrite de la façon suivante:

S�y(i)�=

iYj=1

P�T > y(j)jT > y(j�1)

�=

iYj=1

�1� P

�T � y(j)jT > y(j�1)

��=

iYj=1

�1� P

�T = y(j)jT > y(j�1)

��(23.11)

et un estimateur de S�y(i)�est donné par:

bS �y(i)� = iYj=1

�1�

e(j)

n(j)

�(23.12)

ou e(j) représente le nombre d�événements qui ont lieu à l�instant y(j) et n(j) le nombre d�individus

qui sont soumis au risque de connaître l�événement juste avant l�instant y(j). La quantité n(j) est

déterminée en soustrayant à n (le nombre total de sujets engagés dans l�étude) le nombre de sujets

qui ont connu l�événement ou qui sont censurés avant l�instant y(j). Dans les intervalles où il ne se

véri�e pas un événement la fonction de survie estimée reste constante:

bS (t) = bS �y(i)� y(i) < t < y(i+1)

6

Page 51: 4 Regression

L�estimateur peut donc être réécrit de la façon suivante:

bS (t) = Yj:y(j)�t

�1�

e(j)

n(j)

�: (23.13)

id clinic status survt prison dose1 1 1 428 0 502 1 1 275 1 553 1 1 262 0 554 1 1 183 0 305 1 1 259 1 656 1 1 714 0 557 1 1 438 1 658 1 0 796 1 609 1 1 892 0 50

10..

1..

1..

393..

1..

65..

Tableau 1: Données addict (Calehorn et al. 1991). Cf. document joint "addict.dat".

Considérons à titre d�exemple les données "addicts", issues d�une étude australienne (Calehorn

et al. 1991) qui avait l�objectif de suivre un échantillon de n = 238 sujets dépendants de l�héroine.

L�étude voulait comparer l�e¤et de deux di¤érents traitements à la méthadone (clinic=1,2) sur le

temps - en jours - pendant lequel les patients restaient sous traitement, l�événement étudié étant la

rechute (survt). Pour chaque patient on connaît aussi la quantité de méthadone administrée, en

mg/jour (dose), et si oui ou non il a été en prison avant le traitement (prison). La censure (status)

correspond aux patients qui sont encore dans la clinique à la �n de l�étude (Tableau 1).

Pour l�instant nous sommes intéressés seulement aux durées observées y1; :::; yn et aux indicateurs

de censure d1; :::dn. Dans le Tableau 2 est détaillé le calcul des valeurs de l�estimateur de Kaplan

Meier pour les durées jusque 29 jours. Dans la première colonne sont indiquées les durées pour

lesquelles on observe au moins un événement ou une censure. On remarque que seulement les durées

7

Page 52: 4 Regression

qui correspondent à un événement (en gras) donnent lieu à des variations de l�estimateur de Kaplan

Meier bS �y(i)�. Les lignes correspondant à des censures (que l�on à introduites a�n de pouvoir e¤ectuerles calculs) peuvent en fait être ignorées quand on regarde les résultats (cf. output R dans le Tableau

3). La Fig. 2 montre les valeurs de l�estimateur de Kaplan Meier en fonction du temps (les croix sur

le graphique correspondent à des durées censurées). Les lignes pointillées indiquent les intervalles de

con�ance à 95%. Ces derniers sont obtenus de la façon suivante pour chaque instant y(i) (i = 1; :::; k):

bS �y(i)�� 1:96 � b� �bS �y(i)��où b� �bS �y(i)�� - estimation de l�erreur standard de bS �y(i)�, est calculé à l�aide de la formule deGreenwood :

b� �bS �y(i)�� = bS �y(i)�vuut iX

j=1

e(j)

n(j)�n(j) � e(j)

� i = 1; :::; k:

Dans la Fig. 3 l�estimateur de Kaplan Meier est obtenu séparément pour chacun des deux traitements

à la méthadone (variable clinic). On peut observer que, étant donnée une durée quelconque �t,

l�estimation selon Kaplan Meier de la probabilité de "survivre" au moins jusque �t est plus élevée pour

les patients soumis au traitement 2.

Jour (y(i)) Evénements (e(i)) Censures n(i) 1­(e(i) / n(i)) S(y(i))

2 0 2 n = 238 1 ­ (0 / 238) = 1.000 17 1 0 238­(0+2) = 236 1 ­ (1 / 236) = 0.9958 0.9958

13 1 0 236­(1+0) = 235 1 ­ (1 / 235) = 0.9957 0.991517 1 0 235­(1+0) = 234 1 ­ (1 / 234) = 0.9957 0.987319 1 0 234­(1+0) = 233 1 ­ (1 / 233) = 0.9957 0.983126 1 0 233­(1+0) = 232 1 ­ (1 / 232) = 0.9957 0.978828 0 2 232­(1+0) = 231 1 ­ (0 / 231) = 1.000 0.978829 1 0 231­(0+2) = 229 1 ­ (1 / 229) = 0.9956 0.9745. . . . . .. . . . . .

Tableau 2: Calcul de l�estimateur de Kaplan Meier. Données addict.

8

Page 53: 4 Regression

time n.risk n.event survival std.err lower 95% CI upper 95% CI

7 236 1 0.996 0.00423 0.9875 1.000

13 235 1 0.992 0.00597 0.9799 1.000

17 234 1 0.987 0.00729 0.9731 1.000

19 233 1 0.983 0.0084 0.9667 1.000

26 232 1 0.979 0.00937 0.9606 0.997

29 229 1 0.975 0.01026 0.9546 0.995

30 228 1 0.97 0.01107 0.9488 0.992

33 227 1 0.966 0.01182 0.9431 0.989

35 226 2 0.957 0.01317 0.932 0.984

Tableau 3: Estimateur de Kaplan Meier, output en R. Données addict. Cf. code R dans le document

joint "surv.r".

Figure 2: Estimation de Kaplan Meier de la fonction de survie relative aux données addict. Cf.

code R dans le document joint "surv.r".

9

Page 54: 4 Regression

Figure 3: Estimation de Kaplan Meier de la fonction de survie pour chacun des deux traitements à

la méthadone (clinic). Données addict. Cf. code R dans le document joint "surv.r".

23.5 Modèles paramétriques

23.5.1 Di¤érentes distributions

L�estimateur de Kaplan Meier est un instrument très utile lorsqu�on s�intéresse à l�estimation d�une

fonction de survie. Parfois il peut cependant être intéressant de spéci�er une forme paramétrique de

la distribution des durées non observées, de façon à pouvoir résumer toute l�information relative à

cette variable à l�aide d�un petit nombre de paramètres. En principe toute distribution de variable

aléatoire positive peut être utilisée pour représenter les durées; les plus utilisées en analyse de survie

sont les distributions exponentielle, de Gompertz, Gamma, de Weibull, log-logistique et log-normale.

Dans la suite on va considérer et comparer seulement trois de ces distributions: exponentielle, Weibull

et log-normale. Pour un développement plus complet des approches paramétriques, voir en français

le texte "Analyse démographique des biographies" (Courgeau et Lelièvre, 1989).

10

Page 55: 4 Regression

1) Distribution exponentielle

C�est la distribution la plus simple. On l�obtient en considérant que la fonction de risque h (t) est

une constante, c�est à dire qu�elle ne varie pas dans le temps (Figure 4a):

h (t) = � (� > 0) (23.14)

Comme on l�a vu précédemment (Section 3), si on connaît l�expression de la fonction de risque on

peut facilement obtenir l�expression des autres fonctions caractérisant la variable aléatoire T :

H (t) = �t

S (t) = exp (��t)

f (t) = � exp (��t)

2) Distribution de Weibull

Il s�agit d�une généralisation de la distribution exponentielle. Elle comporte une fonction de risque

h (t) qui peut être croissante ou décroissante au cours du temps. La fonction de risque de Weibull est

dé�nie de la façon suivante:

h (t) = � t �1 (� > 0; > 0) (23.15)

On remarque que si le paramètre est égal à 1 on retrouve la distribution exponentielle. Si est

supérieur à l�unité la fonction de risque est uniformément croissante; si et inférieur à l�unité la

fonction de risque est uniformément décroissante (Figure 4b). Les autres fonctions s�obtiennent à

partir de h (t):

H (t) = �t

S (t) = exp (��t )

f (t) = � t �1 exp (��t )

3) Distribution Log-normale

La distribution log-normale représente un cas de fonction de risque non monotone. Dans le cas

11

Page 56: 4 Regression

de la loi log-normale, il est utile de considérer d�abord la fonction de densité:

f (t) =1

�tp2�exp

�12

�log t� �

�2!(� > 0; � > 0) (23.16)

où � et � sont la moyenne et la déviation standard de la variable W = log T , qui se distribue selon

une loi normale. Les autres fonctions s�obtiennent à partir de f (t):

S (t) = 1� ��log t� �

�H (t) = � log

�1� �

�log t� �

��h (t) =

1

�tp2� (1� � ((log t� �) =�))

exp

�12

�log t� �

�2!

où � (�) représente la fonction cumulative de la loi normale standard. La Figure 4c reporte les valeursde la fonction h (t) dans le cas log-normal, pour � = 0:4 et di¤érentes valeurs de �.

12

Page 57: 4 Regression

Figure 4: Fonctions de risques correspondant aux distributions exponentielle, de Weibull et log-

normale.

23.5.2 Véri�cation empirique des modèles

Voyons maintenant comment on peut véri�er de façon empirique si une des distributions précédem-

ment présentées peut être utilisée pour décrire les données dont on dispose (cfr par exemple Lawless

2003). Commençons par le modèle le plus simple, le modèle exponentiel. Si on regarde l�expression de

la fonction de survie, on remarque que le logarithme de cette fonction peut être écrit comme fonction

linéaire du temps:

logS (t) = ��t

13

Page 58: 4 Regression

Il s�agit de voir si une telle relation linéaire est présente dans les données. Pour cela on utilise

l�estimateur non-paramétrique bS (t) de la fonction de survie présenté dans la Section 4 (estimateurde Kaplan Meier) et on représente dans un graphique le logarithme de cet estimateur en fonction

du temps. L�hypothèse d�une distribution exponentielle est véri�ée si on obtient une droite de pente

négative.

Figure 5: Véri�cation graphique du modèle exponentiel. Dataset addict. Cf. code R dans le document

joint "surv.r".

Puisque les points ne semblent pas dessiner une droite, le modèle exponentiel ne peut pas être

utilisé pour représenter les données du dataset "addicts". Le contrôle empirique de la validité des

distributions de Weibull et log-normale se base sur le même principe. Il s�agit de trouver des transfor-

mations de S (t) qui présentent, selon le modèle, une relation linéaire avec le temps (ou une fonction

du temps) et de véri�er cette relation sur les données à l�aide d�un estimateur non-paramétrique. On

peut véri�er facilement que, dans le cas de la distribution de Weibull:

log (� logS (t)) = log �+ log t

14

Page 59: 4 Regression

Alors que dans le cas log-normal:

��1 (1� S (t)) = ���+1

�log t

ou ��1 (p) est le quantile p de la loi normale standard. Il y a donc dans le modèle de Weibull une

relation linéaire entre log (� logS (t)) et log t; et dans le modèle log-normal une relation linéaire entre��1 (1� S (t)) et log t. Les deux peuvent être véri�ées en remplaçant S (t) par l�estimateur de Kaplanmeier bS (t) et en représentant sur un graphique respectivement les points �log t; log �� log bS (t)�� ou�log t; ��1

�1� bS (t)��, qui devraient se disposer sur une droite si l�une ou l�autre des distributions

est véri�ée (Figure 6). Dans notre exemple les données apparaissent pouvoir être mieux représentées

par une distribution de Weibull.

Figure 6: Véri�cation graphique des modèles de Weibull et log-normal. Dataset addict. Cf. code R

pour chacune des deux distribution dans le document joint "surv.r".

23.5.3 Estimation d�un modèle paramétrique

Les modèles paramétriques décrits précédemment peuvent être estimés à l�aide de la méthode du

maximum de vraisemblance. On rappelle que dans le contexte de l�analyse de survie les données

15

Page 60: 4 Regression

observées sont issues des variables aléatoires Y = min (T;C), ou T et C représentent respectivement

les durées non-observées et les censures, et D = I (T < C). Cette dernière variable prend la valeur 1 si

Y = T et zéro si Y = C. L�échantillon se compose donc des quantités (yi; di), i = 1; :::; n, réalisations

des variables (Y;D). La fonction de vraisemblance est la distribution de l�échantillon, considérée en

fonction des paramètres inconnus. Donc:

L (�) = f (y1; :::yn; d1; :::dn) =nYi=1

f (yi; di) (23.17)

où � représente l�ensemble des paramètres inconnus. La densité f (yi; di) peut être obtenue de la

façon suivante:

f (yi; di) = (F01(yi))

di(F 00(yi))1�di (23.18)

ou F1(y) = P (Y < y;D = 1) ; F0(y) = P (Y < y;D = 0) et F 0k (yi) = dFk (y) =dy]y=yi , k = 0; 1:

L�expression (23.18) se développe de la façon suivante (voir Annexe A pour les passages analy-

tiques):

f (yi; di) = (f(yi)(1�G(yi)))di(g(yi)(1� F (yi)))1�di : (23.19)

ou g (�) et G (�) représentent la densité et la fonction cumulative de la variable de censure C. Dansl�hypothèse de censure non-informative, la distribution de la variable C ne contient aucune information

sur les paramètres �. Elle représente une constante multiplicative dans la vraisemblance L (�) et peut

donc être omise:

L (�) =nYi=1

f (yi; di) =nYi=1

f(yi)di (1� F (yi))1�di =

nYi=1

f(yi)diS (yi)

1�di =nYi=1

h(yi)diS (yi) (23.20)

L�expression (23.20) peut avoir une interprétation intuitive, en ce sens que les observations non-

censurées yi : di = 1 contribuent à la vraisemblance par la densité f(yi), alors que les observations

censurées yi : di = 0, pour lesquelles on sait seulement que T > yi, contribuent par la fonction de

survie S (yi).

Dans les tableaux 4 à 6 sont représentés les outputs R des modèles exponentiel, de Weibull et log-

16

Page 61: 4 Regression

normal. Dans notre exemple on se concentre plutôt sur les résultats obtenus avec l�hypothèse d�une

distribution de Weibull, car ce modèle semble mieux s�ajouster aux données (Section 5.2). Dans le

Tableau 5, le paramètre "scale" représente en fait l�inverse du paramètre de l�équation (23.15).

Une valeur estimée de 0.815 du paramètre "scale" correspond à une valeur de supérieure à l�unité.

Le risque de rechute estimé est donc une fonction croissante du temps (Fig. 4). Le �t des modèles

exponentiel, de Weibull et Log-normal est représenté dans la Fig. 7.

Call:

survreg(formula = S1 ~ 1, dist = "exponential")

Value  Std. Error    z p

(Intercept) 6.46     0.0816 79.1 0

Scale fixed at 1

Exponential distribution

Loglik(model)= ­ 1118.9   Loglik(intercept only)= ­ 1118.9

Number of Newton­ Raphson Iterations: 4

n= 238

Tableau 4: Output du modèle exponentiel en R. Données addict. Cf. code R dans le document joint

"surv.r".

Call:

survreg(formula = S1 ~ 1, dist = "weibull")

Value   Std. Error     z             p

(Intercept) 6.425      0.0671  95.77 0.00000

Log(scale) ­ 0.204    0.0691 ­ 2.95 0.00314

Scale= 0.815

Weibull distribution

Loglik(model)= ­ 1114.9   Loglik(intercept only)= ­ 1114.9

Number of Newton­ Raphson Iterations: 6

n= 238

Tableau 5: Output du modèle de Weibull en R. Données addict. Cfr code R dans le document

joint "surv.r".

17

Page 62: 4 Regression

Call:

survreg(formula = S1 ~ 1, dist = "lognorm")

Value   Std. Error     z           p

(Intercept) 6.060      0.0881 68.75   0.00000

Log(scale)  0.191     0.0600 3.18   0.00147

Scale= 1.21

Log Normal distribution

Loglik(model)= ­ 1123.7   Loglik(intercept only)= ­ 1123.7

Number of Newton­ Raphson Iterations: 6

n= 238

Tableau 6: Output du modèle log-normal en R. Données addict. Cf. code R dans le document joint

"surv.r".

Figure 7: Fit des modèles exponentiel, de Weibull et Log-normal. Données addict. Cf. code R pour

chacune des trois distributions dans le document joint "surv.r".

18

Page 63: 4 Regression

23.6 Le modèle semiparamétrique de Cox

23.6.1 Structure du modèle

Jusqu�ici on a travaillé dans l�hypothèse que tous les individus ont la même fonction de survie et donc

le même risque de connaître l�événement. Souvent toutefois on dispose d�une série d�informations sur

les sujets, qui pourraient nous aider à di¤érencier les risques individuels. Dans le dataset "addicts"

par exemple on sait que les sujets ont été soumis à deux di¤érents types de traitement en méthadone,

et il peut être intéressant de voir si à ces deux traitements correspondent des risques di¤érents de

connaître l�événement (rechute). D�autres variables explicatives pourraient produire un e¤et sur le

risque d�abandonner le traitement. Il s�agit de la dose de méthadone administrée et du fait que le

sujet ait ou non été en prison avant le traitement.

Le modèle le plus utilisé en analyse de survie quand on veut examiner la relation entre la variable

de durée et une ou plusieurs variables explicative est le modèle de Cox (Cox, 1972), parfois aussi

appelé modèle semiparamétrique ou modèle à risques proportionnels. La structure du modèle est la

suivante:

hi (t) = h0 (t) exp��Txi

�i = 1; :::; n (23.21)

où h0 (t) représente le risque de base (baseline hazard); xi = (xi1; ::::xik) est le vecteur qui contient les

valeurs de k variable explicatives pour l�i-ème individu et � =(�1; :::; �k) le vecteur des coe¢ cients

inconnus. Comme la fonction de risque hi (t) doit être une quantité positive, la fonction linéaire des

covariates �Txi doit être exponentiée. Soulignons par ailleurs que la fonction de risque de base h0 (t)

est laissée non-spéci�ée, et représente donc la partie non-paramétrique du modèle semiparamétrique

de Cox, alors que la partie paramétrique est représentée par le facteur exp��Txi

�. La fonction h0 (t)

peut être interprétée comme étant la fonction de risque d�un individu pour lequel toutes les covariates

prennent la valeur zéro: xi = 0.

Le modèle semiparamétrique de Cox est un modèle à risques proportionnels, dans le sens que, selon

le modèle, le rapport entre les risques de deux individus i et j est une quantité �xe, indépendante du

temps:hi (t)

hj (t)= exp

��Txi � �Txj

�= exp

��T (xi � xj)

�:

Le modèle de Cox peut s�exprimer - de façon équivalente à (23.21) - en termes de fonctions de survie,

19

Page 64: 4 Regression

sur la base des relations (23.5)-(23.7):

Si (t) = S0 (t)exp(�Txi) i = 1; :::; n (23.22)

où la fonction de survie "de base" S0 (t) prend la forme:

S0 (t) = exp

��Z t

0h0 (s) ds

�= exp (�H0 (t)) :

23.6.2 Méthode d�estimation de la vraisemblance partielle

Dans le cas du modèle de Cox, la fonction de vraisemblance complète peut être écrite de la façon

suivante:

L (�) =nYi=1

f (yi; di; xi) =

nYi=1

hi(yi)diSi (yi) : (23.23)

où les coe¢ cients � =(�1; :::; �k) sont les paramètres inconnus du modèle. En remplaçant (23.21) et

(23.22) en (23.23), on obtient:

L (�) =nYi=1

�h0 (yi) exp

��Txi

��diS0 (yi)

exp(�Txi) (23.24)

Le problème avec cette vraisemblance est qu�elle contient, non seulement les paramètres � mais aussi

les fonctions h0 (t) et S0 (t) auxquelles n�est pas assignée une forme paramétrique.

Dans son article de 1972, Cox a proposé une méthode alternative pour l�estimation du modèle, qui

est la méthode de la vraisemblance partielle (partial likelihood). On considère seulement les durées

non censurées: y1; ::::; ym (m � n). Chaque individu dont la durée yi est non censurée contribue

à la vraisemblance partielle avec sa probabilité de connaître l�événement en yi étant donné qu�un

événement se véri�e en yi. On peut montrer que cette probabilité est égale à

hi (yi)Pj2Ri hj (yi)

ou Ri est l�ensemble des individus que sont encore soumis au risque juste avant l�instan yi. La

20

Page 65: 4 Regression

vraisemblance partielle peut donc être écrite de la façon suivante:

PL (�) =mYi=1

hi (yi)Pj2Ri hj (yi)

=mYi=1

h0 (yi) exp��Txi

�Pj2Ri h0 (yi) exp

��Txj

�PL (�) =

mYi=1

exp��Txi

�Pj2R(yi) exp

��Txj

� : (23.25)

Les paramètres estimés � sont donc obtenus en maximisant (23.25).

Dans le cas de covariates catégorielles on peut obtenir des estimations de la fonction de survie

(23.22) pour chacune des di¤érentes combinaisons des valeurs des covariates �x, en remplaçant dans

(23.22) les valeurs estimées des paramètres �:

bS (tjx = �x) = S0 (t)exp��T �x� (23.26)

où S0 (t) est un estimateurs non paramétrique (estimateur de Nelson-Aalen) de la function de survie

de base (toutes les covariates égales à zéro).

L�expression (23.25) n�est plus valable lorsque plusieurs événements ont lieu au même instant (tied

data). Dans ce cas on a recours à des approximations de la vraisemblance partielle dues à Breslow

(1974) et Efron (1977).

L�output R du modèle de Cox avec la covariate clinic11 est représenté dans le Tableau 7. Le

coe¢ cient estimé est signi�cativement négatif (p < 0:0001). Cela signi�e que le risque de connaître

l�événement (rechute) à chaque instant t est signi�cativement plus petit pour les patients qui sont

soumis au traitement 2 (clinic1=1), par rapport à ceux qui sont soumis au traitement 1 (clinic1=0).

La valeur exp(coef) (0.341) représente le rapport entre le risque de connaître l�événement des patients

du deuxième groupe et le même risque pour les patients du premier groupe (risk ratio). Dans notre

cas le risque à chaque instant pour les patients du deuxième groupe est environ un tiers de celui des

patients du premier groupe. La quantité exp(�coef) représente l�inverse du risque ratio, c�est-à-direle rapport entre le risque de connaître l�événement pour les patients du premier groupe et le même

risque pour les patients du deuxième groupe (presque trois fois dans notre exemple).

1clinic1 = clinic - 1. Cette transformation de la variable clinic permet d�avoir une variable dichotomique 0 ou 1.

21

Page 66: 4 Regression

Dans la Fig. 8 sont représentées les fonctions de survie estimées avec le modèle de Cox pour les

deux groupes de patients. Elles sont calculées sur la base de (23.26):

bS (tjclinic1 = 0) = S0 (t)bS (tjclinic1 = 1) = S0 (t)exp(�)

A chaque instant t, donc, la probabilité de survivre au moins jusque t - selon le modèle de Cox - est

plus élevée pour les patients du deuxième groupe (� < 0). Ce résultat va dans le sens de celui obtenu

avec l�estimateur de Kaplan Meier (Figure 3).

L�e¤et des covariates prison et dose est montré dans le Tableau 8 et la Figure. 9. Le fait

d�avoir été en prison fait augmenter le risque de rechute (même si la signi�cativité est faible); une

augmentation de la dose de méthadone administrée fait diminuer le risque de rechute. Comme dans

tout modèle de régression multiple, ici l�e¤et de chaque covariate sur le risque de rechute est estimé au

net de l�e¤et des autres covariates du modèle. Dans ce cas par exemple la valeur estimée du coe¢ cient

de la variable clinic1 passe du �1:08 du modèle à une seule covariate (Tableau 7) au �1:01 du modèleà trois covariates (Tableau 8). Quand on introduit l�e¤et des variables prison et dose le risk ratio

associé à la variable clinic1 passe donc de 0:341 à 0:364.

L�interprétation du risk ratio est un peu mois évidente quand on considère une variable quanti-

tative comme dose. Dans ce cas une valeur plus utile s�obtient en soustrayant 1 du risk ratio. Cela

donne la variation relative dans le risque pour chaque variation d�une unité dans la covariate. Pour la

variable dose le risque relatif estimé est de 0:965, ce qui donne une variation de (0:965� 1) = �0:035(�3:5%) pour chaque augmentation d�une unité dans la dose de méthadone administrée.

Les test du rapport de vraisemblance (Likelihood ratio), de Wald et "Score (logrank)", que l�on

retrouve à la �n de l�output R du modèle de Cox, servent à tester l�hypothèse nulle globale f� = 0g.La p-value de ces trois statistiques, toutes basées sur la distribution du �2, est très petite dans notre

exemple. Cela nous mène à refuser l�hypothèse nulle et à admettre que au moins un des coe¢ cients

est di¤érent de zéro. Le test du rapport de vraisemblance, en particulier, représente la di¤érence entre

(moins deux fois) la log-vraisemblance partielle du modèle sans covariates et (moins deux fois) la log-

vraisemblance partielle du modèle avec les trois covariates. A valeurs plus élevées de cette statistique

correspondent donc des modèles caractérisés par une vraisemblance plus élevée (cf. modèle avec une

22

Page 67: 4 Regression

seule covariate, Tableau 7).

Call:

coxph(formula = Surv(survt, status) ~ clinic1)

  n= 238

coef exp(coef) se(coef)     z       p

clinic1 ­ 1.08     0.341    0.213 ­ 5.06 4.3e­ 07

        exp(coef) exp(­ coef) lower .95 upper .95

clinic1     0.341       2.93     0.225     0.518

Rsquare= 0.122   (max possible= 0.997 )

Likelihood ratio test= 31  on 1 df,   p=2.59e­ 08

Wald test            = 25.6  on 1 df,   p=4.26e­ 07

Score (logrank) test = 27.9  on 1 df,   p=1.27e­ 07

Tableau 7: Output du modèle de Cox avec la covariate �clinic�. Données addict. Cf. code R dans le

document joint "surv.r".

Figure 8: Estimation selon le modèle de Cox de la fonction de survie pour chacun des deux traitements

en méthadone (clinic). Données addict. Cf. code R dans le document joint "surv.r".

23

Page 68: 4 Regression

Call:

coxph(formula = Surv(survt, status) ~ clinic1 + prison + dose)

  n= 238

coef exp(coef) se(coef) z       p

clinic1 ­ 1.0099     0.364 0.21489 ­ 4.70 2.6e­ 06

prison 0.3266 1.386 0.16722 1.95 5.1e­ 02

dose ­ 0.0354 0.965 0.00638 ­ 5.54 2.9e­ 08

        exp(coef) exp(­ coef) lower .95 upper .95

clinic1     0.364      2.745     0.239     0.555

prison      1.386      0.721     0.999     1.924

dose        0.965      1.036     0.953     0.977

Rsquare= 0.238   (max possible= 0.997 )

Likelihood ratio test= 64.6  on 3 df,   p=6.23e­ 14

Wald test            = 54.1  on 3 df,   p=1.06e­ 11

Score (logrank) test = 56.3  on 3 df,   p=3.6e­ 12

Tableau 8: Output du modèle de Cox avec les covariates �clinic�, �prison�et �dose�. Données addict.

Cf. code R dans le document joint "surv.r".

Figure 9: Estimation selon le modèle de Cox de la fonction de survie pour chacune des quatre

combinaisons des valeurs des covariates dichotomiques (clinic et prison). La variable continue (dose)

est �xée à sa moyenne. Données addict. Cf. code R dans le document joint "surv.r".

24

Page 69: 4 Regression

23.6.3 Test de l�hypothèse de proportionnalité

Comme on l�a vu dans la Section 6.1, le modèle de Cox est un modèle à risques proportionnels, dans

le sens où, selon ce modèle, le rapport entre les risques de deux individus i et j est une quantité �xe,

indépendante du temps. Cette hypothèse est violée quand l�e¤et d�une des covariates du modèle sur

le risque de connaître l�événement n�est pas constant au �l du temps.

Une manière de véri�er l�hypothèse de proportionnalité des risques consiste à introduire explicite-

ment dans le modèle cette dépendance entre les e¤ets et le temps.

hi (t) = h0 (t) exp��Txi +

T txi�= h0 (t) exp

���T + T t

�xi�

i = 1; :::; n (23.27)

Si les coe¢ cients = ( 1:::: k) ne sont pas signi�cativement di¤érents de zéro, on a pas l�évidence

d�une violation de l�hypothèse de proportionnalité. Si par contre au moins un des j (j = 1; :::; k)

est signi�cativement di¤érent de zéro - l�e¤et de la covariate correspondante augmente ou diminue

linéairement avec le temps - l�hypothèse de proportionnalité est violée pour la ou les covariates en

question. On remarque que l�expression (23.27) non seulement fournit un test de proportionnalité,

mais représente aussi une façon d�incorporer la non-proportionnalité éventuelle dans le modèle.

Dans l�Annexe B est décrite une façon pour estimer en R le modèle (23.27). Deux méthodes

alternatives permettent de véri�er l�hypothèse de proportionnalité des risques. La première méthode

est basée sur le test de Grambsch et Therneau (1994) et la deuxième sur une comparaison graphique.

Le test de Grambsch et Therneau (Tableau 9) a pour objectif de véri�er l�hypothèse nulle de pro-

portionnalité des risques relativement à chacune des covariates du modèle. Une valeur du test ("rho"

dans le tableau) signi�cativement di¤érente de zéro signale un problème de violation de l�hypothèse

relativement à la variable correspondante. Dans le cas de notre exemple, l�hypothèse de proportion-

nalité doit être refusée pour la variable clinic1.

La méthode graphique est très intuitive. On se concentre sur une variable à la fois, par exemple la

variable clinic1 pour laquelle le test de Grambsch et Therneau signale une violation de l�hypothèse

de proportionnalité. Il s�agit de comparer l�allure des fonctions de survie estimées en appliquant

Kaplan Meyer à chacun des deux groupes de la variable en question (Fig 3) avec les fonctions de

survie estimées selon le modèle de Cox ayant cette variable comme seule covariate (Fig. 9). Comme

on peut le remarquer dans la Figure 10, les functions de survie obtenues avec Kaplan Meier vs Cox

25

Page 70: 4 Regression

sont très semblables pour clinic = 1 (clinic1 = 0). Les remarquables di¤érences d�allure, surtout

pour clinic = 2 (clinic1 = 1), sont à interpréter comme un signal de violation de l�hypothèse de

proportionnalité des risques.

rho chisq p

clinic1 ­ 0.2578 11.185 0.000824

prison ­ 0.0382 0.220 0.639369

dose 0.0724 0.700 0.402749

GLOBAL       NA 12.616 0.005546

Tableau 9: Test de Grambsch et Therneau pour véri�er l�hypothèse de proportionnalité. Données

addict. Cf. code R dans le document joint "surv.r".

Figure 10: Test de proportionnalité basé sur la comparaison entre les functions de survie estimées

avec Cox et Kaplan Meier. Données addict. Cf. code R dans le document joint "surv.r".

26

Page 71: 4 Regression

23.7 Modèles paramétriques. Modèles AFT (Accelerated Failure

Time)

23.7.1 Structure des modèles AFT

Supposons maintenant que l�e¤et des covariates joue, non pas sur la fonction de risque, comme dans

un modèle à risques proportionnels, mais directement sur la fonction de survie:

Si (t) = S0�t exp

��Txi

��(23.28)

où Si (t) = S (tjx = xi) est la fonction de survie d�un individu ayant les caractéristiques xi etS0 (t) = S (tjx = 0) celle d�un individu ayant toutes les caractéristique nulles. Si par exemple ona une seule covariate binaire, prenant les valeurs zéro et un, la relation (23.28) équivaut à assumer

que la probabilité pour un individu ayant la caractéristique égale à un de survivre jusqu�au temps t

est égale à probabilité de survivre jusqu�au temps t exp (�) pour un individu ayant la caractéristique

égale à zéro. Un � > 0 correspond donc à une sortie anticipée ou accélérée pour l�individu ayant la

covariate égale à un par rapport aux sujets pour lesquels x = 0 (t < t exp(�)). L�hypothèse (23.28)

dé�nit une classe de modèles paramétriques dits "Modèles à temps de sorties accélérées" (Accelerated

Failure Time - AFT). La relation (23.28) peut être réécrite de la façon suivante:

Pr (Ti > t) = Pr�T0 > t exp

��Txi

��= Pr

T0

exp��Txi

� > t!

où T0 représente la durée de séjour d�un individu ayant toutes ses caractéristiques nulles.

En termes de variables aléatoires ceci signi�e que:

Ti =T0

exp��Txi

� = T0 exp ���Txi� (23.29)

Dans les modèles AFT, les caractéristiques ont donc un e¤et multiplicatif directement sur la durée de

séjour. En reprenant l�exemple d�une seule variable explicative dichotomique, on observe que, quandb� > 0, la durée de séjour diminue (la sortie est accélérée) pour les sujets qui ont la caractéristique

27

Page 72: 4 Regression

égale à un. Le modèle est le plus souvent écrit en termes logarithmiques:

log (Ti) = log T0 � �Txi = log T0 + �Txi (�= ��) (23.30)

Si � et � représentent respectivement la moyenne et la déviation standard de la variable aléatoire

log T0, le modèle peut encore être écrit de la façon suivante:

log (Ti) = �+ �Txi+�"i E ("i) = 0 ; V ar ("i) = 1

Les modèles AFT correspondent donc à des modèles de régression dont la variable dépendante

est le logarithme des durées.

Di¤érentes hypothèses sur la distribution de l�erreur donnent lieu à di¤érentes formes de la dis-

tribution des durées T : Quelques exemples:

1) Modèle exponentiel

On peut facilement démontrer que, si:

(i) "i � g ("i) = exp ("i) exp (� exp ("i)) (distribution extreme value)

(ii) � = 1

alors les durées T suivent une loi exponentielle:

f (t) = � exp (��t)

avec:

� = exp����+ �Txi

��2) Modèle de Weibull

Si on garde seulement l�hypothèse (i), on obtient pour T une loi de Weibull:

f (t) = � t �1 exp (��t )

28

Page 73: 4 Regression

avec:

� = exp

���+ �

Txi�

� =

1

3) Modèle Log-normal

Avec des erreurs qui se distribuent selon une loi normale standard,

(i) "i � N (0; 1)

les durées T suivent une loi log-normale:

f (t) =1

�tp2�exp

�12

�log t� �

�2!

ou � = �+ �Txi.

L�estimation des modèles AFT se base sur la méthode de maximum de vraisemblance (voir Section

5.3).

23.7.2 Véri�cation des modèles AFT

La véri�cation empirique des modèles AFT suit la même logique que dans le cas des modèles

paramétriques sans covariates (Section 5.2). On se base cette fois-ci sur les résidus standardisés

(et exponentiés) du modèle

resi = exp

0@ log t��ba+ b�Txi�b�

1Aet on considère des transformations de S (resi) qui devraient, selon chacun des modèles considérés,

présenter une relation linéaire avec resi (ou log (resi)).

On peut démontrer que, dans le cas du modèle de Weibull (et donc modèle exponentiel, qui est

un cas particulier du modèle de Weibull):

� logS (resi) = resi (23.31)

29

Page 74: 4 Regression

alors que dans le cas log-normal:

��1 (1� S (resi)) = log (resi) : (23.32)

Les deux relations (23.31) et (23.32) sont en�n véri�ées en remplaçant S (resi) avec l�estimateur

de Kaplan Meier calculé sur les résidus bS (resi).Dans les Tableaux 10-12 sont représentés les outputs de modèles AFT à trois covariates, obtenus

sur nos données avec les di¤érentes distributions de la variable d�erreur. Les paramètres estimés sont

dans ces modèles les e¤ets des covariates sur le logarithme de la durée de survie. Il ne faut pas

s�étonner si les e¤ets sont souvent opposés à ceux que nous avons obtenus avec le modèle de Cox.

La variable dépendante est maintenant la durée, alors que dans le modèle de Cox il s�agissait du

risque. Le tableau 10 par exemple (distribution Exponentielle) indique que, lorsque la variable clinic1

est égale à 1, le logarithme de la durée de survie augmente signi�cativement, en comparaison avec

la référence (clinic1=0). Le logarithme de la durée de survie diminue pour les sujets qui ont été en

prison (mais l�e¤et est signi�catif à 5 % seulement dans le cas du modèle log-normal), et augmente

signi�cativement quand la dose de métadone augmente. En e¤et l�output d�un modèle AFT se lit

d�une façon très semblable à un output d�un modèle de régression. On peut observer que les output

des trois modèles AFT (Exponentiel, de Weibull et log-Normal) sont assez semblables. Néanmoins, la

véri�cation empirique des trois modèles (Fig. 11) nous mène à préférer le modèle de Weibull comme

celui qui représente le mieux la structure des données.

30

Page 75: 4 Regression

Call:

survreg(formula = Surv(survt, status == 1) ~ clinic1 + prison +

    dose, dist = "exponential")

              Value Std. Error     z        p

(Intercept)  4.5649    0.36789 12.41 2.36e­ 35

clinic1      0.8806    0.21063  4.18 2.91e­ 05

prison ­ 0.2526    0.16489 ­ 1.53 1.25e­ 01

dose         0.0289    0.00614  4.71 2.52e­ 06

Scale fixed at 1

Exponential distribution

Loglik(model)= ­ 1094   Loglik(intercept only)= ­ 1118.9

        Chisq= 49.91 on 3 degrees of freedom, p= 8.3e­ 11

Number of Newton­ Raphson Iterations: 5

n= 238

Tableau 10: Output d�un modèle AFT exponentiel à trois covariates. Données addict. Cf. code R

dans le document joint "surv.r".

Call:

survreg(formula = Surv(survt, status == 1) ~ clinic1 + prison +

    dose, dist = "weibull")

Value Std. Error z p

(Intercept)  4.8139    0.27499 17.51 1.29e­ 68

clinic1 0.7090    0.15722 4.51 6.49e­ 06

prison ­ 0.2295    0.12079 ­ 1.90 5.75e­ 02

dose  0.0244    0.00459 5.32 1.03e­ 07

Log(scale) ­ 0.3150    0.06756 ­ 4.66 3.13e­ 06

Scale= 0.73

Weibull distribution

Loglik(model)= ­ 1084.5   Loglik(intercept only)= ­ 1114.9

        Chisq= 60.89 on 3 degrees of freedom, p= 3.8e­ 13

Number of Newton­ Raphson Iterations: 7

n= 238

Tableau 11: Output d�un modèle AFT de Weibull à trois covariates. Données addict. Cf. code R

dans le document joint "surv.r".

31

Page 76: 4 Regression

Call:

survreg(formula = Surv(survt, status == 1) ~ clinic1 + prison +

    dose, dist = "lognorm")

Value Std. Error     z p

(Intercept) 3.9833    0.34663 11.49 1.46e­ 30

clinic1  0.5765    0.17648 3.27 1.09e­ 03

prison ­ 0.3090    0.15431 ­ 2.00 4.52e­ 02

dose 0.0337    0.00568 5.93 2.96e­ 09

Log(scale) 0.0748    0.05930 1.26 2.07e­ 01

Scale= 1.08

Log Normal distribution

Loglik(model)= ­ 1097.8   Loglik(intercept only)= ­ 1123.7

        Chisq= 51.85 on 3 degrees of freedom, p= 3.2e­ 11

Number of Newton­ Raphson Iterations: 4

n= 238

Tableau 12: Output d�un modèle AFT log-normal à trois covariates. Données addict. Cf. code R

dans le document joint "surv.r".

32

Page 77: 4 Regression

Figure 11: Véri�cation empirique des modèles AFT exponentiel, de Wibull et log-normal. Données

addict. Cf. code R pour chacune des trois distributions dans le document joint "surv.r".

33

Page 78: 4 Regression

Annexe A: construction de la fonction de vraisemblance avec

données censurées.

Soient:

T = Durée non observée

C = Censure non-observée

Y = min (T;C) = Durée observée

D = I (T < C) = Indicateur de censure

les données observées sont représentées par les couples: (yi; di), i = 1; :::; n,

réalisations des variables (Y;D).

La fonction de vraisemblance est donnée par:

L (�) = f (y1; :::yn; d1; :::dn) =nYi=1

f (yi; di)

où � représente l�ensemble des paramètres inconnus. La densité f (yi; di) peut être obtenue de la

façon suivante:

f (yi; di) = (F01(yi))

di(F 00(yi))1�di

où F1(y) = P (Y < y;D = 1) ; F0(y) = P (Y < y;D = 0) et F 0k (yi) = dFk (y) =dy]y=yi , k = 0; 1:

F1(y) = P (Y < y;D = 1) = P (T < y; T < C) =

=

Zt<y

f (t)

�Zc>tg (c) dc

�dt =

Zt<y

f (t) [1�G (t)] dt

F0(y) = P (Y < y;D = 1) = P (C < y;C < T ) =

=

Zc<y

g (c)

�Zt>cf (t) dt

�dc =

Zc<y

g (c) [1� F (c)] dc

où g (�) et G (�) sont respectivement la fonction de densité et la fonction cumulative de la variable

34

Page 79: 4 Regression

aléatoire C.

Et donc:

F 01(yi) = f (yi) (1�G (yi))

F 00(yi) = g (yi) (1� F (yi))

D�où:

f (yi; di) = (f (yi) (1�G (yi)))�i (g (yi) (1� F (yi)))1�di :

Quand la censure est non-informative la fonction de vraisemblance devient:

L (�) =

nYi=1

f (yi; di) =

nYi=1

(f (yi) (1�G (yi)))di (g (yi) (1� F (yi)))1�di

=

nYi=1

f (yi)di (1� F (yi))1�di =

nYi=1

f (yi)di S (yi)

1�di :

Pour la relation: f (�) = h (�)S (�), où h (�) représente la fonction de risque associée à la variablealéatoire T , la vraisemblance peut aussi être écrite:

L (�) =nYi=1

h (yi)di S (yi) :

35

Page 80: 4 Regression

Annexe B: test de l�hypothèse de proportionnalité dans le modèle de Cox, via l�introduction

de variables dépendantes du temps dans le modèle

hi (t) = h0 (t) exp��Txi +

T txi�

i = 1; :::; n

On construit un �cher personne-période dans lequel les épisodes sont �splittés�en sous-épisodes qui

durent chacun une unité de temps (le jour dans notre cas). Par exemple un sujet qui reste dans

l�étude 5 jours avant de connaître l�événement est représenté par 5 sujets �ctifs, dont le premier entre

au temps zéro et est censuré au jour 1, le deuxième entre au jour 2 et est censure au jour 3, . . . , le

cinquième entre au jour 4 et connaît l�événement au jour 5. Seul le dernier sujet �ctif connaît donc

l�événement, si le sujet de départ a connu l�événement, sinon il est lui aussi censuré.

# On crée une variable start qui donne les jours d�entrée dans l�étude de tous les sous-individus

et une variable stop donne les jours de sortie de l�étude de tous les sous-individus

n <- length(survt)

stop <- 1:survt[1]

for (i in 2:n) {

stop <- c(stop,1:survt[i])}

start <- stop-1

# On construit la variable de censure cens2 pour le nouveau �cher

cens2 <- rep(0,sum(survt))

cumsurv <- cumsum(survt)

for (i in 1:n) {

if (status[i] == 1) cens2[cumsurv[i]] <- 1 }

# On construit les covariates clinic2, prison2 et dose2 pour le nouveau �cher

clinic2 <- rep(clinic1,survt)

prison2 <- rep(prison,survt)

dose2 <- rep(dose,survt)

36

Page 81: 4 Regression

# On estime le modèle de Cox aux nouvelles données. D�abord sans introduire les variables

dépendantes du temps. Le résultat est le même que celui obtenu avec le �cher de départ

cox21 <- coxph(Surv(start,stop,cens2)�clinic2+prison2+dose2)summary(cox21)

Call:

coxph(formula = Surv(start, stop, cens2) ~ clinic2 + prison2 +

    dose2)

  n= 95812

coef exp(coef) se(coef)     z p

clinic2 ­ 1.0099     0.364 0.21489 ­ 4.70 2.6e­ 06

prison2  0.3266     1.386 0.16722 1.95 5.1e­ 02

dose2 ­ 0.0354     0.965 0.00638 ­ 5.54 2.9e­ 08

        exp(coef) exp(­ coef) lower .95 upper .95

clinic2     0.364      2.745     0.239     0.555

prison2     1.386      0.721     0.999     1.924

dose2   0.965      1.036     0.953     0.977

Rsquare= 0.001   (max possible= 0.015 )

Likelihood ratio test= 64.6  on 3 df,   p=6.23e­ 14

Wald test            = 54.1  on 3 df,   p=1.06e­ 11

Score (logrank) test = 56.3  on 3 df,   p=3.6e­ 12

# On estime ensuite le modèle de Cox en introduisant les variables dépendantes du temps.

clinic2.time <- clinic2*start

prison2.time <- prison2*start

dose2.time <- dose2*start

cox22 <- coxph(Surv(start,stop,cens2)�clinic2+prison2+dose2+clinic2.time + prison2.time + dose2.time)

summary(cox22)

37

Page 82: 4 Regression

Call:

coxph(formula = Surv(start, stop, cens2) ~ clinic2 + prison2 +

    dose2 + clinic2.time + prison2.time + dose2.time)

  n= 95812

coef exp(coef) se(coef) z p

clinic2 2.38e­ 02     1.024 3.48e­ 01 0.0685 9.5e­ 01

prison2 4.40e­ 01 1.553 2.97e­ 01 1.4853 1.4e­ 01

dose2 ­ 4.40e­ 02     0.957 1.13e­ 02 ­ 3.9059 9.4e­ 05

clinic2.time ­ 3.05e­ 03     0.997 9.62e­ 04 ­ 3.1689 1.5e­ 03

prison2.time ­ 1.44e­ 04     1.000 7.50e­ 04 ­ 0.1925 8.5e­ 01

dose2.time 2.70e­ 05 1.000 2.82e­ 05 0.9596 3.4e­ 01

             exp(coef) exp(­ coef) lower .95 upper .95

clinic2          1.024      0.976     0.518     2.026

prison2          1.553      0.644     0.869     2.778

dose2            0.957      1.045    0.936     0.978

clinic2.time     0.997      1.003     0.995     0.999

prison2.time     1.000      1.000     0.998     1.001

dose2.time       1.000      1.000     1.000     1.000

Rsquare= 0.001   (max possible= 0.015 )

Likelihood ratio test= 77  on 6 df,   p=1.44e­ 14

Wald test            = 59.2  on 6 df,   p=6.42e­ 11

Score (logrank) test = 68.3  on 6 df,   p=9.3e­ 13

# e¤et dans le temps de la variable clinic

time <- 1:max(survt)

plot(time,cox22$coef[1]+cox22$coef[4]*time,

xlab="time",ylab="coeff(clinic)")

38

Page 83: 4 Regression

Figure 12: e¤et du traitement (clinic) dans le temps.

39

Page 84: 4 Regression

Bibliography

[1] Breslow, N E (1974) Covariance Analysis of Censored Surviavl Data. Biometrics, 30, 89-99.

[2] Courgeau D, Lelièvre E (1989) Analyse démographique des biographies, INED, Paris.

[3] Cox, D.R. (1972) Regression models and life tables (with discussion). Journal of the Royal Sta-

tistical Society, Series B 34, 187 - 220.

[4] Efron B. (1977) The E¢ ciency of Cox�s Likelihood Function for Censored Data. Journal of the

American Statistical Association, 76: 312-319.

[5] Grambsch P and Therneau T M (1994) Proportional hazards tests and diagnostics based on

weighted residuals Biometrika 81: 515-26

[6] Kaplan E.L. and Meier P. (1958). Nonparametric estimation for incomplete observations. Journal

of the American Statistical Association, 53: 457:581.

[7] Lawless, J.F. (2003). Statistical Models and Methods for Lifetime Data, 3nd edition. John Wiley

and Sons, New York.

40