Regression

103

description

Cours de deuxième année de masterBernard Delyon

Transcript of Regression

  • Rgression

    Cours de deuxime anne de master

    Bernard Delyon

    21 mai 2015

    1. IRMAR, Universit Rennes I, Campus de Beaulieu, 35042 Rennes cdex.

  • 2

  • Table des matires

    I Introduction 7

    I.1 But de la rgression. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    I.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

    I.2.1 Rgression linaire multiple : Production, travail et capital . . . . . . . . . . . . . 8

    I.2.2 Vers des modles non-linaires. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

    I.2.3 Modle logistique : Credit scoring . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    I.2.4 Donnes longitudinales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    I.3 Mthode gnrale et objectifs de la rgression. . . . . . . . . . . . . . . . . . . . . . . . . . 10

    I.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    II Rgression linaire multiple 11

    II.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    II.1.1 Les donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    II.1.2 L'hypothse de rang plein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    II.1.3 Le rgresseur constant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    II.2 Moindres carrs ordinaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    II.2.1 Modle statistique et interprtation . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    II.2.2 Estimation de et 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12II.2.3 Proprits gomtriques lmentaires . . . . . . . . . . . . . . . . . . . . . . . . . . 13

    II.2.4 Le coecient de corrlation multiple R . . . . . . . . . . . . . . . . . . . . . . . . . 14

    II.2.5 Eet de la suppression d'un individu. Eet levier . . . . . . . . . . . . . . . . . . . 15

    II.2.6 Eet de l'ajout d'un rgresseur et coecient de corrlation partielle . . . . . . . . 16

    II.2.7 Aspects pratiques. Reprsentation graphiques exploratoires . . . . . . . . . . . . . 17

    II.2.8 Traitement des variables symboliques . . . . . . . . . . . . . . . . . . . . . . . . . . 19

    II.2.9 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    II.3 Modles htroscdastiques (Moindres carrs gnraliss) . . . . . . . . . . . . . . . . . . . 23

    II.3.1 Modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

    II.3.2 Rduction au cas = I. Estimation de et 2 . . . . . . . . . . . . . . . . . . . 24II.3.3 Dtection de l'htroscdasticit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

    II.3.4 Estimation de . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25II.3.5 Modles mixtes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

    II.3.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

    II.4 Moindres carrs totaux (Errors in variables, total least squares) . . . . . . . . . . . . . . . 31

    II.5 Rgression non-paramtrique et moindres carrs . . . . . . . . . . . . . . . . . . . . . . . . 31

    II.5.1 Premire approche : la rgression polynmiale . . . . . . . . . . . . . . . . . . . . . 31

    II.5.2 Approche par estimation des coecients de Fourier . . . . . . . . . . . . . . . . . . 33

    II.5.3 Aspects pratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

    II.6 Rgression sur des classes. Segmentation des donnes . . . . . . . . . . . . . . . . . . . . . 34

    II.7 Mlange de rgressions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

    II.8 Surparamtrisation, rduction de modle et slection de variables . . . . . . . . . . . . . . 35

    3

  • II.8.1 Fabrication de nouveau rgresseurs par ACP ou PLS . . . . . . . . . . . . . . . . 37

    II.8.2 Ridge regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

    II.8.3 Mthodes rcentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

    II.8.4 Rgression rang rduit. Curds and whey . . . . . . . . . . . . . . . . . . . . . . . 40

    II.9 Rgression robuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

    IIIRgression linaire gaussienne, diagnostic et tests 43

    III.1 Proprits statistiques fondamentales des estimateurs . . . . . . . . . . . . . . . . . . . . . 43

    III.1.1 Modle statistique et estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

    III.1.2 Proprits de base des variables gaussiennes . . . . . . . . . . . . . . . . . . . . . . 43

    III.1.3 Loi de probabilit des estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

    III.1.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

    III.2 Analyse de l'estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

    III.2.1 Dtermination d'intervalles de conance . . . . . . . . . . . . . . . . . . . . . . . . 45

    III.2.2 Rappels sur les tests dans le cadre paramtrique gnral . . . . . . . . . . . . . . . 46

    III.2.3 Test de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

    III.2.4 Slection des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

    III.2.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

    III.3 Analyse des rsidus. Mesures d'inuence . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

    III.4 Analyse de la variance. Aspects pratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

    III.4.1 Analyse de la variance un facteur . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

    III.4.2 Analyse de la variance deux facteurs . . . . . . . . . . . . . . . . . . . . . . . . . 57

    III.4.3 Interprtation des tables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

    III.4.4 Un exemple trois facteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

    III.4.5 Analyse de covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

    III.4.6 Facteurs embots (hirarchiss, nested) en analyse de variance . . . . . . . . . . . 65

    III.4.7 Modles mixtes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

    III.4.8 Rduction des interactions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

    III.4.9 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

    III.5 Un exemple de conclusion d'tude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

    IVRgression linaire gnralise 71

    IV.1 Modle linaire gnralis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

    IV.1.1 Pourquoi les modles linaires gnraliss ? . . . . . . . . . . . . . . . . . . . . . . 71

    IV.1.2 Les familles exponentielles scalaires . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

    IV.1.3 Les familles exponentielles un paramtre de nuisance . . . . . . . . . . . . . . . . 72

    IV.1.4 Les exemples classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

    IV.1.5 Dnition des modles linaires gnraliss . . . . . . . . . . . . . . . . . . . . . . 73

    IV.1.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

    IV.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

    IV.2.1 Variable de Bernoulli : le modle logistique . . . . . . . . . . . . . . . . . . . . . . 76

    IV.2.2 Modle poissonnien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

    IV.2.3 Modle variable polytomique ordonne ; la variable latente . . . . . . . . . . . . . 79

    IV.2.4 Modle variable polytomique non-ordonne (multinomial logit). . . . . . . . . . . 80

    IV.2.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

    IV.3 Estimation de et . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81IV.3.1 L'estimateur du maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . 81

    IV.3.2 Proprits asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

    IV.3.3 Estimation de et . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82IV.4 Tests et analyse de dviance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

    IV.4.1 Dviance. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

    4

  • IV.4.2 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

    IV.4.3 Analyse de dviance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

    IV.5 Analyse des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

    V Rgression non-linaire avec bruit additif 87

    V.1 Modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

    V.2 Estimation des paramtres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

    V.3 Utilisation du bootstrap et du Monte-Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . 89

    V.4 Proprits asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

    V.5 Rgions de conance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

    V.5.1 Rgions thoriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

    V.5.2 Ajustement du niveau par simulation ou bootstrap . . . . . . . . . . . . . . . . . . 90

    V.5.3 Intervalles de conance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

    V.6 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

    V.7 Analyse des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

    A Slection de modles 93

    B Rgression PLS 95

    C Asymptotique du maximum de vraisemblance 97

    C.1 Thormes-limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

    C.2 Rgions de conance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

    C.3 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

    C.3.1 Test du rapport de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

    C.3.2 Test des scores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

    C.3.3 Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

    C.3.4 Aspects pratiques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

    5

  • 6

  • IIntroduction

    I.1 But de la rgression.

    Commenons par un exemple illustratif simple. Le botaniste Joseph Dalton Hooker a mesur lors d'une

    expdition en 1849 la pression atmosphrique pi et la temprature d'bullition de l'eau yi en diversendroits de l'Himalaya

    1

    . Selon les lois de la physique, yi devrait tre (en premire approximation)proportionnel au logarithme de pi. On pose donc le modle

    yi = 1 + 2xi + ui, xi = log(pi). (I.1)

    ui reprsente l'erreur de mesure, et explique que les points de la gure I.1 ne sont pas exactementaligns. Cette gure montre galement la droite estime par moindres carrs. On voit une trs bonne

    adquation. L'quation ci-dessus donne un modle, qui si ui est suppos gaussien centr devient lemodle paramtrique yi N(1 +2xi, 2), dont on verra l'intrt plus tard. Le paramtre 2 reprsentela variance de l'cart des points la droite (mesur verticalement) et l'estimation de donne ici 0,04.

    2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.482

    84

    86

    88

    90

    92

    94

    96

    98

    100

    Figure I.1 Temprature d'bulition de l'eau mesure en divers endroits de l'Himalaya en fonction

    du logarithme de la pression.

    Cet exemple illustre comment le modle de rgression tente d'expliquer au mieux une grandeur y (larponse) en fonction d'autres grandeurs x (vecteur des variables explicatives, ou rgresseurs, ou

    1. En 1857 le physicien James David Forbes a fait la mme exprience dans les Alpes, le but tant de pouvoir retrouver

    la pression atmosphrique partir de la seule mesure de la temprature d'bulition de l'eau (les baromtres tant fragiles

    et donc diciles transporter lors d'une expdition), ce qui permet ensuite d'en dduire l'altitude au travers d'une relation

    connue ; il rapporte dans un article ce double ensemble de donnes dont nous n'utilisons ici que la partie Himalayenne (elles

    sont dcrites dans : S.Weisberg, Applied Linear Regression, Wiley, 1985.)

    7

  • facteurs, un seul dans l'exemple) en dmlant ce qui est dterministe de ce qui est alatoire et

    en quantiant ces deux aspects (par les i d'une part et 2d'autre part).

    I.2 Exemples

    I.2.1 Rgression linaire multiple : Production, travail et capital

    On considre les variables, chacune concernant la totalit des tats-Unis (i tant l'indice d'une anne) : Pi : production Ki : capital (valeur des usines, etc.) Ti : travail fourni (bas sur un calcul du nombre total de travailleurs)On cherche expliquer Pi l'aide des variables (Ki, Ti). Le modle de Cobb et Douglas2

    est

    P = 1K2T3

    ce qui suggre le modle statistique

    log(Pi) = log(1) + 2 log(Ki) + 3 log(Ti) + ui, E[ui] = 0, E[u2i ] =

    2.

    Les rgresseurs sont donc ici xi = (1, log(Ki), log(Ti)), la rponse est yi = log(Pi) et les paramtresdu modle = (log(1), 2, 3). Le logarithme et les changements de variables ont permis de rendre lemodle linaire (par rapport ), ce qui, on le verra, est trs avantageux pour l'analyse :

    yi = 1 + 2 log(Ki) + 3 log(Ti) + ui.

    Cobb et Douglas disposaient du tableau suivant

    3

    sur n = 24 annes et trouvent 2 = 1/4 et 3 = 3/4 :

    Anne P K T Anne P K T Anne P K T

    1899 100 100 100 1907 151 176 138 1915 189 266 154

    1900 101 107 105 1908 126 185 121 1916 225 298 182

    1901 112 114 110 1909 155 198 140 1917 227 335 196

    1902 122 122 118 1910 159 208 144 1918 223 366 200

    1903 124 131 123 1911 153 216 145 1919 218 387 193

    1904 122 138 116 1912 177 226 152 1920 231 407 193

    1905 143 149 125 1913 184 236 154 1921 179 417 147

    1906 152 163 133 1914 169 244 149 1922 240 431 161

    I.2.2 Vers des modles non-linaires.

    On observe des paires (xi, yi)1in o xi o yi est la concentration de produit actif dans un mdicamentau temps xi aprs fabrication. Le modle linaire yi = 1 + 2xi + ui est certainement inadquat

    Plusieurs modlisations peuvent tre envisages :

    (a) Rgression non-linaire paramtrique : On part d'un modle spcique considr comme raliste

    yi = 1e2xi + ui.

    C'est l'analogue du prcdent dans une situation non-linaire.

    (b) Rgression polynmiale : On part cette fois-ci d'un modle paramtrique abstrait

    yi =

    Jj=0

    jxji + ui.

    2. A theory of production, American Economic Review, 18, 139-165, 1928.

    3. En ralit, la construction de ce tableau partir des direntes donnes dont ils pouvaient disposer est en soi un

    travail norme. Voir l'article.

    8

  • o J est suppos connu. La linarit en de cette quation fait, on le verra, qu'on estime facilementles j par moindres carrs ; noter que ceci revient exactement trouver le polynme de degr J quipasse au plus prs des points (xi, yi). On peut remplacer l'hypothse ui N(0, 2) par l'hypothseplus faible E[ui] = 0 mais on entre alors dans un cadre semi-paramtrique.

    (c) Rgression non-paramtrique :

    yi = f(xi) + ui, ui = N(0, 2).

    Il s'agit d'estimer la fonction f et 2.

    Un autre exemple. La gure suivante

    4

    reprsente la consommation d'lectricit moyenne en France,

    2h du matin, en fonction de la temprature extrieure (moyenne sur les 24h prcdentes). Les donnes

    sont sur 3 ans (1095 points). On pourrait tre tent de considrer ici un modle linaire par morceaux.

    0 5 10 15 20 25

    3 54 0

    4 55 0

    5 56 0

    6 5

    o

    o

    oo

    oo o o

    o

    oo

    oooo

    o

    oo

    o o ooo

    oo

    oo oo

    o

    oo

    o

    oo o

    o

    oo

    ooo o

    o

    oo

    oo

    o

    o

    o

    oo

    oo o o

    o

    oo o

    o

    o

    o

    o

    o o

    oo

    o

    o

    ooo

    o

    ooo

    ooo

    o

    oo

    oo

    o o

    oo

    oo

    oo

    o

    oo

    oo o

    o

    o

    o

    o

    oo

    o

    o

    o

    o o

    o

    o

    o

    o

    o

    o

    o

    oo

    o

    o

    o

    o

    o

    ooo

    o

    o

    o

    oo

    o

    o

    oo

    o

    o

    ooo

    oo

    o

    oo

    o

    o

    o

    o

    o oo

    o

    o

    o

    o

    oo

    ooo

    o

    o

    oo

    o o

    o

    o

    o

    oo

    o

    oo

    o

    o

    o

    o

    oo

    oo o

    o

    o

    o

    oo

    oo

    oo

    o

    o

    ooo

    o

    o

    oo

    o

    o

    o

    o

    oo

    o

    o

    o

    o

    o

    o

    o o

    o

    oo

    o

    oo

    o

    o

    o

    o

    o

    oo

    o

    o

    ooo

    oo

    oo

    o

    oo

    oo

    o

    o

    o

    oo

    ooo

    o

    oo

    ooooo

    oo

    oo

    oo

    o

    oo

    oo

    o

    o

    o

    oo

    o oo oo

    o

    o

    o

    oo

    oo

    o o

    ooooo

    oo

    ooo o o

    oo

    oo

    oo

    o

    o o

    oo oo

    oo o

    o o oo

    o

    o

    o

    o o oo

    o

    oo

    oooo

    o

    oo

    oooo o

    oo

    oo

    oo o

    oo

    o

    oo

    o

    o

    oo

    ooo o

    o

    oo

    o oo o

    o

    o o

    oo

    o o

    o

    oo

    ooo

    o

    o

    oo

    o oooo

    o o

    o oo

    oo

    oo

    oooo

    o

    oo

    o o oo

    o

    o o

    oo o

    oo

    o

    o

    o

    o

    o

    oo

    oo

    oo

    oo

    o

    o

    o

    o

    oo

    oo

    oo

    oo

    oo

    o

    oo

    o

    oo o

    oo

    o

    o

    oo

    ooo

    o

    o oo

    oo

    o o

    oo

    oo

    o

    o

    o

    o

    o

    o

    oo

    o

    o

    o

    o

    oo

    oo

    o

    oo

    oo

    o

    o

    o

    o oo

    o

    o

    o

    o

    o

    ooo

    o

    oo

    ooo

    o

    o

    o

    o

    o oo

    o

    o

    o

    o

    o

    ooo

    o

    o

    o

    oo

    o

    oo

    o

    o

    o ooo

    o

    o

    o

    o

    o

    oo

    o

    o

    o

    oo

    o

    o

    o

    oo

    oo

    oo

    o

    o

    o

    oo

    oo

    o

    o

    o

    o

    o

    oo

    oo o

    oo

    oo

    o

    o

    o

    o

    o

    o

    oo

    o

    o

    o

    o

    o

    o

    o

    ooo

    o

    oo

    o

    o

    o o

    o

    oo

    o

    oo

    o oooo

    oo

    o oo

    o

    o

    oo

    ooo

    oo

    o

    oo

    oo

    o

    o

    oo

    o oo o

    o

    oo

    o ooo

    o

    oo

    ooo o o

    o o

    ooo o

    o

    oo

    oooo

    o

    oo

    oooo

    o

    oo

    oo oo

    o

    oo

    oooo

    o

    oo

    ooooo

    oo

    o o

    o

    o o

    oo

    o

    oo

    o o

    oo

    oo

    oo

    o

    oo

    oo o oo

    oo

    o ooo

    o

    oo

    oo

    oo

    o

    oo

    oo o

    o

    o

    oo

    ooooo

    oo

    oo

    oo

    o

    oo

    oo o

    o

    o

    oo

    oooo

    o

    oo

    o oo

    o

    oo o

    oo

    o

    o

    oo

    o

    o

    o

    o

    o

    o

    o

    o

    ooo

    o

    o

    o

    o

    oo

    o

    o

    o

    oo

    o oo

    o

    oo

    o

    o oo

    o

    o

    oo

    oo o

    o

    o

    oo o

    o

    o

    o

    oo

    o

    o

    o

    o o

    o

    oo

    oo oo

    o

    o

    o

    oo

    oo

    o

    o

    o

    oo

    oo

    o

    o

    o

    oo oo

    o

    oo

    oo

    o o

    o

    oo

    oo

    o

    o

    o

    oo

    o

    oo

    o

    o

    o

    o

    oo

    o

    ooo

    o

    oo o

    o

    oo

    o

    oo

    o

    o

    o

    o o

    o

    ooo

    oo

    o

    o oo

    o

    o

    o

    oo

    ooo

    ooo

    oo

    oo

    oo o

    oo

    oo

    o

    o

    o

    oo o

    oo

    o o

    o

    o

    o

    oo

    o o

    o

    o

    ooo

    o o

    o oo

    o

    o

    oo

    o

    ooo

    o

    oo

    o o oo

    o

    oo

    ooo o

    o

    oo

    o o o oo

    o o

    oooo

    o

    o

    o

    oo oo

    o

    o o

    oooo

    o

    o o

    ooo o

    o

    oo

    o ooo

    o

    oo

    ooo o

    o

    oo

    oo

    o o

    o

    oo

    oo oo

    o

    oo

    oo o

    o

    oo

    o

    oo ooo

    oo

    oo o

    oo

    oo

    I.2.3 Modle logistique : Credit scoring

    Il s'agit pour une banque de mesurer le risque qu'elle prend attribuer un crdit un client.

    La banque dispose de donnes sur ses anciens clients. Chaque client ayant demand un crdit dans le

    pass est un individu et la rponse y {0, 1} est une variable indiquant s'il y a eu un problme deremboursement. Le rgresseur x est vecteur ligne contenant : des variables quantitatives : revenu, ge, dpts, etc. des variables qualitatives : sexe, etc.Le modle logistique : y est une variable de Bernoulli B(1, px) (c--d y = 1 avec probabilit px) et px estde la forme

    px =1

    1 + ex

    o est un vecteur colonne de paramtres caractrisant l'inuence de chaque rgresseur sur la rponse(de sorte que x est un produit scalaire). px reprsente le risque pris par la banque autoriser un crditau client ayant les rgresseurs x.

    I.2.4 Donnes longitudinales

    On observe des variables

    yi(tj) = F (tj) + uij .

    4. Courtoisie de Vincent Leeux, RTE.

    9

  • Par exemple yi(tj) est la taille de l'enfant i au mois tj . On se donne en gnral un modle paramtriqueparticulier pour F , par exemple

    F (t) = a+ b exp ( exp (c dt)) .Souvent un paramtre, disons b, dpendra des individus. Une mthode simple pour prendre cette d-pendance en compte sera de rassembler les caractristiques d'intrt de l'individu i (vgtarien/non-vgtarien, taille des parents, etc.) dans un vecteur (ligne) xi et prsupposer une relation linaire, ce quidonne nalement le modle

    yi(tj) = a+ (xi) exp ( exp (c dtj)) + uij(xi est un produit scalaire) dont les paramtres sont (a, c, d, ).

    I.3 Mthode gnrale et objectifs de la rgression.

    On peut voir la rgression comme le cadre le plus simple pour la modlisation paramtrique des suites

    de variables alatoires indpendantes non-stationnaires

    5

    . En pratique, les applications essentielles sont

    les suivantes (on illustre ici par l'exemple rudimentaire o y est le taux de frquentation du mdecin etx contient l'ge et le sexe de l'individu) :

    I Dtermination des facteurs signicatifs : l'ge a-t-il une inuence signicative sur le taux defrquentation du mdecin ? (c.--d. : le coecient i de l'ge est-il nul ?)

    I Prdiction/simulation (des rponses connaissant les rgresseurs et ) : combien de mdecinsfaut-il pour une ville de pyramide des ges donne ?

    I Dtection de changement (du paramtre ) : le ticket modrateur a-t-il provoqu un chan-gement signicatif dans le comportement des patients ? Ce changement est-il le mme chez les

    hommes et chez les femmes ?

    La mthode passe, comme on vient de le voir, par la mise en place d'un modle plus ou moins raliste sur

    lequel il est bon d'avoir du recul : on peut le considrer comme un (ple) reet de la ralit mais il est

    gnralement plus prudent d'y voir simplement un instrument de mesure qui permettra de quantier

    certains phnomnes tout en restant matre de ce que l'on calcule.

    I.4 Exercices

    Exercice 1. On dispose de deux qualits de papier. Le papier de type 1 a un poids 1 et le papier detype 2 a un poids 2 (grammes par feuille). On reoit n paquets. Le i-ime paquet contient pi feuillesdu type 1 et qi feuilles du type 2. On pse successivement les paquets sur une balance ; le poids mesurdu i-ime paquet est mi. On admet que les erreurs de la balance sont N(0,

    2). crire le modle linairecorrespondant ces donnes.

    Exercice 2. (Modle gravitaire) On suppose que le nombre de personnes de la ville i allant travailler la ville j suit en gros le modle idal suivant

    Nij = kdij PiAj

    o Pi est a population de la ville i, Ai sa capacit d'accueil et dij la distance entre les villes. k et sontdes paramtres inconnus. Proposer un modle de rgression linaire pour des donnes bases sur I villes{dij , Nij , Pi, Ai, 1 i, j I}.Exercice 3. Un individu pris au hasard a un temps de raction un certain stimulus qui suit la loi

    N(, 2), et 2 sont connus. Aprs absorption d'une quantit x d'alcool, ce temps se trouve multiplipar 1 + x. On s'intresse l'estimation de partir de donnes (xi, ti), o ti est le temps de raction.Expliciter la loi de ti. Peut-on poser ce problme comme un problme de rgression linaire simple ?Qu'en est-il si maintenant est connu et est le paramtre ? Proposer alors un estimateur de .

    5. Certains modles de rgression, comme les modles mixtes, prennent toutefois en compte des phnomnes de dpen-

    dance.

    10

  • II

    Rgression linaire multiple

    II.1 Introduction

    II.1.1 Les donnes

    Les donnes consistent en des variables observes yi (rponses) et des variables explicatives (ou rgres-seurs) xi, i = 1, . . . n, chaque paire (yi, xi) reprsentant une exprience (un individu). On les arrangedans un tableau de la faon suivante :

    y =

    y1...

    yn

    , X = x1...

    xn

    = 1 x12 . . . x1p...

    .

    .

    .

    .

    .

    .

    1 xn2 . . . xnp

    .xi est donc un vecteur ligne contenant les p variables explicatives. On convient gnralement de mettrele rgresseur constant, s'il est prsent, dans la premire colonne.

    On prsuppose l'existence d'une relation du type yi ' xi, = xi pour un certain vecteur (colonne), soit y ' X, ce qui conduit au modle de rgression linaire

    y = X + u

    o u = (u1, . . . un) est un vecteur de bruit (variables alatoires) modlisant l'inadquation des mesuresau modle.

    Le but de la rgression linaire est l'estimation de et la validation du modle. La valeur de l'estimeobtenue sera note . Ceci se fera en minimisant en une certaine norme du vecteur y X.

    II.1.2 L'hypothse de rang plein

    Il est clair que si X n'est pas de rang colonnes plein c'est--dire s'il existe v tel que Xv = 0 (unecombinaison linaire des colonnes est nulle) alors pour tout

    X = X( + v).

    Ceci implique que pour tout estimateur , l'estimateur + v explique aussi bien les donnes. Par cons-quent on ne pourra pas estimer moins de faire des hypothses supplmentaires. Une autre faon dele voir est de remarquer que comme Xv = 0 une de colonne de X (et sans doute chacune) est fonctionlinaire des autres, et par consquent une des variables tant fonction linaire des autres est inutile.

    Pour cette raison X sera gnralement suppose rang colonnes plein (ce qui signie aussi que XTX estinversible, puisque Xv = 0 est sans solution).

    11

  • II.1.3 Le rgresseur constant

    Il est trs gnralement prsent mais pas toujours. Toutefois, l'essentiel des rsultats noncs dans la

    suite (tests de Fisher) reste valide sans cette hypothse.

    II.2 Moindres carrs ordinaires

    II.2.1 Modle statistique et interprtation

    Modle. On suppose l'existence d'un vecteur , de > 0 et de variables alatoires ui tels que

    y = X + u,E[u] = 0,

    E[uuT ] = 2I.

    En d'autres termes, pour chaque i :

    yi = xi + ui

    E[ui] = 0

    V ar(ui) = 2 (homoscedasticit)

    E[uiuj ] = 0, j 6= i (dcorrlation des bruits).Noter que ce modle n'est pas compltement spci puisque les lois des ui ne sont pas prcises. On estpour l'instant dans une situation semi-paramtrique.

    II.2.2 Estimation de et 2

    1 - Dfinition

    Soit SS() (Sum of Squares) la somme des carrs des erreurs de prdiction

    SS() = y X2 =i

    (yi xi)2.

    L'estimateur de aux moindres carrs ordinaires (Ordinary Least Squares, OLS) est

    = arg minSS().

    C'est l'estimateur de au maximum de vraisemblance sous l'hypothse de normalit de u.

    Ceci correspond, dans la gure I.1, minimiser la somme des carrs des distances des points la droite

    mesures verticalement ; il pourrait sembler plus logique de minimiser la somme des carrs des vraies

    distances, mais cet autre estimateur (X, y) est plus compliqu calculer et n'est pas invariant par

    changement d'chelle au sens o (X, ty) 6= t(X, y) (car une homothtie en y modie compltement lecalcul des distances ; cf. II.4).

    2 - Proposition

    On a les proprits :

    = (XTX)1XT y = + (XTX)1XTu est sans biais : E[] = V ar() = 2(XTX)1

    12

  • La dmonstration est laisse en exercice.

    Il est intressant de noter que si la variable j est dcorrle des autres, alors j est insensible au retrait

    d'autres variables ; et k, k 6= j est insensible au retrait de X.j .

    3 - Proposition

    Soit

    RSS = SS() = y X2

    (Residual Sum of Squares) ; alors l'estimateur suivant de 2 est sans biais :

    2 = RSS/(n p).

    La dmonstration est prsente la suite de la proposition 5.

    4 - Dfinition

    Vecteur des valeurs ajustes (tted values) : y = X Vecteur des rsidus (residuals) : u = y y Erreur standard de j est (j) dni par : (j)2 = 2[(XTX)1]jj .

    Exemple. Reprenons le modle de Cobb-Douglass du paragraphe I.2.1 avec les donnes de leur tude

    de 1928. On trouve 2 = 0, 23 et 3 = 0, 81. L'cart entre 2 + 3 et 1, n'est en fait pas signicatif, cequ'on peut vrier en utilisant les rsultats du chapitre suivant. L'erreur standard de 2 + 3 est 0, 09.

    II.2.3 Proprits gomtriques lmentaires

    Dans toute la suite, pour tout vecteur z, z dsignera la moyenne de ses coordonnes

    z =1

    n

    ni=1

    zi.

    5 - Proposition

    Soit H = X(XTX)1XT , K = I H, et X le sous-espace vectoriel de Rn engendr par lescolonnes de X ; alors

    H est le projecteur orthogonal sur X ; K est le projecteur orthogonal sur X. y = Hy, u = Ky = Ku, yu.Et s'il y a une colonne constante dans la matrice X :

    u = 0 car u1 y y12 = y y2 + y y12

    i(yi y)2 =i u

    2i +

    i(yi y)2TSS = RSS + ESSVar. Totale = Var. Rsiduelle + Var. Explique

    La dmonstration est laisse en exercice. Cette dcomposition de la variance correspond l'ide prsente

    dans l'introduction de sparer le dterministe de l'alatoire.

    Pour la dmonstration de la proposition 3, on a : 2 = u2/(n p) = uTKu/(n p) d'o,E[2] = 2Tr(K)/(n p) = 2.

    13

  • II.2.4 Le coecient de corrlation multiple R

    On introduit ici le coecient R2 qui mesure l'adquation gomtrique du modle aux donnes. On supposeici que X contient une colonne constante.

    6 - Dfinition

    R est la corrlation empirique entre les donnes et les valeurs prdites

    R =

    i(yi y)(yi y)

    (i(yi y)2)1/2(

    i(yi y)2)1/2

    .

    R2 est appel coecient de dtermination, ou encore la proportion de variance explique.

    L'interprtation la plus simple est de voir R comme une mesure de corrlation entre les variables expli-catives (globalement) et les rponses. Plus R est proche de 1, plus le modle reprsente bien les donnes.Par exemple sur la gure I.1 on a R2 = 0, 998.

    7 - Proposition

    On a

    0 R 1, R2 = ESSTSS = 1 RSSTSS , R = 1 y = y R = 0 = (y, 0, . . . , 0).

    Dmonstration.

    R =y y1, y y1y y1 y y1 =

    y y1, y y + y y1y y1 y y1 =

    y y1y y1 =

    ESSTSS

    .

    Si R = 1 alors RSS = 0, y = y. Si R = 0 alors y = y1 et donc X = X(y, 0, . . . , 0)T d'o =(y, 0, . . . , 0)T car X est de rang plein.

    0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0-0.3

    -0.2

    -0.1

    0

    0.1

    0.2

    0.3

    0.4

    0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.00

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    1.0

    Figure II.1 Points (xi, yi) et la droite de rgression. Deux exemples de mme R2.

    Attention, le R2 ne dit pas tout sur la qualit du modle ; par exemple, les gures II.1 ont mmevaleur de R. R2 doit tre considr comme une donne descriptive, intressante en soi, et pratique pourcomparer des modles sur les mmes donnes, mais il ne peut tre considr comme une note absolue :

    mme si le modle est valide, R2 est une variable alatoire dont la distribution (de mme que celle de )peut dpendre fortement de la rpartition des rgresseurs ( moins que j = 0, j > 1). Noter galementque l'ajout d'un rgresseur fera toujours augmenter R2, mme si le j correspondant est nul.Le R2 sera utlis plus tard dans le cadre bien prcis du test de Fisher de nullit de , p.49.

    14

  • Le R2 ajust vaut R2aj = 1 2/(TSS/(n 1)) ; c'est un rapport d'estimes non-biaises de variancessi l'on suppose que les xi sont des variables alatoires i.i.d. Dicile interprter prcisment.

    Exemple. Dans le cas du modle de Cobb-Douglas, on trouve TSS = 2, 3, ESS = 1, 6 et RSS = 0, 7.On a donc R2 = 0, 7. On dit que le travail et le capital investi expliquent 70% de la variabilit de laproduction (en fait son logarithme).

    Pourquoi raisonner sur les carrs pour juger des contributions et non pas sur les valeurs absolues ? Voici

    un dessin qui peut le justier :

    t

    er

    A

    C

    HB

    Le ct AC a pour longueur e =ESS, et de mme avec r =

    RSS et t =

    TSS. Il est raisonnablede juger que la contribution des variables explicatives est donne par AH/AB et celle des rsidus parBH/AB. On a bien

    AH

    AB=AH

    AC

    AC

    AB= cos()2 =

    e2

    t2.

    Le rapport de carrs est donc en fait galement un rapport de deux longueurs.

    II.2.5 Eet de la suppression d'un individu. Eet levier

    Le coecient hi = Hii = xi(XTX)1xTi (leverage) mesure l'loignement du ieindividu xi des autres ;plus prcisment (cf. exercice 14 p. 22) :

    8 - Proposition

    On a

    0 < hi 1 hi = 1 span(xj , j 6= i) est de dimension p 1 limxi hi = 1

    Une valeur leve de hi indique que le vecteur xi est isol soit parce que sa norme est leve, soit parcequ'il est le seul prsent dans une direction donne. Il sera donc inuent dans l'estimation de (eetlevier), et on dit que hi est un indice d'inuence du rgresseur xi. Tout ceci sera prcis au III.3.

    On l'obtient sous R avec la commande h=lm.influence(mod)$hat.

    Si les donnes sont bien rparties, les hi sont peu prs gaux p/n (on sait quehi = trace(H) =rang(H) = p).

    Soit X(i) la matrice X dont on a retir la i-ime ligne xi et y(i) le vecteur y dont on a retir le i-ime

    coecient. Soient (i) et (i) les estimes aux moindres carrs de et bases sur X(i) et y(i). Alors(cf. exercice 14 p. 22) :

    15

  • 9 - Thorme

    Aprs suppression de la i-ime observation, les estimateurs aux moindres carrs des paramtresdeviennent

    (i) = (XTX)1xTiui

    1 hi (II.1)

    (n p 1)2(i) = (n p)2 u2i

    1 hi (II.2)

    II.2.6 Eet de l'ajout d'un rgresseur et coecient de corrlation partielle

    On part du modle prcdent

    = (XTX)1XT y

    puis on rajoute un rgresseur, c'est--dire une colonne X

    X = (X, ).

    On se propose de trouver une formule permettant de passer directement de y y, pour pouvoir ensuitecalculer l'volution du coecient de dtermination. On a besoin du lemme suivant :

    10 - Lemme

    Soient A et B deux sous-espaces vectoriels orthogonaux de Rn, alors en notant PA, PB et PA,Bles projecteurs orthogonaux sur A, B et sur AB, on a

    PA,B = PA + PB .

    Dmonstration. Soit x un vecteur montrons que PAx + PBx est bien PA,Bx. Le vecteur PAx + PBxappartient bien A B et de plus x PAx PBx est orthogonal A (car x PAx et PBx le sont) etde la mme faon B ; donc PAx+ PBx concide avec PA,Bx.

    Notons = ( PX)/ PX la composante de orthogonale X normalise.y = H y = PX,y = PX,y = PXy + Py = y + , y = y + , ucar y ; notons que le dernier terme est la prdiction du rsidu par . Le nouveau vecteur de rsidusest

    u = u , uet par application du thorme de Pythagore, comme u, on a

    u2 = u2 + , u2.Donc nalement, le nouveau coecient R satisfait

    1R2 = u2

    y y1n2 =u2

    y y1n2u2u2 = (1R

    2)(1 2)

    avec

    2 =u2 u2u2 =

    , u2u2 . (II.3)

    = cos(, u) est appel coecient de corrlation partielle de y et sachant x, car c'est la corrlation desvariables dont on a retranch la projection sur X (alors que d'habitude on se contente de les recentrer).

    C'est l'analogue du coecient R o cette fois on cherche prdire au mieux u l'aide du rgresseur .Sa valeur absolue mesure l'apport du nouveau rgresseur pour la qualit de la prdiction.

    16

  • II.2.7 Aspects pratiques. Reprsentation graphiques exploratoires

    Histogramme des rsidus. Droite de Henry (QQ-plot). Il s'agit de vrier l'hypothse de nor-

    malit. La droite de Henry s'approxime raisonnablement de la faon suivante : ordonner les rsidus

    standardiss ui/ puis les tracer en fonction de Q(i/(n + 1)) (quantile de la loi suppose, ici la gaus-sienne) ; si la distribution des ui est normale, on doit trouver des points approximativement aligns.

    Ne pas oublier toutefois que la distribution des ui/ n'est pas exactement N(0, 1) (surtout pour n petit,cf. III.3). On reprsente ici le QQ-plot correspondant aux donnes de la gure II.2, avec le deuxime

    modle ; la concidence est assez bonne sauf pour trois individus

    2 1 0 1 2

    4

    2

    02

    Quantiles

    Re s

    i du s

    st a

    n da r

    d is e

    s

    64

    113

    61

    Reprsentation rsidus/valeurs ajustes. C'est une reprsentation des ui en fonction des yi. L'esti-mation fait que ces deux variables sont empiriquement dcorrles ; toutefois la reprsentation peut faire

    apparatre une dpendance vidente. Elle peut provenir par exemple d'une non-linarit de la relation

    liant yi xi, ou plus souvent d'une variance non-constante des ui.

    8e3 4e3 0 4e3 8e3 12e3 16e3 20e3 24e39e3

    5e3

    1e3

    3e3

    7e3

    11e3

    15e3

    19e3

    23e3

    6.7 7.1 7.5 7.9 8.3 8.7 9.1 9.5 9.9 10.31.7

    1.3

    0.9

    0.5

    0.1

    0.3

    0.7

    1.1

    1.5

    Figure II.2 Prix de voitures d'occasion (rponse) en fonction de l'ge (rgresseur) (Source :

    OzDASL). Le modle est pi = 1 +2ai +ui. Sur la premire gure est trac le rsidu en fonctiondu prix prdit. La seconde est similaire mais avec les nouvelles variables log(p) et log(a).

    Reprsentation rponses/rgresseurs. On trace yi en fonction de xij j x. C'est une mthoderustique pour dtecter une dpendance non-linaire entre un rgresseur donn et la rponse. Ceci peut

    conduire ajouter aux rgresseurs des fonctions de ces derniers (par exemple x2i2, voir aussi l'intro-

    17

  • 10e4 11e4 12e4 13e4 14e4 15e471

    73

    75

    77

    79

    81

    83

    85

    87

    89

    91

    57.4 57.8 58.2 58.6 59.0 59.4 59.8 60.2 60.6 61.0 61.44.26

    4.30

    4.34

    4.38

    4.42

    4.46

    4.50

    4.54

    Figure II.3 Mmes donnes que la gure II.2. On trace les rsidus partiels, y 1, en fonctiondu prix pour les deux modles. La gure rponse/rgresseur est ici la mme un dcalage vertical

    prs.

    duction du temps dans l'exemple du II.5.3), quitte les liminer plus tard lors des tests.

    Si cette mthode est trs simple, la suivante donnera souvent des rsultats plus prcis.

    Reprsentation des rsidus partiels. Ce trac sert illustrer l'inuence du j-ime rgresseur xj (j-ime vecteur colonne de X), pour vrier par exemple l'hypothse de linarit. Il n'existe pas de mthodeidale mais la suivante ralise un bon compromis. L'ide est de tracer le rsidu obtenu sans xj

    z = y X + xj j = u+ xj j (II.4)

    en fonction de xj . Ce trac tente d'illustrer la dpendance de y en xj , la contribution des autres variablesayant t rduite au maximum ; l'apparition d'une structure particulire (autre qu'une droite) peut

    remettre en cause l'hypothse de linarit.

    Mallows

    1

    recommande d'ajouter (xj)2 en variable explicative an de mieux prendre en compte lanon-linarit potentielle de xj ; ceci fait un terme en plus dans le membre de droite de (II.4).

    On les obtient sous R par la commande residuals(...,type="partial"), ou bien en utilisant la com-

    mande crp de la bibliothque car.

    Attention. S'il y a de fortes corrlations entre variables, ou si le modle est trop inexact, ce trac peut

    donner des rsultats trs mauvais, bien pires que la reprsentation rponses/rgresseurs.

    tude thorique. Si l'on note ej le j-ime vecteur de la base canonique de Rp, alors

    z = y X(I ejeTj ) = (I XPj(XTX)1XT )y = Qy

    o Pj = I ejeTj est le projecteur orthogonal sur l'orthogonal de ej . On vrie sans peine que

    Qxj = xj

    Qxk = 0, k 6= jQv = v, vX (c--d XT v = 0).

    Q est donc le projecteur oblique de noyau xk, k 6= j, sur l'espace contenant xj et les vecteurs orthogonauxaux colonnes de X. L'eet de Q est donc de nettoyer la contribution linaire des autres rgresseursen conservant celle de xj .

    1. Augmented partial residual plots, Technometrics, 28 313-320.,1986.

    18

  • Alternative. Noter que cette mthode est tout--fait dirente du choix z = yX(j)(j) o l'exposant jsignale la suppression du j-ime rgresseur, car ici la matrice Q ne prserve pas xj .

    tude des rgresseurs. On pourra faire une analyse de X (corrlations en variables, prsence de sous-groupes d'individus, acp de X, etc. cf. p.ex. [5]). On verra au chapitre suivant qu'une forte dpendanceentre certains rgresseurs peut troubler l'analyse.

    chelles. Il est souvent utile de remettre les donnes sur une chelle correcte. Voir l'exemple de la

    gure II.2.

    Une situation classique quand y est positif est d'observer graphiquement que la variance est en grosproportionnelle y2, ce qui indique que c'est plutt log y qui suit un modle homoscdastique ; en eeton voit facilement que si log y = x + u et u 1, alors y ex(1 + u), ce qui fait une variance eny2. Cette transformation est souvent utilise lorsque la variance augmente avec y, et y > 0. On appelleparfois cela la stabilisation de variance.

    Plus gnralement on utilise les transformations de Box et Cox

    2

    :

    y1 avec 0 1. On choisit alorstraditionnellement en maximisant le R2.

    II.2.8 Traitement des variables symboliques

    En pratique on a souvent aaire des variables qualitatives (symboliques). La mthode la plus courante

    pour prendre en compte une telle variable dans une tude statistique est de la convertir en plusieurs

    variables valeurs 0 ou 1 ; par exemple si la classe d'ge d'un individu a trois modalits, J,A, V , onremplacera la variable explicative x {J,A, V } par un vecteur x = (1x=A, 1x=J , 1x=V ), ce qui permetensuite d'employer des mthodes numriques. Malheureusement, on voit que toute composante de x estfonction des deux autres ce qui fait que cette mthode est en gnral mathmatiquement inutilisable

    telle quelle, aussi bien en analyse de donnes qu'en rgression (on va voir plus bas qu'elle conduit une

    matrice X de rang dcient) ; le procd habituel consiste ter arbitrairement une modalit, si bienque x devient x = (1x=A, 1x=J). Ceci conduit une situation particulirement embrouillante que l'ondtaille ici (mme si les logiciels habituels font automatiquement ces transformations).

    Si l'on cherche expliquer yi (p.ex. la productivit l'hectare) l'aide d'une variable symbolique ziprennant disons 3 valeurs a, b, c (p.ex. pas d'engrais , engrais1 , engrais2 ), on peut tre tent defabriquer les variables

    xi1 = 1, xi2 = 1zi=a, xi3 = 1zi=b, xi4 = 1zi=c

    et d'utiliser le formalisme prcdent. Toutefois, si l'on fait cela, le tableau X ne sera pas de rang pleincar on a pour tout i xi1 xi2 xi3 xi4 = 0, ou encore

    X

    1111

    = 0.Ceci signie simplement la prsence d'une variable en trop. Pour rsoudre ce problme il sut d'liminer

    une des 4 variables. Ainsi on considrera le modle

    yi = 11zi=a + 21zi=b + 31zi=c + ui. (II.5)

    ou bien

    yi = 1 +

    21zi=a +

    31zi=b + ui (II.6)

    2. Pour une discussion approfondie, voir : P.J. Bickel, K.A.Doksum, Kjell, An analysis of transformations revisi-

    ted, J. Amer. Statist. Assoc. 76 (1981), no. 374, 296311.

    19

  • Ces deux paramtrisations sont quivalentes (1 = 3, 2 = 1 3, 3 = 2 3) et donnent, si lesdonnes sont bien ranges, une matrice X de la forme

    X =

    1 0 0.

    .

    .

    .

    .

    .

    .

    .

    .

    1 0 00 1 0.

    .

    .

    .

    .

    .

    .

    .

    .

    0 1 00 0 1.

    .

    .

    .

    .

    .

    .

    .

    .

    0 0 1

    et X =

    1 1 0.

    .

    .

    .

    .

    .

    .

    .

    .

    1 1 01 0 1.

    .

    .

    .

    .

    .

    .

    .

    .

    1 0 11 0 0.

    .

    .

    .

    .

    .

    .

    .

    .

    1 0 0

    .

    S'il n'y a qu'une variable symbolique, la reprsentation (II.5) est la plus naturelle ; en revanche, s'il y en

    a plusieurs il est plus simple de se contenter de retrancher chaque fois une modalit :

    yi = 1 + 21zi=a + 31zi=b + 41ti=n + ui, zi {a, b, c}, ti {n, s} (II.7)Ces complications viennent fondamentalement du fait que ce dernier modle (modle additif) n'est en

    ralit pas naturel du tout (le bon modle tant donn par (II.9)). On verra que l'avantage du modle

    sans interaction (II.7) est d'avoir moins de paramtres ; il a ici 1 + (3 1) + (2 1) = 4 paramtres.Si des variables quantitatives sont prsentes, il sut bien entendu de les ajouter au tableau X ; on peutsoit considrer que leur infuence est indpendante de la (ou des) variable symbolique :

    yi = 1 + 21zi=a + 31zi=b + 4xi + ui

    soit qu'elle en dpend (modle avec interactions)

    yi = 1 + 21zi=a + 31zi=b + 4xi + 51zi=axi + 61zi=bxi + ui. (II.8)

    P.ex. x est la pluviosit et dans ce dernier modle l'augmentation de productivit en prsence de pluiepeut dpendre de l'engrais utilis ; cette dpendance est rete par la valeur de 5 ou 6 en comparaisonde 4.

    On a donc ici 6 rgresseurs, ce qui correspond aux contributions de la constante (1), de x (1), de z(3 1 = 2) et de l'interaction ((3 1) 1 = 2). De mme, pour un modle deux variables symboliquesavec p et q modalits, le modle sans interaction aura 1 + (p 1) + (q 1) rgresseurs, et le modleavec interactions en aura pq = 1 + (p 1) + (q 1) + (p 1) (q 1), avec des interactions du type1z=a1z=a , 1z=b1z=a . . . Ce mode de calcul s'tend un nombre arbitraire de variables. Noter quecomme dans le cas des quations (II.5,II.6), on a les modlisations quivalentes

    y = 11z=a,t=n + 21z=b,t=n + 31z=c,t=n + 41z=a,t=s + 51z=b,t=s + 61z=c,t=s + u (II.9)

    y = 1 + 21z=a +

    31z=b +

    41t=n +

    51z=a,t=n +

    61z=b,t=n + u.

    Il faut bien voir que dans le cas d'un modle complet avec toutes les interactions entre variables symbo-

    liques, comme ci-dessus, le dcompte des paramtres ne pose aucun problme, il sut de calculer toutes

    les possibilits, sans le rgresseur constant (formulation (II.9)), ceci est galement valide dans le cas o

    se mlent variables qualitatives et quantitatives, par exemple le modle (II.8) se rcrit plus simplement

    yi = 11zi=a + 21zi=b + 31zi=c + 41zi=axi + 51zi=bxi + 61zi=cxi + ui

    avec 3 + 3 = 6 paramtres ; si l'on ajoute t, on a alors 12 paramtres. La gymnastique de dcomptepropose plus haut n'a par consquent d'intrt que si l'on considre des modles o toutes les interactions

    ne sont pas prises en compte comme (II.7).

    Exemple. On observe la prise de poids de rats nourris avec quatre rgimes dirents correspondants

    deux sources de protines possibles (buf ou crales) en deux doses possibles (faible ou leve)

    3

    .

    3. Snedecor & Cochran Statistical Methods, Iowa State University Press, 1967. Voir aussi Hand, Daly, Lunn, McConway

    and Ostrowski, A Handbook of Small Data Sets, Chapman and Hall, 1994.

    20

  • Chacune des combinaisons des deux facteurs est teste sur 10 individus tous dirents ; il y a donc 40

    observations de prise de poids en tout.

    Le modle avec interactions estim se rcrit

    poids = 100 20, 8 1D=f 14, 1 1P=c + 18, 8 1D=f,P=c + 15 N(0, 1).

    La prise de poids conscutive un rgime de buf dose faible est de moyenne 79,2 avec un ecart-type

    de 15.

    II.2.9 Exercices

    Exercice 1. Prciser la matrice X de l'exercice 1 p. 10. quoi correspondrait l'ajout du rgresseurconstant ?

    Exercice 2. Dmontrer les propositions 2 et 5.

    Exercice 3. On est dans la situation de l'exercice 1 p. 10 avec (p1, p2, p3) = (50, 40, 60) et qi = 100 pi.Expliciter sa valeur de l'estimateur OLS de si y1 = y2 = 1, et y3 = 2 ; qu'observe-t-on ? Peut-on ajouterle rgresseur constant ?

    Exercice 4. Dmontrer que s'il n'y a qu'un rgresseur en dehors de la constante (i.e. p = 2), alors R estla corrlation empirique entre x et y.

    Exercice 5. On considre le modle

    yi = bxi + ui, E[ui] = 0, E[u2i ] =

    2, E[uiuj ] = 0

    o xi est scalaire. Expliciter l'estimateur des moindres carrs b. Soit l'estimateur b =yi/xi. Com-parer ces deux estimateurs en calculant leur biais et leur variance (On vriera que la proprit blue

    (exercice 13) s'applique bien : la variance de b est infrieure celle de b). Sous quelle condition lesvariances sont-elles gales ?

    Exercice 6. Calculer la covariance entre u et (on pourra utiliser la relation u = Ku).

    Exercice 7. On fait une rgression de y sur deux variables explicatives x et z, c--d X = (1, x, z) ; il ya en tout n individus. On a obtenu le rsultat suivant :

    XTX =

    5 3 03 3 10 1 1

    1. Que vaut n ? Que vaut le coecient de corrlation linaire empirique entre x et z ? (Indication :penser l'interprtation de chaque entre de XTX en fonction des colonnes de X).

    La rgression linaire fournit les rsultats :

    y = 1 + 3x+ 4z + u, RSS = 3.

    2. Que vaut la moyenne empirique y (on utilisera la matrice XTX) ?

    3. Calculer y2 ; justier que y y12 = y2 y12 ; en dduire ESS, TSS et le coecient dedtermination R2.

    On s'intresse au modle priv du rgresseur z :

    y = X00 + u0, X0 = (1n, x).

    4. Calculer numriquement XT0 y (commencer par calculer XT y) ; en dduire 0.

    5. Calculer y02. Dmonter que u02 + y02 = u2 + y2. En dduire la norme de u0.6. Calculer le coecient de corrlation partielle entre z et y sachant x.

    21

  • Exercice 8. Vrier les proprits de la matrice Q du II.2.7.

    Exercice 9. Erreur en prdiction.

    1. Vrier que E[u2i ] = 2(1 hi). On pourra utiliser la relation u = Ku.En dduire que 2 est sans biais.

    2. Soit un nouvel individu (y, x) satisfaisant les hypothses du modle, vrier que

    E[(y x)2] = 2(1 + x(XTX)1xT ).Exercice 10. (Validation croise). On considre l'estimateur de la variance par validation croise :

    2CV =1

    n

    i

    (yi xi(i))2.

    1. Montrer, en utilisant la formule pour (i), que

    2CV =1

    n

    i

    u2i(1 hi)2 (II.10)

    2. Utiliser l'exercice 9 p. 22 pour calculer son esprance. Comparer 2CV et 2dans le cas o les hisont gaux.

    Exercice 11. Soit le modle habituel y N(X, 2I). Soit un nouvel chantillon y N(x, 2). Onsuppose que x a t tir uniformment sur {x1, ...xn}.Quelle est la variance de x x ? Quelle est la variance de y x ? (Tenir compte de la loi de

    x dans le calcul des variances).

    Exercice 12. Modle contraint.

    1. Soit l'estimateur OLS habituel. Vrier que l'estimateur OLS sous la contrainte L = l, c.--d.le minimum de SS() sous la contrainte L = l, est

    0 = + (XTX)1LT [L(XTX)1LT ]1(l L).

    2. En dduire que y0 = X0 satisfait :

    y y02 = (L l)T(L(XTX)1LT

    )1(L l).

    3. Montrer que

    y y02 = y0 y2 y y2.

    Indication : ne pas utiliser le question prcdente.

    Exercice 13. (Proprit BLUE). Les estimateurs linaires de sont ceux de la forme

    = (X)y + (X)

    o et sont des fonctions de X. Bien entendu en est un. On a alors la proprit Blue (Best LinearUnbiased Estimator) :

    est de variance minimale dans la classe des estimateurs de linaires sans biais.

    Dmontrer ce rsultat de la faon suivante :

    1. Montrer que si est sans biais, ncessairement (X)X = I, et (X) = 0.

    2. Exprimer alors et en fonction de X et u.3. En dduire que Cov( , ) = 0, puis que V ar() V ar().Exercice 14. On dmontre ici des formules de suppression d'un individu.

    22

  • 1. Prouver le lemme d'inversion matricielle : Soient A,B,C,D quatre matrices, respectivement detaille n n, nm,mm,m n, alors, si les inverses existent on a

    (A+BCD)1 = A1 A1B(DA1B + C1)1DA1.

    2. Vrier la formule XTX =i x

    Ti xi. On peut le faire soit par calcul explicite de chaque coecient,soit en faisant le produit de matrices XTX par blocs.

    3. En utilisant les deux points prcdents, dmontrer la formule (X(i) est la matrice dduite de Xpar suppression de la i-ime ligne)

    (XT(i)X(i))1 = (XTX)1 +

    (XTX)1xTi xi(XTX)1

    1 hi , hi = xi(XTX)1xTi

    4. En dduire que :

    (1 hi)1 = 1 + xi(XT(i)X(i))1xTi .

    En dduire les trois points de la proposition 8.

    5. Exprimer XT y en fonction de XT(i)y(i) et xTi yi, puis dmontrer les formules pour les estimes en

    l'absence du i-ime individu (thorme 9).

    Exercice 15. On considre le modle deux rgresseurs x et z :

    y = a1x+ a2z + u.

    1. Calculer la matrice de covariance des coecients estims et l'exprimer en fonction de x, z etcos(x, z).

    2. Que vaut la corrlation de a1 et a2 ? Que se passe-t-il si x et z sont orthogonaux ?

    Exercice 16. Un goteur teste des chocolats fabriqus base de cacao de trois provenances direntes :

    Cte d'Ivoire, Venezuela, Brsil. Il donne une note pour chaque chocolat qu'il gote. Les chocolats sont

    prpars avec des doses de vanilline direntes. Proposer pour cette exprience un modle de rgression

    avec interaction et un sans interaction. Combien ont-ils de paramtres ? Interprter leur dirence.

    Exercice 17. On teste des doses direntes d'engrais dans un champ divis en parcelles similaires de

    mme taille (une dose par parcelle). On mesure le poids de bl produit chaque fois et l'on prsuppose

    le gain de production est proportionnel la quantit d'engrais utilis (la dose).

    1. Combien y a-t-il de paramtres estimer ? Montrer que l'on peut mettre cette exprience sous la

    forme d'un problme de rgression. Combien de colonnes a la matrice X ?

    2. On fait maintenant la mme exprience mais dans trois champs dirents. On suppose de plus

    que l'eet de l'engrais dpend du champ. crire l'quation de rgression. Combien de colonnes a

    la matrice X ?

    3. On suppose que l'engrais a le mme eet dans les trois champs, mais que leur productivit en ab-

    sence d'engrais est toujours dirente. Que devient l'quation de rgression ? Combien de colonnes

    a la matrice X ?

    4. On a maintenant deux engrais et un seul champ. Combien de colonnes a la matrice X ?

    Vrier que la somme des solutions fait 15.

    II.3 Modles htroscdastiques (Moindres carrs gnraliss)

    II.3.1 Modle

    La dirence avec le modle prcdent est que la matrice de covariance des bruits est maintenant dirente

    d'un multiple de l'identit. Il est souvent dsign sous le terme GLS (Generalised Least Squares).

    23

  • Modle. On suppose l'existence d'un vecteur , de > 0, de > 0 et de variables alatoires ui telsque

    y = X + u,E[u] = 0,

    E[uuT ] = 2.

    En d'autres termes, pour chaque i :

    yi = xi + ui

    E[ui] = 0

    Cov(ui, uj) = 2ij (htroscdasticit et corrlation des erreurs).

    Le paramtre 2, a priori redondant, est introduit traditionnellement avec l'ide que est connu l'avance et 2 estimer, ce qui, on va le voir, nous ramne par une transformation simple au problmeprcdent, ce qui est intressant du point de vue de l'analyse thorique. Souvent cependant reprsentedirectement la matrice de covariance de u (si bien que = 1), elle est inconnue, et est paramtre parun vecteur de taille raisonnable (cf. les deux exemples du II.3.4).

    II.3.2 Rduction au cas = I. Estimation de et 2

    Soit R une racine carre de 1 , c--d RTR = 1 ; si l'on pose :

    y = Ry, X = RX, u = Ru

    on obtient

    y = X + u, E[uuT ] = 2R(RTR)1RT = 2I.

    On a donc dcorrl et normalis les observations. On est ramen au problme du II.2.

    Une autre approche qui, on va le voir, conduit aux mmes conclusions, est de passer par le modle

    gaussien y N(X, 2). La matrice 1 dnit une nouvelle mtrique sur Rn qui intervient dans lavraisemblance :

    z21

    = zT1 z =ij

    zi(1 )ijzj .

    11 - Dfinition

    L'estimateur des moindres carrs gnraliss de est l'estimateur du maximum de vraisem-blance sous l'hypothse de normalit de u (c.--d. y N(X, 2)) :

    G = arg miny X1 = (XT1 X)1XT1 y.

    On a bien : G(y,X,) = OLS(y, X ) = (X TX )1X T y. En consquence les rsultats du II.2s'appliquent :

    12 - Proposition

    2 = (n p)1y y21est un estimateur sans biais de 2.

    On peut aussi relier ces rsultats au II.2 en remarquant que seule la mtrique a chang :

    yG = HGy, HG = X(XT1 X)

    1XT1

    24

  • et HG est le projecteur orthogonal sur X pour le produit scalaire z, t1 = zT1 t.Attention, la formule de prdiction pour un nouvel individu dont la covariance avec les autres individus

    est connue et non-nulle dire de y0 = x0, du moins si l'on dsire prdire le bruit avec, c.--d. y0 et nonE[y0] ; c'est la formule (II.13) que l'on verra plus loin, qui fait intervenir les corrlation de u0 avec les ui(vecteur not ).

    Donnons l'exemple des expriences rptes (ou donnes groupes) : On fait ni fois la mmeexprience avec le rgresseur xi ; en notant la rponse moyenne yi, on a

    yi = xi + ui, V ar(ui) = 2/ni. (II.11)

    est diagonale. L'estimation GLS de partir des yi donnera le mme rsultat que l'estimation OLSsur les donnes non-moyennes. En revanche l'estimation de sera moins bonne que si l'on possdaitles donnes non moyennes.

    II.3.3 Dtection de l'htroscdasticit

    L'homoscdasicit ne peut tre teste en toute gnralit car il s'agit de tester tous les ccients de avec seulement n observations ! On peut imaginer une multitude de tests. La meilleure mthode reste deproposer des modles htroscdastiques plus spciques (mixtes, etc.) en fonction de l'ide que l'on se

    fait des donnes, et de les tester.

    Un test graphique simple est la reprsentation rsidus/valeurs ajustes du II.2.7 ; une volution de

    l'amplitude des ui quand yi varie est un indicateur d'htroscdasticit.

    On peut aussi utiliser le test de Breusch et Pagan

    4

    qui cherche dtecter si la variance de ui dpend dexi. Il fait la rgression de

    2u2i sur des variables explicatives zi (en gnral, zi = xi) et teste la nullitdes coecients obtenus (procdure ncv.test de R)

    5

    .

    Si i reprsente un indice de temps, on utilise parfois le test de Durbin-Watson 6 pour dtecter la prsenced'une corrlation non-modlise entre les donnes ; c'est un test de corrlation entre les rsidus dont la

    statistique est S =n

    2 (ui ui1)2/n

    1 u2i . Si S est trop grande (resp. petite) il y a alors une corrlationsignicativement ngative (positive) entre les rsidus.

    II.3.4 Estimation de

    Il est totalement dsespr d'estimer sans contrainte supplmentaire car cette matrice contient plusde coecients que de donnes dont on dispose. On postulera donc toujours pour une forme trsparticulire avec peu de paramtres (cf. (II.11), les exemples de ce paragraphe et le II.3.5).

    Une mthode gnrale. Si l'on dispose d'un estimateur (, y,X) de en fonction des donnes etde , et peuvent tre alors estims en rptant les deux oprations suivantes :

    I pour une valeur estime de calculer : = (XT 1X)1XT 1yI puis ensuite estimer l'aide de : = (, y,X).

    La convergence de la mthode dpend de chaque situation particulire.

    4. T.S. Breusch, A.R. Pagan, (1979) A simple test for heteroscedasticity and random coecient variation, Econometrica

    47, 12871294

    5. Dans un mme esprit le test de White compare S = n1i(

    2 u2i )(xTi xin1XTX) 0. C'est un test de corrla-tion entre les carrs des rsidus et les rgresseurs. Concrtement, la matrice S vectorise s'crit n1

    vi, o vi Rp(p+1)/2contient donc les termes (2 u2i )(xijxik n1(XTX)jk), j et k variant. Le test compare (

    vi)

    T (viv

    Ti )1(vi) un 2

    p(p+1)/2.

    H.White, A heteroskedasticity-consitent covariance matrix estimator and a direct test for heteroscedasticity, Econome-

    trica, vol.48, No 4, May 1980.

    6. J.Durbin, G.S.Watson, Testing for Serial Correlation in Least Squares Regression. III, Biometrika, Vol. 58, No. 1.

    (Apr., 1971), pp. 1-19. Le test apparat pour la premire fois dans un article de 1951 des mmes auteurs.

    25

  • Exemple : Seemingly unrelated regression . Soit le modle(yy

    )=

    (X 00 X

    )(

    )+

    (uu

    ), V ar

    (uu

    )=

    (v11Id v12Idv12Id v22Id

    ).

    Par exemple yi et yi sont deux mesures direntes, ou dires, de l'activit commerciale du pays i. Une

    estime de et permet alors d'en dduire une des vij partir u et u, ce qui conduit donc un .

    Exemple : Variance dpendant d'une modalit et proportionnelle une variable. On ense-

    mence des pots avec les mmes graines mais des terreaux dirents, variable t, et en clairant constam-ment chaque plante avec une intensit lumineuse a dirente pour chacune ; on mesure la hauteur y dela plante au bout d'un mois

    yi = tit+ ai + ui, V ar(ui)1/2 = (ti + a

    tii ).

    La variance dpend donc du type de terreau et du niveau d'clairage. La commande R correspondante

    sera (bibliothque nlme) :

    gls(yt+a,weights=varConstPower(form=a|t))Si la variance ne dpend que de t, faire weights=varIdent(form=1|t).Exemple : Donnes longitudinales. On s'intresse savoir si le labour a une inuence sur la prsence

    de carbone dans le sol

    7

    . On prlve des carottes dans divers champs et la mesure yij est le taux de carbone la profondeur tj de la i-ime carotte. Les variables explicatives sont le taux d'humidit et l'anne. Enraison de la corrlation prsente le long de la carotte on postule le modle suivant (en fait il y a deux

    modles : un avec labour et un sans labour)

    yij = xi +

    Kk=1

    ktkj + vij + uij

    E[uuT ] = 2uId, E[vijvik] = 2v exp{|tj tk|}, E[vijvik] = 0, i 6= i.

    Le terme polynomial (p.ex. K = 1) explique une tendance rgulire de variation du taux de carboneen fonction de la profondeur ; le terme vij , ajout uij , exprime une corrlation additionnelle entreprlvements proches pour le mme individu.

    Chaque estime , de , conduit une estime des uij et des vij , qui fournissent leur tour uneestime de u, v et . On a donc ainsi fabriqu une fonction (, y,X).

    Filtrage par krigeage. Soit le modle de rgression habituel o les yi sont typiquement des mesuresprises chacune en un point i du plan, c.--d. un champ spatial (intensit lumineuse en un point d'uneimage, mesure de pollution en un endroit, etc.) [4]. On se propose d'exprimer la corrlation comme

    fonction une paramtre des localisations, par exemple

    yi = xi + ui, i = 1, . . . n,

    E[uiuj ] = c exp(bi ja) + 20ij . (II.12)

    Nous sommes encore dans le cadre prcdent ; les quatre paramtres a, b, c, 20 devront tre estims.

    Souvent dans les applications seul le rgresseur constant est considr mais ce n'est pas toujours le cas.

    Le but du krigeage est de prdire la rponse y0 en un nouveau point 0 en prenant en compte les variablesexplicatives x0 et en exploitant les corrlations existant avec les yi. Ici = 1 et on note

    y = (yi)1in, u = (ui)1in, = E[uuT ], = E[uu0].

    7. F.J. Breidt,Ecological Modeling with Soils Data : Semiparametric Stochastic Mixed Models for Increment Averages,

    Journes Statistiques de Rennes, 2006. Nous simplions ici beaucoup : En ralit F.J. Breidt utilise des fonctions splines et

    les termes correspondant aux k dpendent galement des variables explicatives, le tout dans un cadre de modles mixtes.

    26

  • On suppose dans la suite que le rgresseur constant est pris en compte dans x. Si et taientconnus, l'estimateur naturel de y0 serait, sous l'hypothse gaussienne8

    son esprance sachant les yi soity0 = E[x0

    + u0|u] = x0 + T1u. Comme et sont inconnus on choisit de les estimer et ilvient

    y0 = x0 + T 1(y X). (II.13)

    Il ne reste donc plus qu' trouver et , c.--d. dans l'exemple (II.12) estimer , a, b, c et 20 . En pratique

    on estime d'abord puis on utilise G.

    Parenthse. Rappelons que le rgresseur constant est pris en compte. Il est d'usage, dans la littrature de krigeage,

    de remarquer que y0 =piyi o le vecteur p est solution d'une de ces deux quations suivantes en (p, q) au choix9

    ( XXT 0

    )(pq

    )=

    (xT0

    )ou

    ( XXT 0

    )(pq

    )=

    (xT0

    )(II.14)

    ij = E[(ui uj)2], i = E[(ui u0)2].La matrice est appel le variogramme. Dans le domaine des processus spatiaux, il apparat souvent plus naturelde travailler avec cette matrice plutt qu'avec pour des raisons de modlisation. Queqlues remarques :1/

    i pi = 1 puisque X

    T p = xT0 (cette proprit est perdue si le rgresseur constant n'est pas pris en compte, etla deuxime quation matricielle galement). Les pi ne sont pas ncessairement 0.2/ Il est immdiat de vrier que (II.14) correspond la solution du problme em p

    minV ar(y0

    i

    piyi)sous

    pixi = 1.

    3/p est galement solution de (II.14) modi en remplaant u par y dans les dnitions de , , et .

    L'estimation de ( ou ) se fait gnralement par le biais d'un modle du type ij = (i, j) o i estun vecteur de variables explicatives ; en dehors de (II.12) voici un autre exemple

    10

    ij = c exp(k

    ck|xik xjk|) + 2ij

    ou encore ij = (i j) o la fonction est estime par un estimateur non paramtrique p.ex.

    (h) =1

    N(h, )

    h

  • o X et Z sont des matrices connues (rgresseurs), est le paramtre et est un bruit vectoriel ind-pendant de u. G est typiquement une matrice diagonale. On peut remplacer 2Id par une matrice plusgnrale. Noter que Z a un nombre a priori faible de colonnes, et donc le bruit (Z)i engendr par esttrs corrl d'une donne l'autre, contrairement ui. On a

    y N(X, V ), V = 2Id+ ZGZT . (II.16)On peut voir l'inverse cette modlisation comme y N(X + Z, 2Id) avec l'introduction d'uneinformation Baysienne sur une partie des coecients (les j).

    Un point de vue plus pragmatique est d'y voir une possibilit d'estimer d'un modle linaire quand la

    matrice de rgression, ici (X|Z), a beaucoup de colonnes, voire plus de colonnes que de lignes. Mme siG est inconnu, il pourra en pratique tre estim via une modlisation paramtrique dont la plus simpleest G = 2Id.

    En rsum : Le modle mixte est une formulation particulire de modle htroscdastique ; elle permet en

    particulier de proposer un modle de complexit intermdiaire entre le modle complet y N((X|Z), I)(qui a trop de paramtres) et le modle y N(X, I) qui est trop simple.L'intrt principal des modles mixtes est de permettre de juger de l'importance des rgresseurs Zdans des situations o l'on ne peut pas estimer le modle complet : si le modle mixte est signicativement

    meilleur que le modle eets xes simple, alors les rgresseurs Z jouent un rle signicatif.

    On verra au III.4.7 qu'une application typique est de tester les interactions compliques en analyse de

    la variance.

    Pour les dtails concernant l'estimation nous renvoyons [1] ou [16].

    Exemple : donnes groupes (random block eects). Supposons que l'on a rassembl p groupes dedonnes obtenues dans des conditions direntes. Par exemple chaque groupe peut reprsenter une srie

    d'expriences (test de cocktails, traitements mdicaux, etc.) faites sur un sujet (dirent d'un groupe

    l'autre). l'intrieur de chaque groupe on ne peut pas considrer les mesures comme indpendantes car

    elles ont en commun des conditions exprimentales spciques (le goteur, le cobaye, etc.). En dsignant

    par xe, e = 1, . . . ne, les rgresseurs de l'exprience numro e (composition du cocktail, teneur en sucre,etc.) et s, s = 1, . . . ns le sujet, on pourra choisir le modle :

    yse = xe + s + use, s = N(0, 2g).

    On voit que l'eet alatoire se traduit ici par un biais variant alatoirement d'un sujet l'autre (certains

    goteurs sont plus svres, etc.) ; en reprenant les notations prcdentes, et en supposant que chaque

    sujet fait toutes les expriences, Z est (nens) ns :

    Z =

    1 0 . . . 0

    0.

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    . 00 . . . 0 1

    , = N(0, 2gIns)o 0 et 1 sont des vecteurs de 0 et de 1. Dans ce cas, mesure la variabilit de la rponse due auchangement de conditions exprimentales (uctuations de la svrit d'un goteur l'autre). Dans le

    cas des cocktails, il est clair le modle complet n'est pas beaucoup plus intressant d'un point de vue

    pratique que le modle mixte, puisqu'on ne s'intresse pas aux sujets individuellement.

    Noter que dans cet exemple (X|Z) est de rang dcient, cause de la colonne de 1 dans X ; en eet,en raison du caractre alatoire des i dans la modlisation, il est important de prserver la symtrie :l'eet du retrait d'une colonne redondante dpendrait ici de la colonne choisie. Si l'on cherche estimer

    les i dans le modle y N((X|Z)(

    ), I), il est naturel d'ajouter la condition

    i = 0, lie au fait queles i du modle mixte sont centrs, et la solution redevient unique.

    Exemple : uctuations sur les paramtres d'un modle longitudinal

    11

    . Les auteurs cherchent

    11. J. C. Pinheiro, and D. M.Bates, Mixed-Eects Models in S and S-PLUS, Springer, 2000.

    28

  • proposer un modle de croissance pour des enfants de 12 14 ans. Il y a 26 enfants. On mesure

    la taille yij de l'enfant i l'ge tij , j = 1, . . . J = 9 (les mesures sont prises tous les trois mois).

    11.0 11.2 11.4 11.6 11.8 12.0 12.2 12.4 12.6 12.8 13.0125

    130

    135

    140

    145

    150

    155

    160

    165

    170

    175

    Les auteurs postulent le modle polynomial (le choix des ordres 4 et 2 est de nature exprimentale)

    yij =

    4k=0

    ktkij +

    2k=0

    iktkij + uij , (.0, .1, .2) N(0, G). (II.17)

    Si J est petit, il est hors de question d'estimer un polynme d'ordre 4 par enfant, et cela prsente peutd'intrt car l'interprtation du paquet de paramtres obtenus exigera une nouvelle analyse statistique.

    Les auteurs choisissent donc le modle (II.17). Les k reprsentent le polynme moyen tandis que les ikservent modliser la variabilit d'un individu l'autre. L'estimateur de G quantie cette variabilit.

    L'analyse avec la commande

    mod=lme(taille1+t+I(t2)+I(t3)+I(t4),random=1+t+I(t2)|sujet),(bibliothque nlme

    12

    ) donne les estimes (eets, xes, variances, corrlations, avec la convention Gij =ijrij pour i 6= j)

    0 1 2 3 4 0 1 2 u r01 r02 r12149 6, 2 1, 1 0, 47 0, 34 8 1, 7 0, 8 0, 47 0, 61 0, 22 0, 66Notons les fortes corrlations, et la cohrence de r01 > 0 avec la gure. Les intervalles de conance pources quantits s'obtiennent avec intervals(mod). L'estimation du modle yij =

    4k=0 kt

    kij + uij , donnebien les mmes estimes de la partie xe.

    On peut voir ce modle comme un modle hirarchique car le coecient de tk pour l'enfant i estk + ik, ce qui revient postuler un modle de rgression pour ce coecient.

    Pour additionner plusieurs eet alatoires indpendants il faut faire une liste, par exemple

    mod=lme(taille1+t+I(t2)+I(t3)+I(t4),random=list((1+t|sujet),(I(t2)-1|sujet)))revient imposer r02 = r12 = 0.

    On peut galement utiliser la bibliothque lme4 qui donne de bons rsultats en estimation ; la com-

    mande sera mod=lmer(taille1+t+I(t2)+I(t3)+I(t4)+((1+t+I(t2))|sujet)). Pour un modle avecuniquement des eets alatoires du type yijk = +i+j+ij+uijk o les trois eets sont indpendants(les paramtres sont (, u, , , )) on fera lmer(y1+(1|A)+(1|B)+(1|A : B)). Ceci est beaucoupplus dicile raliser avec lme qui est adapt pour les eets embots, cf. III.4.6 et III.4.7.

    Pour les cocktails, on fera lmer(yx+(1|sujet)) ou lme(yx,random=1|sujet).12. Pour la programmation des modles mixtes sous R nous renvoyons par exemple au document d'introduction de

    D.Concordet : www.biostat.envt.fr/master/IMG/pdf/Commandes_nlmetex.pdf.

    29

  • Estimation. Les paramtres sont (, ,G), o G est suppose par dfaut diagonale mais peut ven-tuellement tre soumise d'autres contraintes spcies par l'utilisateur. L'estimation est faite soit par

    maximum de vraisemblance sur la base de l'quation (II.16), soit par la mthode REML qui consiste en

    un premier temps projeter y sur l'orthogonal de X, y = Ky, utiliser ces nouvelles observations dontla loi ne dpend plus de pour estimer (,G), et en un second temps estimer classiquement (GLS),voir [16] 6.6. REML est souvent prfr car comme y est de dimension eective n p (on le reprsenteen fait dans une base de X), les variances estimes seront naturellement mieux normalises.

    II.3.6 Exercices

    Exercice 1. On considre le modle de rgression

    yi = axi + ui, i = 1, . . . N

    avec : E[ui] = 0, V ar(ui) = 2i , Cov(ui, uj) = 0, i 6= j. xi et a sont scalaires.

    Donner l'expression des estimateur OLS et GLS de a et comparer leur variance.

    Exercice 2. On recueille J sries de mesures de modle

    yij = + uij , Var(uij) = 2j , i = 1, . . . n, j = 1, . . . J.

    Les bruits sont donc dcorrls mais de variance dirente connue. Mettre sous forme homoscdastique

    par un changement de variable adquat puis en dduire l'expression de l'estimateur de .

    Les variances sont inconnues. Ecrire la commande R faisant l'estimation.

    Exercice 3.

    13

    Des vaches donnent naissance des veaux, issus de 4 taureaux. Les vaches proviennent

    de deux troupeaux. Chaque exprience est un accouchement. Les rgresseurs sont l'ge de la vache, le

    sexe du veau, le taureau (variable symbolique), et le troupeau. La rponse est la dicult que la vache a

    eue vler (note donne par un technicien). Le but principal de l'tude est de comprendre la variabilit

    du rsultat d'un taureau l'autre. Il y a 28 individus.

    1. Calculer le nombre de paramtres du modle additif complet

    2. Proposer un modle eets alatoires et donner son nombre de paramtres. Justier le choix de

    ce modle en termes d'interprtations de la rgression et de son utilisation.

    3. Ecrire les commandes lme() et nlme() correspondant cette analyse.

    4. Il y a deux races de taureau. On s'intresse galement la variabilit de l'eet taureau pour

    chaque race sparment. Ecrire le modle correspondant.

    La commande est lme(yTr+A+S,random=list(Ta=pdDiag(0+Race))), qui indique que Ta estun eet alatoire avec une matrice de covariance diagonale dont les coecients ne dpendent que

    de Race. Par exemple, la syntaxe lme(y0+Tr,random=(1|Ta)) quivaut lme(y0+Tr,random=list(Ta=pdIdent(1))).Exercice 4. On reprend l'exemple des goteurs. On suppose que l'on dispose en outre d'une variable

    Age du goteur deux modalits.

    1. Comment modier le modle pour voir si les jeunes sont plus svres que les vieux ?

    2. Comment modier le modle pour voir s'il y a une plus grande disparit de svrit chez les jeunes

    que chez les plus gs ?

    3. Ecrire la commande lme() pour raliser l'analyse.

    13. D'aprs C. Lavergne et C.Trottier, Sur l'estimation dans les modles linaires gnraliss eets alatoires, Revue

    de Statistique Applique, 48 no. 1 (2000), p. 49-67 .

    30

  • II.4 Moindres carrs totaux (Errors in variables, total least squares)

    Modle. Il a pour but de prendre en compte du bruit sur les rgresseurs :

    yi = xi + ui

    zi = xi + vi

    o l'on observe les (yi, zi) mais pas xi. Les ui et vi sont des bruits indpendants de variance 2u et

    2v. Par exemple dans (I.1), la mesure de log pi est sans doute autant entache d'erreur que celle de latemprature. L'estimateur OLS de et X s'obtient par minimisation en X et de

    i

    2u (yi xi)2 + (zi xi)T2v (zi xi). (II.18)

    Si u = 1,v = Id, c'est la somme des carrs des distances des points d'observation (zi, yi) aux points dela droite (de l'hyperplan) de rgression (xi, xi), et le minimum sur les xi est donc la somme des carrsdes distances la droite. Il n'existe malheureusement pas d'estimateur satisfaisant de v ; si l'on esssayepar exemple le maximum de vraisemblance, on trouve au nal v = 0 avec X = Z, une vraisemblanceinnie et = OLS14

    .

    Si v est dicile estimer par ailleurs, ou en absence de contrainte supplmentaire, on est donc confront une dicult insurmontable

    15

    . Il est toutefois trs important de prendre en considration le bruit sur

    les observations au risque de fausser compltement les tests. C'est un problme trs gnral, qui se

    retrouve, par exemple, en sries temporelles : si l'on observe un AR(1) avec du bruit, xn = axn1 + un,yn = xn + vn, l'estimation autorgressive sur yn conduira un AR d'ordre arbitrairement grand : on nepeut pas oublier vn. La solution est ici d'estimer un ARMA(1,1) qui est bien la nature de y.Dans le cas qui nous occupe, la solution pratique se trouve dans les cas o l'on observe d'autres

    variables (ou d'autres ralisations de y ou z), qui permettront d'estimer raisonnablement les variableslatentes x, ou tout du moins les corrlations ncessaires. C'est ce qui est fait par exemple dans le StructualEquation Modelling (SEM) ; mais ceci sort du cadre de ce cours.

    II.5 Rgression non-paramtrique et moindres carrs

    Nous ne traitons pas ici de ce problme dans toute sa gnralit ; on ne fera pas non plus une prsentation

    rigoureuse de la thorie ; voir [8] et [17] pour de bons livres introductifs.

    Le modle est le suivant o le paramtre estimer est la fonction f inconnue :

    yi = f(i) + ui, ui = N(0, 2), i [0, 1]. (II.19)Il s'agit d'un problme non paramtrique car l'ensemble des fonctions candidates n'est pas un espace de

    dimension nie.

    II.5.1 Premire approche : la rgression polynmiale

    Faisons apparatre sur un exemple simul simple les problmes rencontrs. On dispose des 20 paires (i, yi)reprsentes sur la gure par des cibles. Elles suivent le modle (II.19) sauf que l'intervalle de variation

    de est plus grand. La fonction f est un polynme d'ordre 3, f(x) = (5x1)2(x1), reprsent en traitplein ; on a pris = 1. Si l'ordre est eectivement connu, l'estimation peut se faire par une rgressionhabituelle avec le modle

    yi = 1 + 2i + 32i + 4

    3i + ui.

    14. Pour les dtails, voir l'article :M.E. Solari, The maximum likelihood solution of the problem of estimating a limear

    functional realtionship, J. Roy. Statist. Soc. Ser. B, 31 :372-375, 1969.

    15. Une solution astucieuse, base sur une modlisation de la suite xi comme une suite i.i.d., est propose dans l'articlede Kiefer et Wolfowitz : Consistency of the maximum likelihood estimator in the presence of innitely many incidental

    parameters, Ann. Math. Statist. 27 (1956), 887906.

    31

  • En gnral l'ordre n'est pas connu (et mme l'hypothse f polynmiale n'est qu'une approximation)et la question de l'ordre utiliser se pose. La gure montre les estimes pour des ordres 3 et 6 (courbes

    en pointills). On voit que l'estime avec l'ordre 6 est trs mauvaise ; ceci vient du fait que les coecients

    supplmentaires ont t utiliss pour approcher davantage les donnes (bruites) ce qui a induit un cart

    important la vrit aux endroits o les observations se font rares ; si l'on augmente l'ordre, le polynme

    estim va s'approcher de plus en plus des points d'observation en ayant un comportement trs chaotique

    entre ces derniers, c'est ce que l'on appelle l' overtting . La dicult est donc de trouver un ordre

    (taille du modle) raisonnable.

    0 0.2 0.4 0.6 0.8 1.0 1.24

    3

    2

    1

    0

    1

    2

    3

    4

    0 0.2 0.4 0.6 0.8 1.0 1.24

    3

    2

    1

    0

    1

    2

    3

    4

    0 0.2 0.4 0.6 0.8 1.0 1.24

    3

    2

    1

    0

    1

    2

    3

    4

    0 0.2 0.4 0.6 0.8 1.0 1.24

    3

    2

    1

    0

    1

    2

    3

    4

    Estimation du degr par validation croise. L'ide est d'essayer de choisir la valeur du degr dqui minimisera l'erreur de prdiction. Pour estimer cette erreur on utilisera l'estimateur CV (galement

    appel PRESS : Predicted Residual Sum of Squares) : pour tout i, calculer le modle (i) (cf. II.2.5)puis

    CV (p) = n1i

    (yi xi(i))2

    o la dpendance en d est implicite via la dimension du rgresseur, p = d + 1. Il est essentiel d'terl'individu i chaque fois car sinon on aurait une fonction dcroissante de p et il serait nalement choisitrop grand (typiquement gal n). En utilisant l'exercice 10 p. 22, le critre minimiser devient

    CV (p) = n1i

    u2i(1 hi)2

    Les deux gures suivantes illustrent la mthode. La premire montre l'volution de

    CV (p) en fonction

    de d ainsi que celle de et de l'estimateur au maximum de vraisemblance MV =RSS/n. MV estune fonction dcroissante de d car c'est la norme de la projection sur des espaces embots. n'estvisiblement pas non plus une mesure trs satisfaisante. En pratique CV (p) avoisine son minimum sur unplateau de largeur rduite o les estimes dirent assez peu.

    La seconde gure montre les polynmes estims pour d = 3 et d = 4, qui semblent tre les deux seulesvaleurs acceptables.

    1 0 1 2 3 4 5 60.9

    1.3

    1.7

    2.1

    2.5

    2.9

    3.3

    3.7

    4.1

    4.5

    .

    .

    1 0 1 2 3 4 5 60.9

    1.3

    1.7

    2.1

    2.5

    2.9

    3.3

    3.7

    4.1

    4.5

    +

    +

    +

    +

    +

    +

    +

    sch

    smv

    cv

    0 0.2 0.4 0.6 0.8 1.0 1.23

    2

    1

    0

    1

    2

    3

    4

    0 0.2 0.4 0.6 0.8 1.0 1.23

    2

    1

    0

    1

    2

    3

    4

    0 0.2 0.4 0.6 0.8 1.0 1.23

    2

    1

    0

    1

    2

    3

    4

    0 0.2 0.4 0.6 0.8 1.0 1.23

    2

    1

    0

    1

    2

    3

    4

    veritedeg=3deg=4

    32

  • Il a t remarqu que le critre CV n'est pas invariant par rotation au sens o si Q est une matricede rotation, le calcul de CV sur les donnes (Qy,QX) (qui satisfont le modle avec le mme ) nedonne pas le mme rsultat (noter que ce dfaut d'invariance n'est pas forcment un dfaut). La solution

    propose est de prendre le Q qui rend les hi gaux, ces derniers valent alors p/n (car la somme de hireste inchange) et l'on obtient le critre de validation croise gnralise

    16

    GCV (p) =n

    (n p)2RSS

    qui est beaucoup plus simple calculer. Le paragraphe suivant dcrit une approche classique qui utilise

    la base de Fourier plutt que les polynmes. D'autres choix sont encore possibles comme on le verra plus

    loin.

    II.5.2 Approche par estimation des coecients de Fourier

    Revenons au modle (II.19). Le paramtre est ici la fonction f ; on est donc en dimension innie. Unefaon de le visualiser plus clairement est de passer par la transforme de Fourier de f

    j =

    10

    e2ipijf() d, f() =jZ

    je2ipij. (II.20)

    Remarque : on prend ici, pour simplier l'expos, la notation complexe, qui n'est pas trs adapte en rgression

    si f est relle, car on a alors la contrainte k = k. Il faudrait mieux dnir

    j =

    10ej()f() d, f() =

    ge0

    jej()

    e2j() = cos 2pij, e2j+1() = sin 2pi(j + 1), j = 0, 1, . . .

    On a alors

    y = X + u, Xij = e2ipiji(II.21)

    qui est la forme habituelle (vu l'absence d'ambiguit, on a supprim dans ce paragraphe l'toile qui

    dsignait prcdemment le vrai paramtre par opposition au paramtre gnrique). Noter que la matrice

    XT ne peut tre de rang plein car elle a n colonnes et une innit de lignes ; toute estime OLS sera unefonction qui vaut yi en i, donnant ainsi un rsidu nul, ce qu'on pouvait deviner tout de suite au vu de(II.19). Cette estime sera toujours mauvaise, sauf si = 0, car la fonction obtenue sera trs irrgulire.Le but sera ici de construire une estime qui sera bonne si f est rgulire (la situation tant dsespresans hypothse supplmentaire sur f).

    On va construire un estimateur biais, mais dont les performances seront trs suprieures OLS dans le

    cas o beaucoup de j sont petits (ce qui correspond f rgulire) et trs lgrement dgrades sinon.Rappelons que des intgrations par parties dans (II.20) montrent que si f admet q drives intgrables,|j | < Cjq.Mthode de projection. On se restreint aux estimateurs (biaiss) satisfaisant :

    j = 0, |j| > j0pour un certain j0 infrieur n. Une fois j0 choisi, le problme est alors un problme de rgressionpurement paramtrique puisqu'il reste estimer par moindres carrs les j pour |j| j0.Ceci correspond l'introduction d'une hypothse supplmentaire : la suite des j tend rapidement vers 0. C'est une hypothse de rgularit de f .

    L'estimation de j0 par validation croise se fait comme prcdemment.

    Par ailleurs, la validit thorique de l'approche par validation croise gnralise a t dmontre par

    Polyak et Tsybakov

    17

    .

    16. G.HGolub, M.Heath, G.Wahba Generalized cross-validation as a method for choosing a good ridge parameter,

    Technometrics 21 (2), 215-223, 1978.

    17. B.T. Polyak, A.B.Tsybakov, A family of asymptotically optimal methods for selecting the order of a projection

    estimator for a regression, Theory Probab. Appl., 37, No 3, pp 471-481, 1992.

    33

  • II.5.3 Aspects pratiques

    Au problme du choix du nombre de fonctions de base (c.--d. du degr, ou de j0) s'ajoute celui de la baseelle-mme. En particulier il pourra tre plus judicieux d'utiliser une base de fonctions non-priodiques si

    l'on sait que f est non-priodique, par exemple (ici x [0, 1]) 18 :

    uk(x) = cospikx, k = 0, 1, . . .

    vk(x) = xk, k = 0, 1, . . .

    w0(x) = 1, w1(x) = x, wk(x) = sinpikx, k = 2, 3, ..

    Mentionnons galement la possibilit d'utiliser les fonctions splines (polynmes par morceaux adquate-

    ment raccords). Nous renvoyons [15].

    Prenons un exemple : On s'intresse l'auence dans des magasins (rponse y) en fonction du tempsqu'il fait x (note combinant temprature et pluviosit). Le modle le plus simple est

    yi = 1 + 2xi + ei.

    Si les mesures sont prises des heures direntes de la journe, il sera trs important d'intgrer cela au

    modle, par exemple par l'intermdiaire d'une variable ti variant entre disons 9h et 19h :

    yi = 1 + 2xi + 3u0(ti) + + 3+kuk(ti) + ei, ti = (ti 9)/10.

    On a maintenant un modle de rgression habituel avec k + 3 rgresseurs (donnes longitudinales). Onaurait pu galement dcouper la journe en parties et introduire un rgresseu