Modèles de regression M2-MASS - François Kauffmann...Regressions Mod eles de regression M2-MASS...

44
Regressions Mod` eles de regression M2-MASS Francois.Kauff[email protected] Universit´ e de Caen Basse-Normandie 12 octobre 2013 Francois.Kauff[email protected] UCBN Regressions 12 octobre 2013 1 / 44

Transcript of Modèles de regression M2-MASS - François Kauffmann...Regressions Mod eles de regression M2-MASS...

  • Regressions

    Modèles de regression M2-MASS

    [email protected]

    Université de Caen Basse-Normandie

    12 octobre 2013

    [email protected] UCBN Regressions 12 octobre 2013 1 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Première partie I

    Modèles linéaires généralisés

    Modélisation probabiliste

    [email protected] UCBN Regressions 12 octobre 2013 2 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Chapitre

    Modélisation probabilisteFamilles exponentiellesPropriétésModèle linéaire généraliséDonnées AgrégéesVraisemblanceEstimation

    MinimisationDivergence

    [email protected] UCBN Regressions 12 octobre 2013 3 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Paragraphe

    Modélisation probabilisteFamilles exponentiellesPropriétésModèle linéaire généraliséDonnées AgrégéesVraisemblanceEstimation

    MinimisationDivergence

    [email protected] UCBN Regressions 12 octobre 2013 4 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Définition famille exponentielle

    Définition (Famille exponentielle)

    On dit que la famille de v.a. vectorielle dimensionnelle (yµ)µ∈Ωµ ∈ Ω ouvert de Mq,1(R) est une famille exponentielle si ilexiste

    φ > 0 est un paramètre d’échelle ou de dispersion

    θ() est une fonction de Ω→ Θ, θ() est appeléefonction de lien canonique.

    b(.), c(.) sont des fonctions b : Θ→ R etc :Mq,1(R)× R→ R

    p ∈ N∗ est un poidstelle que ∀µ ∈ Ω, la densité ou la loi de yµ s’écrive :

    fµ(y) = exp

    (y ′θ(µ)− b(θ(µ))

    φp + c(y , φ)

    )[email protected] UCBN Regressions 12 octobre 2013 5 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Famille Gaussienne

    Soit σ > 0 et (yµ)µ∈R une famille de va gaussienne réelle demoyenne µ et d’écart type σ alors la densité de yµ est

    fµ(y) =1√

    2πσ2e−

    (y−µ)2

    2σ2

    alors

    fµ(y) = exp

    (yµ− 12µ

    2

    σ2+

    (− y

    2

    2σ2− 1

    2log(2πσ2)

    ))

    = exp

    (yθ − b(θ)

    φ+ c(y , φ)

    )Il suffit de prendre θ(µ) = µ ∈ Θ = R, φ = σ2 > 0 etb(θ) = 12θ

    2

    [email protected] UCBN Regressions 12 octobre 2013 6 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Famille de Bernoulli

    Soit (yµ)µ∈]0,1[ une famille de v.a. à valeurs dans {0, 1} suivantune loi de Bernoulli de moyenne µ = Pr([yµ = 1]) ∈]0, 1[ alorsla loi de yµ est définie pour y ∈ {0, 1}.

    fµ(y) = Pr([yµ = y ]) = µy (1− µ)1−y

    ln(fµ(y)) = ylog(µ

    1− µ) + log(1− µ)

    =yθ − b(θ)

    φ+ c(y , φ)

    Il faut prendre θ(µ) = log( µ1−µ) ∈ Θ = R doncµ = e

    θ

    1+eθ∈]0, 1[, puis

    b(θ) = −log(1− µ) = −log(1− eθ1+eθ

    ) = ln(1 + eθ), enfinφ = 1.

    [email protected] UCBN Regressions 12 octobre 2013 7 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Famille binomialeSoit (yµ)µ∈]0,1[ une famille de v.a. suivant une loi binomialeB(n, µ), à valeurs dans {0, · · · , n}, alors la loi de yµ est définiepour y ∈ {0, · · · , n} :

    fµ(y) = Pr([yµ = y ]) =

    (ny

    )µy (1− µ)n−y

    alors

    ln(fµ(y)) = ylog(µ

    1− µ) + nlog(1− µ) + log(

    (ny

    ))

    =yθ − b(θ)

    φ+ c(y , φ)

    Il faut prendre θ(µ) = log( µ1−µ) ∈ Θ = R donc µ =eθ

    1+eθ, puis

    b(θ) = −nlog(1− µ) = −nlog(1− eθ1+eθ

    ) = nln(1 + eθ), enfinφ = 1.

    [email protected] UCBN Regressions 12 octobre 2013 8 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Famille de Poisson

    Soit (yµ)µ∈]0,+∞[ une famille de v.a de Poisson suivant une loide Poisson P(µ) de moyenne µ à valeurs dans N alors la loi deyµ est définie pour y ∈ N par

    fµ(y) = Pr([yµ = y ]) =µy

    y !exp(−µ)

    alors

    ln(fµ(y)) = yln(µ)− µ− ln(y !)

    =yθ − b(θ)

    φ+ c(y , φ)

    Il faut prendre θ(µ) = ln(µ), puis φ = 1, enfin b(θ) = µ = eθ.

    [email protected] UCBN Regressions 12 octobre 2013 9 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Loi multinomialeLa loi multinomiale modélise l’expérience consistant à répeter nfois indépendamment une épreuve de tirer une modalité parmik modalités possibles M = {1, · · · , k}. La variable aléatoire yicomptabilise le nombre de fois ou a été tiré la i-ème modalité.

    DéfinitionSoient n le nombre de répétitions, et (µ1, · · · , µk−1) ∈ [0, 1]k−1vérifiant

    ∑1≤i≤k−1 µi ≤ 1 les probabilités de tirer la i-ème

    modalité. Soit yi la v.a comptant le nombre de fois ou la i èmemodalité a été tirée. On pose y = (y1, · · · , yk−1, yk) avecyk = n− y1 · · · − yk−1, on dit que y suit une loi multinomiale àn tirages de paramètres µ noté M(n, µ)La loi de y pour ni ∈ [0, n], tel que

    ∑i=ki=1 ni = n est :

    Pr([y = (n1, · · · , nk)]) =n!

    n1! · · · nk !µn11 · · ·µ

    nkk

    en posant nk = n − (n1 + · · ·+ nk−1), de plus on a :

    E (y/n) = (µ1, · · · , µk)[email protected] UCBN Regressions 12 octobre 2013 10 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Loi multinomialeSoit (yµ)µ∈Ω une famille de v.a suivant une loi multinomiale àn tirages parmi k modalités {1, · · · , k} de paramètres

    µ = (µ1, · · · , µk−1) ∈ Ω = {µ ∈]0, 1[k−1,k−1∑i=1

    µi < 1}

    alors pour tout y ∈ {0, · · · , n}k ,∑i=k

    i=1 yi = n on a :

    fµ(y) = Pr([yµ = y ]) =m!

    y1! · · · yk !µy11 · · ·µ

    ykk

    ln(fµ(y)) =∑

    m∈Mym ln(µm) + ln(

    m!

    y1! · · · yk !)

    =∑

    1≤m≤k−1ym ln(µm) + ln(

    m!

    y1! · · · yk !)

    +(m −∑

    1≤m≤k−1ym)ln(µk )

    =∑

    1≤m≤k−1ym ln(

    µm

    µk) + mln(µk ) + ln(

    m!

    y1! · · · yk !)

    [email protected] UCBN Regressions 12 octobre 2013 11 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Famille multinomiale

    ∑1≤m≤k−1

    ym ln(µmµk

    ) + mln(µk) + ln(m!

    y1! · · · yk !) =

    y ′θ − b(θ)φ

    + c(y , φ)

    Il suffit de prendre φ = 1,

    θ =

    (ln(µ1µk

    ), · · · , ln(µk−1µk

    )

    )′a(θ) = −m ln(µk)

    = −m ln

    (1−

    ∑1≤m≤k−1 e

    θm

    1 +∑

    1≤m≤k−1 eθm

    )= m ln(1 +

    ∑1≤m≤k−1

    eθm)

    c(y , φ) = ln(m!

    y1! · · · yk !)

    [email protected] UCBN Regressions 12 octobre 2013 12 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Familles exponentielles

    Nom Loi par. canoniques disp.θ(µ) b(θ) φ

    Normale N (µ, σ) µ θ2/2 σ2Bernoulli B(1, µ) log( µ1−µ ) log(1 + exp(θ)) 1

    Binomiale B(n, µ) log( µ1−µ ) nlog(1 + exp(θ)) 1

    Poisson P(µ) log(µ) exp(θ) 1Multino. M(n, µ) log( µ1µref , .,

    µk−1µref

    ) −n ln(µref ) 1

    [email protected] UCBN Regressions 12 octobre 2013 13 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Paragraphe

    Modélisation probabilisteFamilles exponentiellesPropriétésModèle linéaire généraliséDonnées AgrégéesVraisemblanceEstimation

    MinimisationDivergence

    [email protected] UCBN Regressions 12 octobre 2013 14 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Relations entre a, b, E(y), cov(y)

    Proposition

    Soit (yθ)θ∈Θ une famille exponentielle de v.a. réelles deparamètre de dispertion φ de pondération p = 1 telle que∀θ ∈ Θ la loi de yθ soit :

    fθ(y) = exp

    (yθ − b(θ)

    φ+ c(y , φ)

    )

    alors ∀θ ∈◦Θ

    E (yθ) = b′(θ)

    Cov(yθ) = φb′′(θ)

    [email protected] UCBN Regressions 12 octobre 2013 15 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Indication de preuve

    ∀θ ∈◦Θ

    1 =

    ∫fθ(y)dy

    ∂1

    ∂θ=

    ∫∂

    ∂θfθ(y)dy

    =

    ∫(y − b′(θ))

    φexp

    (yθ − b(θ)

    φ+ c(y , φ)

    )dy

    =1

    φ

    ∫(y − b′(θ))fθ(y)dy

    0 =1

    φ(E (yθ)− b′(θ))

    [email protected] UCBN Regressions 12 octobre 2013 16 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Indication de preuve

    0 =

    ∫(y − b′(θ))fθ(y)dy

    ∂0

    ∂θ=

    ∫(−b′′(θ) + (y − b

    ′(θ))2

    φ)fθ(y)dy

    = −b′′(θ) + 1φ

    ∫(y − b′(θ))2fθ(y)dy

    = −b′′(θ) + cov(yθ)φ

    Détail dans Probabilités et statistiques, Dacunha, T1, famillesexponentielles.

    [email protected] UCBN Regressions 12 octobre 2013 17 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Moyenne et paramètre naturel

    Proposition

    Soit (yµ)µ∈Ω une famille exponentielle v.a. réelles de moyenneµ de paramètre de dispertion φ alors ∀µ ∈ Ω,∃θ(µ) ∈ Θ, telleque la loi de yµ soit :

    fµ(y) = exp

    (yθ(µ)− b(θ(µ))

    φ+ c(y , φ)

    )Le paramètre naturel θ(µ) ne dépend que de µ = E (yµ). On a :

    µ = b′(θ(µ))

    1 = b′′(θ(µ))θ′(µ) en dérivant

    θ′(µ) =φ

    cov(yµ)

    [email protected] UCBN Regressions 12 octobre 2013 18 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Paragraphe

    Modélisation probabilisteFamilles exponentiellesPropriétésModèle linéaire généraliséDonnées AgrégéesVraisemblanceEstimation

    MinimisationDivergence

    [email protected] UCBN Regressions 12 octobre 2013 19 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Modèle linéaire généralisé

    Définition (Modèle linéaire généralisé)

    aléas Soit (yµ)µ∈Ω une famille exponentielle de paramètre dedispertion Φ > 0

    fixes Soit un modèle additif ηβ(x) = z(x)′β,

    lien d’un difféomorphisme appelé lien g : R→ Ω liant leparamètres µ ∈ Ω et le modèle additif vérifiant :∃β ∈Mp,1(R),∀x ∈ X , ∃!µ ∈ R, g(µ) = z(x)′β

    [email protected] UCBN Regressions 12 octobre 2013 20 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Echantillon GLM

    Définition

    I Soit P = {1, · · · , n} l’échantillon étudiéI Soit X : P → X les variables explicatives

    Soit (yµ)µ∈Ω un modèle linéaire généralisé de fonction de lien get de codage z : X →Mp,1(R).On a observé pour chaque individu i ∈ P

    I xi la valeur de la variable explicative X pour l’individu i .

    I yi une réalisation de yµ(xi )I pi poids de l’observation i (nombre de répétition)

    On suppose de plus que (yµ(x1), · · · , yµ(x1)) sont indépendantes.

    [email protected] UCBN Regressions 12 octobre 2013 21 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Echantillon GLM

    DéfinitionAlors la vraisemblance de (yi , xi ) est

    fµ(xi ),φ(yi ) = exp

    (yiθ(µ(xi ))− b(θ(µ(xi )))

    φpi + c(yi , φ)

    )La vraisemblance de l’échantillon ((y1, x1), · · · , (yn, xn)) est

    Πi=ni=1fµ(xi ),φ(yi )

    De plus on a un lien entre yµ(x) et les valeurs des variablesexplicatives x ∈ X :∃β ∈Mp,1(R), ∀x ∈ X

    g(µ(x)) = g(E (yµ(x))) = z(x)′β

    [email protected] UCBN Regressions 12 octobre 2013 22 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Différents modèles

    Nom lien canonique YNormal g(µ) = µ YPoisson g(µ) = log(µ) YLogistique g(µ) = log( µ1−µ ) (Y = 1)

    Multinomial g(µ) =(

    log( µmµref ))m 6=mref

    (Y = 1, · · · ,Y = m)

    Mult. ordonné g(µ) = (g(µm))m∈S (Y ≤ 1, · · ·Y ≤ m)

    [email protected] UCBN Regressions 12 octobre 2013 23 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Les principales fonctions de liens

    On dit que la fonction de lien g(µ) est canonique quand elle estégale au paramètre canonique θ(µ), z = x ′β

    Loi θ(µ) µ = h(z) z=g(µ)Normale µ z µ

    ez

    1+ezlogit(µ) = log( µ

    1−µ )

    Bernoulli log( µ1−µ ) F (z) =

    ∫ z−∞

    e−t2/2√

    2µprobit(µ) = F−1(µ)

    1− exp(−exp(z)) gombit(µ) = log(−log(1− µ))Poisson log(µ) exp(z) log(µ)

    [email protected] UCBN Regressions 12 octobre 2013 24 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Paragraphe

    Modélisation probabilisteFamilles exponentiellesPropriétésModèle linéaire généraliséDonnées AgrégéesVraisemblanceEstimation

    MinimisationDivergence

    [email protected] UCBN Regressions 12 octobre 2013 25 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Données agrégées

    La matrice du plan factoriel X ∈Mn,p(R) peut être sous laforme d’un tableau ou chaque ligne représente des individus depoids égaux, on parle générallement de données brutes, ou bienchaque ligne est une moyenne d’individus d’un même groupe,chaque ligne est alors affecté du poids égal au nombred’individus composant ce groupes on parle alors de donnéesgroupées ou agrégées.

    [email protected] UCBN Regressions 12 octobre 2013 26 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Données brutes

    X ∈Mn,p(R)

    individu poids Y X 1 · · · X p1 p1 = 1 Y1 X

    11 · · · X

    p1

    ......

    ......

    ......

    i pi = 1 Yi X1i · · · X

    pi

    ......

    ......

    ......

    n pn = 1 Yn X1n · · · X

    pn

    [email protected] UCBN Regressions 12 octobre 2013 27 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Données agrégées

    X ∈Mn,p(R)

    Les Yi sont les moyennes par groupes des valeurs observées.

    groupe poids Y X 1 · · · X p1 p1 = n1 Y1 X

    11 · · · X

    p1

    ......

    ......

    ......

    i pi = ni Yi X1i · · · X

    pi

    ......

    ......

    ......

    n pn = nn Yn X1n · · · X

    pn

    Si toutes les variables explicatives sont qualitatives, on obtientun tableau de contingence à p indices.

    [email protected] UCBN Regressions 12 octobre 2013 28 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Paragraphe

    Modélisation probabilisteFamilles exponentiellesPropriétésModèle linéaire généraliséDonnées AgrégéesVraisemblanceEstimation

    MinimisationDivergence

    [email protected] UCBN Regressions 12 octobre 2013 29 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    VraisemblanceSoit yµ(x1), · · · , yµ(xn) un échantillon indépendant d’un modèlelinéaire généralisé de paramètre de dispersion connu φ defonction de lien g de paramètre inconnu β ∈Mp,1(R) noté(y1, · · · , yn) alors le logarithme de la vraisemblance del’échantillon

    l(β) = log(f (yµ(x1), · · · , yµ(xn)))= log(Π1≤i≤nfθ(µ(xi ))(yµ(xi )))

    =i=n∑i=1

    log(fθ(µ(xi ))(yµ(xi )))

    =i=n∑i=1

    yµ(xi )θ(µ(xi ))− b(θ(µ(xi )))φ

    pi + K

    =i=n∑i=1

    yµ(xi )θ(h(z(xi )′β))− b(θ(h(z(xi )′β)))

    φpi + K

    [email protected] UCBN Regressions 12 octobre 2013 30 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Scores

    Soit β̂ un estimateur au sens du maximum de vraisemblance del’échantillon précédent alors par définition on a

    ∀β ∈Mp,1(R), l(β) ≤ l(β̂) = maxβ∈Mp,1(R)l(β)

    Les conditions nécessaires du premier ordre sont

    ∂l

    ∂β(β) =

    i=n∑i=1

    [yµ(xi ) − b

    ′(θ(h(z(xi )′β)))

    ]θ′(h(z(xi )

    ′β))h′(z(xi )′β)z(xi )

    φpi

    =i=n∑i=1

    [yµ(xi ) − µi (β)]φ/pi

    cov(yµ(xi ))h′(z(xi )

    ′β)z(xi )′

    φ/pi

    =i=n∑i=1

    yµ(xi ) − µi (β)cov(yµ(xi ))

    dh

    dz(z(xi )

    ′β)z(xi )′ = 0

    [email protected] UCBN Regressions 12 octobre 2013 31 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Scores

    Avec les notations suivantes (échantillon indépendant), on a

    µi (β) = h(z(xi )′β)

    σ2i (β) = cov(yµ(xi ))

    Di (β) =dh

    dz(z(xi )

    ′β)

    le score s’écrit

    ∂l

    ∂β(β) =

    i=n∑i=1

    yi − µi (β)σ2i (β)

    Di (β)z(xi )′

    [email protected] UCBN Regressions 12 octobre 2013 32 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Scores écriture matricielle

    Avec les notations suivantes

    y = (yµ(x1), · · · , yµ(xn))′ ∈Mn,1(R)

    µ(β) = (µ1(β), · · · , µn(β))′ ∈Mn,1(R)Σ(β) = diag(σ2i (β)) = cov(y) ∈Mn,n(R)D(β) = diag(Di (β))

    W (β) = diag(D2i (β)

    σ2i (β))

    Soit X la matrice de design (X = Z (x) = (z(x1), · · · , z(xn))′ ),on a :

    ∂l

    ∂β(β) = (y − µ(β))′Σ(β)−1D(β)X

    [email protected] UCBN Regressions 12 octobre 2013 33 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Matrice d’information de Fisher

    Puisque les échantillons sont supposés indépendants, on a

    J(β) = E

    (∂l

    ∂β

    ′ ∂l

    ∂β

    )= X ′DΣ(β)−1Σ(β)Σ(β)−1DX ′

    = X ′DΣ(β)−1DX

    = X ′W (β)X

    [email protected] UCBN Regressions 12 octobre 2013 34 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Paragraphe

    Modélisation probabilisteFamilles exponentiellesPropriétésModèle linéaire généraliséDonnées AgrégéesVraisemblanceEstimation

    MinimisationDivergence

    [email protected] UCBN Regressions 12 octobre 2013 35 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Non-linéarité

    L’estimation des paramètres du modèle par la méthode dumaximum de vraisemblance se fait grâce à des méthodesnumériques de minimisation de fonctions de plusieurs variables(Newton-Raphson).

    convergence Dans certains cas les résultats peuvent être faux,l’algorithme n’a pas convergé.

    rapidité L’algorithme de minimisation peut convergerlentement, il faudra dans la période de test,limiter le nombre d’itération.

    non convergence on peut démontrer que dans le cas d’unerégression binomiale si les données sont séparéespar un hyperplan ( spécifité et sensitivité 100%),alors l’algorithme ne peut pas converger. On peutalors modifier quelques points.

    [email protected] UCBN Regressions 12 octobre 2013 36 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Exemple non convergenceOn considère le modèle logistique canonique :

    ∀x ∈ R, logit(µ(x)) = log(

    µ(x)

    1− µ(x)

    )= β1x

    On suppose que l’on a tiré quatre échantillons

    (y1 = 0, x1 = −20), (y2 = 0, x2 = −10), (y3 = 1, x3 = 10), (y4 = 1, x4 = 20)}

    Pr([yµ(−20) = 1]) =e−20β1

    1 + e−20β1

    Pr([yµ(−10) = 1]) =e−10β1

    1 + e−10β1

    Pr([yµ(+10) = 1]) =e10β1

    1 + e10β1

    Pr([yµ(+20) = 1]) =e20β1

    1 + e20β1

    Alors si β1 → +∞ les expressions à droite convergent vers les valeursobservées.

    [email protected] UCBN Regressions 12 octobre 2013 37 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Exemple non convergence

    On dit que les données du plan d’expérience sont séparées parun hyperplan

    ∀a ∈]−10, 10[,∀x ∈ {−20,−10, 10, 20}{

    x < a ⇒ yµ(x) = 0x > a ⇒ yµ(x) = 1

    En prenant a = 0, alors le modèle s’écrit :

    Pr([yµ(x) = 1]) =eβ1x

    1 + eβ1x

    Soit x 6= 0, en faisant tendre β1 → +∞ on obtient :

    limβ1→+∞

    Pr([yµ(x) = 1]) =

    {0 si x < 01 si x > 0

    [email protected] UCBN Regressions 12 octobre 2013 38 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Exemple non convergence

    La famille exponentielle de Bernoulli est caractérisée par

    Θ = ]0, 1[

    θ(µ) = log(µ

    1− µ)∀µ ∈ Θ

    b(θ) = ln(1 + eθ)

    φ = 1

    c(y , φ) = 0

    Le modèle est canonique, la fonction de lien est canonique on adonc

    g(µ) = θ(µ)

    h(z) = g−1(z) = θ−1(z)

    [email protected] UCBN Regressions 12 octobre 2013 39 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Exemple non convergenceSi l’on suppose que les quatres échantillons sont indépendantset de poids égaux pi = 1, la log-vraisemblance de l’échantillonest

    l(β1) =i=4∑i=1

    yµ(xi )θ(h(xiβ))− b(θ(h(xiβ)))φ

    pi

    =i=4∑i=1

    yµ(xi )xiβ − b(xiβ)φ

    pi

    =i=4∑i=1

    yµ(xi )xiβ1 − ln(1 + exiβ1)

    On a alors, puisque les données sont séparées

    limβ1→+∞

    l(β1) = 0

    [email protected] UCBN Regressions 12 octobre 2013 40 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Exemple non convergence

    Puisque la famille de Bernoulli est discrète, la vraisemblanced’un échantillon est toujours majorée par 1, doncmaxβ1∈Rl(β) ≤ ln(1) = 0 On en déduit que

    maxβ1∈Rl(β) = 0

    Le maximum de la vraisemblance n’est pas atteint en un pointdu domaine de définition, mais quand β1 diverge.

    [email protected] UCBN Regressions 12 octobre 2013 41 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Cas général de divergence

    Soit X =Mp,1(R) et (yµ(x))x∈X une famille exponentiellelogistique canonique. Soit yµ(x1), · · · , yµ(xn) un n échantillonindépendant. On note < ., . > le produit scalaire canonique deMp,1(R). On suppose que les données sont séparéesstrictement: c’est à dire qu’il existe m ∈ X et a ∈Mp,1(R)normé tel que

    ∀x ∈ {x1, · · · , xn}{

    yµ(x) = 0 ⇒ < a, x −m >< 0yµ(x) = 1 ⇒ < a, x −m >> 0

    Le modèle de régression logistique est :

    Pr([yµ(x) = 1]) =eβ0+x

    ′β

    1 + eβ0+x ′β

    [email protected] UCBN Regressions 12 octobre 2013 42 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Cas général de divergence

    En prenant

    β0 = −λ < a,m >β = λa

    alorsβ0 + x

    ′β = λ < a, x −m >

    et en faisant tendre λ vers +∞, on obtient :

    limλ→+∞

    Pr([yµ(x) = 1]) = limλ→+∞

    eβ0+x′β

    1 + eβ0+x ′β=

    {0 si yµ(x) = 01 si yµ(x) = 1

    Et le maximum de la log vraisemblance est atteint quand lesparamètres divergent. Ce problème se rencontre égalementpour les modèles binomiaux, multinomial et ordonnés

    [email protected] UCBN Regressions 12 octobre 2013 43 / 44

  • Regressions

    Modélisation

    Exponentielles

    Propriétés

    GLM

    Agrégation

    Vraisemblance

    Estimation

    Minimisation

    Divergence

    Remèdes

    Les données sont peu nombreuses (sparse) :

    I diminuer la dimension du plan d’expérience pour supprimerla séparation des données.

    I utiliser les séparateurs à vastes marges

    I utiliser l’analyse discriminante linéaire

    Les données sont nombreuses :

    I ajouter des perturbations à la matrice du plan d’expérienceafin de supprimer la séparation.

    I utiliser les méthodes précédentes.

    [email protected] UCBN Regressions 12 octobre 2013 44 / 44

    GLMModélisation probabilisteFamilles exponentiellesPropriétésModèle linéaire généraliséDonnées AgrégéesVraisemblanceEstimation