Modèles de regression M2-MASS - François Kauffmann...Regressions Mod eles de regression M2-MASS...
Transcript of Modèles de regression M2-MASS - François Kauffmann...Regressions Mod eles de regression M2-MASS...
-
Regressions
Modèles de regression M2-MASS
Université de Caen Basse-Normandie
12 octobre 2013
[email protected] UCBN Regressions 12 octobre 2013 1 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Première partie I
Modèles linéaires généralisés
Modélisation probabiliste
[email protected] UCBN Regressions 12 octobre 2013 2 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Chapitre
Modélisation probabilisteFamilles exponentiellesPropriétésModèle linéaire généraliséDonnées AgrégéesVraisemblanceEstimation
MinimisationDivergence
[email protected] UCBN Regressions 12 octobre 2013 3 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Paragraphe
Modélisation probabilisteFamilles exponentiellesPropriétésModèle linéaire généraliséDonnées AgrégéesVraisemblanceEstimation
MinimisationDivergence
[email protected] UCBN Regressions 12 octobre 2013 4 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Définition famille exponentielle
Définition (Famille exponentielle)
On dit que la famille de v.a. vectorielle dimensionnelle (yµ)µ∈Ωµ ∈ Ω ouvert de Mq,1(R) est une famille exponentielle si ilexiste
φ > 0 est un paramètre d’échelle ou de dispersion
θ() est une fonction de Ω→ Θ, θ() est appeléefonction de lien canonique.
b(.), c(.) sont des fonctions b : Θ→ R etc :Mq,1(R)× R→ R
p ∈ N∗ est un poidstelle que ∀µ ∈ Ω, la densité ou la loi de yµ s’écrive :
fµ(y) = exp
(y ′θ(µ)− b(θ(µ))
φp + c(y , φ)
)[email protected] UCBN Regressions 12 octobre 2013 5 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Famille Gaussienne
Soit σ > 0 et (yµ)µ∈R une famille de va gaussienne réelle demoyenne µ et d’écart type σ alors la densité de yµ est
fµ(y) =1√
2πσ2e−
(y−µ)2
2σ2
alors
fµ(y) = exp
(yµ− 12µ
2
σ2+
(− y
2
2σ2− 1
2log(2πσ2)
))
= exp
(yθ − b(θ)
φ+ c(y , φ)
)Il suffit de prendre θ(µ) = µ ∈ Θ = R, φ = σ2 > 0 etb(θ) = 12θ
2
[email protected] UCBN Regressions 12 octobre 2013 6 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Famille de Bernoulli
Soit (yµ)µ∈]0,1[ une famille de v.a. à valeurs dans {0, 1} suivantune loi de Bernoulli de moyenne µ = Pr([yµ = 1]) ∈]0, 1[ alorsla loi de yµ est définie pour y ∈ {0, 1}.
fµ(y) = Pr([yµ = y ]) = µy (1− µ)1−y
ln(fµ(y)) = ylog(µ
1− µ) + log(1− µ)
=yθ − b(θ)
φ+ c(y , φ)
Il faut prendre θ(µ) = log( µ1−µ) ∈ Θ = R doncµ = e
θ
1+eθ∈]0, 1[, puis
b(θ) = −log(1− µ) = −log(1− eθ1+eθ
) = ln(1 + eθ), enfinφ = 1.
[email protected] UCBN Regressions 12 octobre 2013 7 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Famille binomialeSoit (yµ)µ∈]0,1[ une famille de v.a. suivant une loi binomialeB(n, µ), à valeurs dans {0, · · · , n}, alors la loi de yµ est définiepour y ∈ {0, · · · , n} :
fµ(y) = Pr([yµ = y ]) =
(ny
)µy (1− µ)n−y
alors
ln(fµ(y)) = ylog(µ
1− µ) + nlog(1− µ) + log(
(ny
))
=yθ − b(θ)
φ+ c(y , φ)
Il faut prendre θ(µ) = log( µ1−µ) ∈ Θ = R donc µ =eθ
1+eθ, puis
b(θ) = −nlog(1− µ) = −nlog(1− eθ1+eθ
) = nln(1 + eθ), enfinφ = 1.
[email protected] UCBN Regressions 12 octobre 2013 8 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Famille de Poisson
Soit (yµ)µ∈]0,+∞[ une famille de v.a de Poisson suivant une loide Poisson P(µ) de moyenne µ à valeurs dans N alors la loi deyµ est définie pour y ∈ N par
fµ(y) = Pr([yµ = y ]) =µy
y !exp(−µ)
alors
ln(fµ(y)) = yln(µ)− µ− ln(y !)
=yθ − b(θ)
φ+ c(y , φ)
Il faut prendre θ(µ) = ln(µ), puis φ = 1, enfin b(θ) = µ = eθ.
[email protected] UCBN Regressions 12 octobre 2013 9 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Loi multinomialeLa loi multinomiale modélise l’expérience consistant à répeter nfois indépendamment une épreuve de tirer une modalité parmik modalités possibles M = {1, · · · , k}. La variable aléatoire yicomptabilise le nombre de fois ou a été tiré la i-ème modalité.
DéfinitionSoient n le nombre de répétitions, et (µ1, · · · , µk−1) ∈ [0, 1]k−1vérifiant
∑1≤i≤k−1 µi ≤ 1 les probabilités de tirer la i-ème
modalité. Soit yi la v.a comptant le nombre de fois ou la i èmemodalité a été tirée. On pose y = (y1, · · · , yk−1, yk) avecyk = n− y1 · · · − yk−1, on dit que y suit une loi multinomiale àn tirages de paramètres µ noté M(n, µ)La loi de y pour ni ∈ [0, n], tel que
∑i=ki=1 ni = n est :
Pr([y = (n1, · · · , nk)]) =n!
n1! · · · nk !µn11 · · ·µ
nkk
en posant nk = n − (n1 + · · ·+ nk−1), de plus on a :
E (y/n) = (µ1, · · · , µk)[email protected] UCBN Regressions 12 octobre 2013 10 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Loi multinomialeSoit (yµ)µ∈Ω une famille de v.a suivant une loi multinomiale àn tirages parmi k modalités {1, · · · , k} de paramètres
µ = (µ1, · · · , µk−1) ∈ Ω = {µ ∈]0, 1[k−1,k−1∑i=1
µi < 1}
alors pour tout y ∈ {0, · · · , n}k ,∑i=k
i=1 yi = n on a :
fµ(y) = Pr([yµ = y ]) =m!
y1! · · · yk !µy11 · · ·µ
ykk
ln(fµ(y)) =∑
m∈Mym ln(µm) + ln(
m!
y1! · · · yk !)
=∑
1≤m≤k−1ym ln(µm) + ln(
m!
y1! · · · yk !)
+(m −∑
1≤m≤k−1ym)ln(µk )
=∑
1≤m≤k−1ym ln(
µm
µk) + mln(µk ) + ln(
m!
y1! · · · yk !)
[email protected] UCBN Regressions 12 octobre 2013 11 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Famille multinomiale
∑1≤m≤k−1
ym ln(µmµk
) + mln(µk) + ln(m!
y1! · · · yk !) =
y ′θ − b(θ)φ
+ c(y , φ)
Il suffit de prendre φ = 1,
θ =
(ln(µ1µk
), · · · , ln(µk−1µk
)
)′a(θ) = −m ln(µk)
= −m ln
(1−
∑1≤m≤k−1 e
θm
1 +∑
1≤m≤k−1 eθm
)= m ln(1 +
∑1≤m≤k−1
eθm)
c(y , φ) = ln(m!
y1! · · · yk !)
[email protected] UCBN Regressions 12 octobre 2013 12 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Familles exponentielles
Nom Loi par. canoniques disp.θ(µ) b(θ) φ
Normale N (µ, σ) µ θ2/2 σ2Bernoulli B(1, µ) log( µ1−µ ) log(1 + exp(θ)) 1
Binomiale B(n, µ) log( µ1−µ ) nlog(1 + exp(θ)) 1
Poisson P(µ) log(µ) exp(θ) 1Multino. M(n, µ) log( µ1µref , .,
µk−1µref
) −n ln(µref ) 1
[email protected] UCBN Regressions 12 octobre 2013 13 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Paragraphe
Modélisation probabilisteFamilles exponentiellesPropriétésModèle linéaire généraliséDonnées AgrégéesVraisemblanceEstimation
MinimisationDivergence
[email protected] UCBN Regressions 12 octobre 2013 14 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Relations entre a, b, E(y), cov(y)
Proposition
Soit (yθ)θ∈Θ une famille exponentielle de v.a. réelles deparamètre de dispertion φ de pondération p = 1 telle que∀θ ∈ Θ la loi de yθ soit :
fθ(y) = exp
(yθ − b(θ)
φ+ c(y , φ)
)
alors ∀θ ∈◦Θ
E (yθ) = b′(θ)
Cov(yθ) = φb′′(θ)
[email protected] UCBN Regressions 12 octobre 2013 15 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Indication de preuve
∀θ ∈◦Θ
1 =
∫fθ(y)dy
∂1
∂θ=
∫∂
∂θfθ(y)dy
=
∫(y − b′(θ))
φexp
(yθ − b(θ)
φ+ c(y , φ)
)dy
=1
φ
∫(y − b′(θ))fθ(y)dy
0 =1
φ(E (yθ)− b′(θ))
[email protected] UCBN Regressions 12 octobre 2013 16 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Indication de preuve
0 =
∫(y − b′(θ))fθ(y)dy
∂0
∂θ=
∫(−b′′(θ) + (y − b
′(θ))2
φ)fθ(y)dy
= −b′′(θ) + 1φ
∫(y − b′(θ))2fθ(y)dy
= −b′′(θ) + cov(yθ)φ
Détail dans Probabilités et statistiques, Dacunha, T1, famillesexponentielles.
[email protected] UCBN Regressions 12 octobre 2013 17 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Moyenne et paramètre naturel
Proposition
Soit (yµ)µ∈Ω une famille exponentielle v.a. réelles de moyenneµ de paramètre de dispertion φ alors ∀µ ∈ Ω,∃θ(µ) ∈ Θ, telleque la loi de yµ soit :
fµ(y) = exp
(yθ(µ)− b(θ(µ))
φ+ c(y , φ)
)Le paramètre naturel θ(µ) ne dépend que de µ = E (yµ). On a :
µ = b′(θ(µ))
1 = b′′(θ(µ))θ′(µ) en dérivant
θ′(µ) =φ
cov(yµ)
[email protected] UCBN Regressions 12 octobre 2013 18 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Paragraphe
Modélisation probabilisteFamilles exponentiellesPropriétésModèle linéaire généraliséDonnées AgrégéesVraisemblanceEstimation
MinimisationDivergence
[email protected] UCBN Regressions 12 octobre 2013 19 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Modèle linéaire généralisé
Définition (Modèle linéaire généralisé)
aléas Soit (yµ)µ∈Ω une famille exponentielle de paramètre dedispertion Φ > 0
fixes Soit un modèle additif ηβ(x) = z(x)′β,
lien d’un difféomorphisme appelé lien g : R→ Ω liant leparamètres µ ∈ Ω et le modèle additif vérifiant :∃β ∈Mp,1(R),∀x ∈ X , ∃!µ ∈ R, g(µ) = z(x)′β
[email protected] UCBN Regressions 12 octobre 2013 20 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Echantillon GLM
Définition
I Soit P = {1, · · · , n} l’échantillon étudiéI Soit X : P → X les variables explicatives
Soit (yµ)µ∈Ω un modèle linéaire généralisé de fonction de lien get de codage z : X →Mp,1(R).On a observé pour chaque individu i ∈ P
I xi la valeur de la variable explicative X pour l’individu i .
I yi une réalisation de yµ(xi )I pi poids de l’observation i (nombre de répétition)
On suppose de plus que (yµ(x1), · · · , yµ(x1)) sont indépendantes.
[email protected] UCBN Regressions 12 octobre 2013 21 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Echantillon GLM
DéfinitionAlors la vraisemblance de (yi , xi ) est
fµ(xi ),φ(yi ) = exp
(yiθ(µ(xi ))− b(θ(µ(xi )))
φpi + c(yi , φ)
)La vraisemblance de l’échantillon ((y1, x1), · · · , (yn, xn)) est
Πi=ni=1fµ(xi ),φ(yi )
De plus on a un lien entre yµ(x) et les valeurs des variablesexplicatives x ∈ X :∃β ∈Mp,1(R), ∀x ∈ X
g(µ(x)) = g(E (yµ(x))) = z(x)′β
[email protected] UCBN Regressions 12 octobre 2013 22 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Différents modèles
Nom lien canonique YNormal g(µ) = µ YPoisson g(µ) = log(µ) YLogistique g(µ) = log( µ1−µ ) (Y = 1)
Multinomial g(µ) =(
log( µmµref ))m 6=mref
(Y = 1, · · · ,Y = m)
Mult. ordonné g(µ) = (g(µm))m∈S (Y ≤ 1, · · ·Y ≤ m)
[email protected] UCBN Regressions 12 octobre 2013 23 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Les principales fonctions de liens
On dit que la fonction de lien g(µ) est canonique quand elle estégale au paramètre canonique θ(µ), z = x ′β
Loi θ(µ) µ = h(z) z=g(µ)Normale µ z µ
ez
1+ezlogit(µ) = log( µ
1−µ )
Bernoulli log( µ1−µ ) F (z) =
∫ z−∞
e−t2/2√
2µprobit(µ) = F−1(µ)
1− exp(−exp(z)) gombit(µ) = log(−log(1− µ))Poisson log(µ) exp(z) log(µ)
[email protected] UCBN Regressions 12 octobre 2013 24 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Paragraphe
Modélisation probabilisteFamilles exponentiellesPropriétésModèle linéaire généraliséDonnées AgrégéesVraisemblanceEstimation
MinimisationDivergence
[email protected] UCBN Regressions 12 octobre 2013 25 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Données agrégées
La matrice du plan factoriel X ∈Mn,p(R) peut être sous laforme d’un tableau ou chaque ligne représente des individus depoids égaux, on parle générallement de données brutes, ou bienchaque ligne est une moyenne d’individus d’un même groupe,chaque ligne est alors affecté du poids égal au nombred’individus composant ce groupes on parle alors de donnéesgroupées ou agrégées.
[email protected] UCBN Regressions 12 octobre 2013 26 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Données brutes
X ∈Mn,p(R)
individu poids Y X 1 · · · X p1 p1 = 1 Y1 X
11 · · · X
p1
......
......
......
i pi = 1 Yi X1i · · · X
pi
......
......
......
n pn = 1 Yn X1n · · · X
pn
[email protected] UCBN Regressions 12 octobre 2013 27 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Données agrégées
X ∈Mn,p(R)
Les Yi sont les moyennes par groupes des valeurs observées.
groupe poids Y X 1 · · · X p1 p1 = n1 Y1 X
11 · · · X
p1
......
......
......
i pi = ni Yi X1i · · · X
pi
......
......
......
n pn = nn Yn X1n · · · X
pn
Si toutes les variables explicatives sont qualitatives, on obtientun tableau de contingence à p indices.
[email protected] UCBN Regressions 12 octobre 2013 28 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Paragraphe
Modélisation probabilisteFamilles exponentiellesPropriétésModèle linéaire généraliséDonnées AgrégéesVraisemblanceEstimation
MinimisationDivergence
[email protected] UCBN Regressions 12 octobre 2013 29 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
VraisemblanceSoit yµ(x1), · · · , yµ(xn) un échantillon indépendant d’un modèlelinéaire généralisé de paramètre de dispersion connu φ defonction de lien g de paramètre inconnu β ∈Mp,1(R) noté(y1, · · · , yn) alors le logarithme de la vraisemblance del’échantillon
l(β) = log(f (yµ(x1), · · · , yµ(xn)))= log(Π1≤i≤nfθ(µ(xi ))(yµ(xi )))
=i=n∑i=1
log(fθ(µ(xi ))(yµ(xi )))
=i=n∑i=1
yµ(xi )θ(µ(xi ))− b(θ(µ(xi )))φ
pi + K
=i=n∑i=1
yµ(xi )θ(h(z(xi )′β))− b(θ(h(z(xi )′β)))
φpi + K
[email protected] UCBN Regressions 12 octobre 2013 30 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Scores
Soit β̂ un estimateur au sens du maximum de vraisemblance del’échantillon précédent alors par définition on a
∀β ∈Mp,1(R), l(β) ≤ l(β̂) = maxβ∈Mp,1(R)l(β)
Les conditions nécessaires du premier ordre sont
∂l
∂β(β) =
i=n∑i=1
[yµ(xi ) − b
′(θ(h(z(xi )′β)))
]θ′(h(z(xi )
′β))h′(z(xi )′β)z(xi )
′
φpi
=i=n∑i=1
[yµ(xi ) − µi (β)]φ/pi
cov(yµ(xi ))h′(z(xi )
′β)z(xi )′
φ/pi
=i=n∑i=1
yµ(xi ) − µi (β)cov(yµ(xi ))
dh
dz(z(xi )
′β)z(xi )′ = 0
[email protected] UCBN Regressions 12 octobre 2013 31 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Scores
Avec les notations suivantes (échantillon indépendant), on a
µi (β) = h(z(xi )′β)
σ2i (β) = cov(yµ(xi ))
Di (β) =dh
dz(z(xi )
′β)
le score s’écrit
∂l
∂β(β) =
i=n∑i=1
yi − µi (β)σ2i (β)
Di (β)z(xi )′
[email protected] UCBN Regressions 12 octobre 2013 32 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Scores écriture matricielle
Avec les notations suivantes
y = (yµ(x1), · · · , yµ(xn))′ ∈Mn,1(R)
µ(β) = (µ1(β), · · · , µn(β))′ ∈Mn,1(R)Σ(β) = diag(σ2i (β)) = cov(y) ∈Mn,n(R)D(β) = diag(Di (β))
W (β) = diag(D2i (β)
σ2i (β))
Soit X la matrice de design (X = Z (x) = (z(x1), · · · , z(xn))′ ),on a :
∂l
∂β(β) = (y − µ(β))′Σ(β)−1D(β)X
[email protected] UCBN Regressions 12 octobre 2013 33 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Matrice d’information de Fisher
Puisque les échantillons sont supposés indépendants, on a
J(β) = E
(∂l
∂β
′ ∂l
∂β
)= X ′DΣ(β)−1Σ(β)Σ(β)−1DX ′
= X ′DΣ(β)−1DX
= X ′W (β)X
[email protected] UCBN Regressions 12 octobre 2013 34 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Paragraphe
Modélisation probabilisteFamilles exponentiellesPropriétésModèle linéaire généraliséDonnées AgrégéesVraisemblanceEstimation
MinimisationDivergence
[email protected] UCBN Regressions 12 octobre 2013 35 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Non-linéarité
L’estimation des paramètres du modèle par la méthode dumaximum de vraisemblance se fait grâce à des méthodesnumériques de minimisation de fonctions de plusieurs variables(Newton-Raphson).
convergence Dans certains cas les résultats peuvent être faux,l’algorithme n’a pas convergé.
rapidité L’algorithme de minimisation peut convergerlentement, il faudra dans la période de test,limiter le nombre d’itération.
non convergence on peut démontrer que dans le cas d’unerégression binomiale si les données sont séparéespar un hyperplan ( spécifité et sensitivité 100%),alors l’algorithme ne peut pas converger. On peutalors modifier quelques points.
[email protected] UCBN Regressions 12 octobre 2013 36 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Exemple non convergenceOn considère le modèle logistique canonique :
∀x ∈ R, logit(µ(x)) = log(
µ(x)
1− µ(x)
)= β1x
On suppose que l’on a tiré quatre échantillons
(y1 = 0, x1 = −20), (y2 = 0, x2 = −10), (y3 = 1, x3 = 10), (y4 = 1, x4 = 20)}
Pr([yµ(−20) = 1]) =e−20β1
1 + e−20β1
Pr([yµ(−10) = 1]) =e−10β1
1 + e−10β1
Pr([yµ(+10) = 1]) =e10β1
1 + e10β1
Pr([yµ(+20) = 1]) =e20β1
1 + e20β1
Alors si β1 → +∞ les expressions à droite convergent vers les valeursobservées.
[email protected] UCBN Regressions 12 octobre 2013 37 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Exemple non convergence
On dit que les données du plan d’expérience sont séparées parun hyperplan
∀a ∈]−10, 10[,∀x ∈ {−20,−10, 10, 20}{
x < a ⇒ yµ(x) = 0x > a ⇒ yµ(x) = 1
En prenant a = 0, alors le modèle s’écrit :
Pr([yµ(x) = 1]) =eβ1x
1 + eβ1x
Soit x 6= 0, en faisant tendre β1 → +∞ on obtient :
limβ1→+∞
Pr([yµ(x) = 1]) =
{0 si x < 01 si x > 0
[email protected] UCBN Regressions 12 octobre 2013 38 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Exemple non convergence
La famille exponentielle de Bernoulli est caractérisée par
Θ = ]0, 1[
θ(µ) = log(µ
1− µ)∀µ ∈ Θ
b(θ) = ln(1 + eθ)
φ = 1
c(y , φ) = 0
Le modèle est canonique, la fonction de lien est canonique on adonc
g(µ) = θ(µ)
h(z) = g−1(z) = θ−1(z)
[email protected] UCBN Regressions 12 octobre 2013 39 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Exemple non convergenceSi l’on suppose que les quatres échantillons sont indépendantset de poids égaux pi = 1, la log-vraisemblance de l’échantillonest
l(β1) =i=4∑i=1
yµ(xi )θ(h(xiβ))− b(θ(h(xiβ)))φ
pi
=i=4∑i=1
yµ(xi )xiβ − b(xiβ)φ
pi
=i=4∑i=1
yµ(xi )xiβ1 − ln(1 + exiβ1)
On a alors, puisque les données sont séparées
limβ1→+∞
l(β1) = 0
[email protected] UCBN Regressions 12 octobre 2013 40 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Exemple non convergence
Puisque la famille de Bernoulli est discrète, la vraisemblanced’un échantillon est toujours majorée par 1, doncmaxβ1∈Rl(β) ≤ ln(1) = 0 On en déduit que
maxβ1∈Rl(β) = 0
Le maximum de la vraisemblance n’est pas atteint en un pointdu domaine de définition, mais quand β1 diverge.
[email protected] UCBN Regressions 12 octobre 2013 41 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Cas général de divergence
Soit X =Mp,1(R) et (yµ(x))x∈X une famille exponentiellelogistique canonique. Soit yµ(x1), · · · , yµ(xn) un n échantillonindépendant. On note < ., . > le produit scalaire canonique deMp,1(R). On suppose que les données sont séparéesstrictement: c’est à dire qu’il existe m ∈ X et a ∈Mp,1(R)normé tel que
∀x ∈ {x1, · · · , xn}{
yµ(x) = 0 ⇒ < a, x −m >< 0yµ(x) = 1 ⇒ < a, x −m >> 0
Le modèle de régression logistique est :
Pr([yµ(x) = 1]) =eβ0+x
′β
1 + eβ0+x ′β
[email protected] UCBN Regressions 12 octobre 2013 42 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Cas général de divergence
En prenant
β0 = −λ < a,m >β = λa
alorsβ0 + x
′β = λ < a, x −m >
et en faisant tendre λ vers +∞, on obtient :
limλ→+∞
Pr([yµ(x) = 1]) = limλ→+∞
eβ0+x′β
1 + eβ0+x ′β=
{0 si yµ(x) = 01 si yµ(x) = 1
Et le maximum de la log vraisemblance est atteint quand lesparamètres divergent. Ce problème se rencontre égalementpour les modèles binomiaux, multinomial et ordonnés
[email protected] UCBN Regressions 12 octobre 2013 43 / 44
-
Regressions
Modélisation
Exponentielles
Propriétés
GLM
Agrégation
Vraisemblance
Estimation
Minimisation
Divergence
Remèdes
Les données sont peu nombreuses (sparse) :
I diminuer la dimension du plan d’expérience pour supprimerla séparation des données.
I utiliser les séparateurs à vastes marges
I utiliser l’analyse discriminante linéaire
Les données sont nombreuses :
I ajouter des perturbations à la matrice du plan d’expérienceafin de supprimer la séparation.
I utiliser les méthodes précédentes.
[email protected] UCBN Regressions 12 octobre 2013 44 / 44
GLMModélisation probabilisteFamilles exponentiellesPropriétésModèle linéaire généraliséDonnées AgrégéesVraisemblanceEstimation