Modèles de regression M2-MASS - François Kauffmann...Regressions Mod eles de regression M2-MASS...

Regressions

Modèles de regression M2-MASS

[email protected]

Université de Caen Basse-Normandie

12 octobre 2013

[email protected] UCBN Regressions 12 octobre 2013 1 / 44

Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Première partie I

Modèles linéaires généralisés

Modélisation probabiliste


Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Chapitre

Modélisation probabilisteFamilles exponentiellesPropriétésModèle linéaire généraliséDonnées AgrégéesVraisemblanceEstimation

MinimisationDivergence


Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Paragraphe




Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Définition famille exponentielle

Définition (Famille exponentielle)

On dit que la famille de v.a. vectorielle dimensionnelle (yµ)µ∈Ωµ ∈ Ω ouvert de Mq,1(R) est une famille exponentielle si ilexiste

φ > 0 est un paramètre d’échelle ou de dispersion

θ() est une fonction de Ω→ Θ, θ() est appeléefonction de lien canonique.

b(.), c(.) sont des fonctions b : Θ→ R etc :Mq,1(R)× R→ R

p ∈ N∗ est un poidstelle que ∀µ ∈ Ω, la densité ou la loi de yµ s’écrive :

fµ(y) = exp

(y ′θ(µ)− b(θ(µ))

φp + c(y , φ)

)[email protected] UCBN Regressions 12 octobre 2013 5 / 44

Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Famille Gaussienne

Soit σ > 0 et (yµ)µ∈R une famille de va gaussienne réelle demoyenne µ et d’écart type σ alors la densité de yµ est

fµ(y) =1√

2πσ2e−

(y−µ)2

2σ2

alors

fµ(y) = exp

(yµ− 12µ

2

σ2+

(− y

2

2σ2− 1

2log(2πσ2)

))

= exp

(yθ − b(θ)

φ+ c(y , φ)

)Il suffit de prendre θ(µ) = µ ∈ Θ = R, φ = σ2 > 0 etb(θ) = 12θ

2


Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Famille de Bernoulli

Soit (yµ)µ∈]0,1[ une famille de v.a. à valeurs dans {0, 1} suivantune loi de Bernoulli de moyenne µ = Pr([yµ = 1]) ∈]0, 1[ alorsla loi de yµ est définie pour y ∈ {0, 1}.

fµ(y) = Pr([yµ = y ]) = µy (1− µ)1−y

ln(fµ(y)) = ylog(µ

1− µ) + log(1− µ)

=yθ − b(θ)

φ+ c(y , φ)

Il faut prendre θ(µ) = log( µ1−µ) ∈ Θ = R doncµ = e

θ

1+eθ∈]0, 1[, puis

b(θ) = −log(1− µ) = −log(1− eθ1+eθ

) = ln(1 + eθ), enfinφ = 1.


Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Famille binomialeSoit (yµ)µ∈]0,1[ une famille de v.a. suivant une loi binomialeB(n, µ), à valeurs dans {0, · · · , n}, alors la loi de yµ est définiepour y ∈ {0, · · · , n} :

fµ(y) = Pr([yµ = y ]) =

(ny

)µy (1− µ)n−y

alors

ln(fµ(y)) = ylog(µ

1− µ) + nlog(1− µ) + log(

(ny

))

=yθ − b(θ)

φ+ c(y , φ)

Il faut prendre θ(µ) = log( µ1−µ) ∈ Θ = R donc µ =eθ

1+eθ, puis

b(θ) = −nlog(1− µ) = −nlog(1− eθ1+eθ

) = nln(1 + eθ), enfinφ = 1.


Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Famille de Poisson

Soit (yµ)µ∈]0,+∞[ une famille de v.a de Poisson suivant une loide Poisson P(µ) de moyenne µ à valeurs dans N alors la loi deyµ est définie pour y ∈ N par

fµ(y) = Pr([yµ = y ]) =µy

y !exp(−µ)

alors

ln(fµ(y)) = yln(µ)− µ− ln(y !)

=yθ − b(θ)

φ+ c(y , φ)

Il faut prendre θ(µ) = ln(µ), puis φ = 1, enfin b(θ) = µ = eθ.


Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Loi multinomialeLa loi multinomiale modélise l’expérience consistant à répeter nfois indépendamment une épreuve de tirer une modalité parmik modalités possibles M = {1, · · · , k}. La variable aléatoire yicomptabilise le nombre de fois ou a été tiré la i-ème modalité.

DéfinitionSoient n le nombre de répétitions, et (µ1, · · · , µk−1) ∈ [0, 1]k−1vérifiant

∑1≤i≤k−1 µi ≤ 1 les probabilités de tirer la i-ème

modalité. Soit yi la v.a comptant le nombre de fois ou la i èmemodalité a été tirée. On pose y = (y1, · · · , yk−1, yk) avecyk = n− y1 · · · − yk−1, on dit que y suit une loi multinomiale àn tirages de paramètres µ noté M(n, µ)La loi de y pour ni ∈ [0, n], tel que

∑i=ki=1 ni = n est :

Pr([y = (n1, · · · , nk)]) =n!

n1! · · · nk !µn11 · · ·µ

nkk

en posant nk = n − (n1 + · · ·+ nk−1), de plus on a :

E (y/n) = (µ1, · · · , µk)[email protected] UCBN Regressions 12 octobre 2013 10 / 44

Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Loi multinomialeSoit (yµ)µ∈Ω une famille de v.a suivant une loi multinomiale àn tirages parmi k modalités {1, · · · , k} de paramètres

µ = (µ1, · · · , µk−1) ∈ Ω = {µ ∈]0, 1[k−1,k−1∑i=1

µi < 1}

alors pour tout y ∈ {0, · · · , n}k ,∑i=k

i=1 yi = n on a :

fµ(y) = Pr([yµ = y ]) =m!

y1! · · · yk !µy11 · · ·µ

ykk

ln(fµ(y)) =∑

m∈Mym ln(µm) + ln(

m!

y1! · · · yk !)

=∑

1≤m≤k−1ym ln(µm) + ln(

m!

y1! · · · yk !)

+(m −∑

1≤m≤k−1ym)ln(µk )

=∑

1≤m≤k−1ym ln(

µm

µk) + mln(µk ) + ln(

m!

y1! · · · yk !)


Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Famille multinomiale

∑1≤m≤k−1

ym ln(µmµk

) + mln(µk) + ln(m!

y1! · · · yk !) =

y ′θ − b(θ)φ

+ c(y , φ)

Il suffit de prendre φ = 1,

θ =

(ln(µ1µk

), · · · , ln(µk−1µk

)

)′a(θ) = −m ln(µk)

= −m ln

(1−

∑1≤m≤k−1 e

θm

1 +∑

1≤m≤k−1 eθm

)= m ln(1 +

∑1≤m≤k−1

eθm)

c(y , φ) = ln(m!

y1! · · · yk !)


Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Familles exponentielles

Nom Loi par. canoniques disp.θ(µ) b(θ) φ

Normale N (µ, σ) µ θ2/2 σ2Bernoulli B(1, µ) log( µ1−µ ) log(1 + exp(θ)) 1

Binomiale B(n, µ) log( µ1−µ ) nlog(1 + exp(θ)) 1

Poisson P(µ) log(µ) exp(θ) 1Multino. M(n, µ) log( µ1µref , .,

µk−1µref

) −n ln(µref ) 1


Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Paragraphe




Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Relations entre a, b, E(y), cov(y)

Proposition

Soit (yθ)θ∈Θ une famille exponentielle de v.a. réelles deparamètre de dispertion φ de pondération p = 1 telle que∀θ ∈ Θ la loi de yθ soit :

fθ(y) = exp

(yθ − b(θ)

φ+ c(y , φ)

)

alors ∀θ ∈◦Θ

E (yθ) = b′(θ)

Cov(yθ) = φb′′(θ)


Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Indication de preuve

∀θ ∈◦Θ

1 =

∫fθ(y)dy

∂1

∂θ=

∫∂

∂θfθ(y)dy

=

∫(y − b′(θ))

φexp

(yθ − b(θ)

φ+ c(y , φ)

)dy

=1

φ

∫(y − b′(θ))fθ(y)dy

0 =1

φ(E (yθ)− b′(θ))


Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Indication de preuve

0 =

∫(y − b′(θ))fθ(y)dy

∂0

∂θ=

∫(−b′′(θ) + (y − b

′(θ))2

φ)fθ(y)dy

= −b′′(θ) + 1φ

∫(y − b′(θ))2fθ(y)dy

= −b′′(θ) + cov(yθ)φ

Détail dans Probabilités et statistiques, Dacunha, T1, famillesexponentielles.


Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Moyenne et paramètre naturel

Proposition

Soit (yµ)µ∈Ω une famille exponentielle v.a. réelles de moyenneµ de paramètre de dispertion φ alors ∀µ ∈ Ω,∃θ(µ) ∈ Θ, telleque la loi de yµ soit :

fµ(y) = exp

(yθ(µ)− b(θ(µ))

φ+ c(y , φ)

)Le paramètre naturel θ(µ) ne dépend que de µ = E (yµ). On a :

µ = b′(θ(µ))

1 = b′′(θ(µ))θ′(µ) en dérivant

θ′(µ) =φ

cov(yµ)


Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Paragraphe




Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Modèle linéaire généralisé

Définition (Modèle linéaire généralisé)

aléas Soit (yµ)µ∈Ω une famille exponentielle de paramètre dedispertion Φ > 0

fixes Soit un modèle additif ηβ(x) = z(x)′β,

lien d’un difféomorphisme appelé lien g : R→ Ω liant leparamètres µ ∈ Ω et le modèle additif vérifiant :∃β ∈Mp,1(R),∀x ∈ X , ∃!µ ∈ R, g(µ) = z(x)′β


Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Echantillon GLM

Définition

I Soit P = {1, · · · , n} l’échantillon étudiéI Soit X : P → X les variables explicatives

Soit (yµ)µ∈Ω un modèle linéaire généralisé de fonction de lien get de codage z : X →Mp,1(R).On a observé pour chaque individu i ∈ P

I xi la valeur de la variable explicative X pour l’individu i .

I yi une réalisation de yµ(xi )I pi poids de l’observation i (nombre de répétition)

On suppose de plus que (yµ(x1), · · · , yµ(x1)) sont indépendantes.


Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Echantillon GLM

DéfinitionAlors la vraisemblance de (yi , xi ) est

fµ(xi ),φ(yi ) = exp

(yiθ(µ(xi ))− b(θ(µ(xi )))

φpi + c(yi , φ)

)La vraisemblance de l’échantillon ((y1, x1), · · · , (yn, xn)) est

Πi=ni=1fµ(xi ),φ(yi )

De plus on a un lien entre yµ(x) et les valeurs des variablesexplicatives x ∈ X :∃β ∈Mp,1(R), ∀x ∈ X

g(µ(x)) = g(E (yµ(x))) = z(x)′β


Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Différents modèles

Nom lien canonique YNormal g(µ) = µ YPoisson g(µ) = log(µ) YLogistique g(µ) = log( µ1−µ ) (Y = 1)

Multinomial g(µ) =(

log( µmµref ))m 6=mref

(Y = 1, · · · ,Y = m)

Mult. ordonné g(µ) = (g(µm))m∈S (Y ≤ 1, · · ·Y ≤ m)


Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Les principales fonctions de liens

On dit que la fonction de lien g(µ) est canonique quand elle estégale au paramètre canonique θ(µ), z = x ′β

Loi θ(µ) µ = h(z) z=g(µ)Normale µ z µ

ez

1+ezlogit(µ) = log( µ

1−µ )

Bernoulli log( µ1−µ ) F (z) =

∫ z−∞

e−t2/2√

2µprobit(µ) = F−1(µ)

1− exp(−exp(z)) gombit(µ) = log(−log(1− µ))Poisson log(µ) exp(z) log(µ)


Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Paragraphe




Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Données agrégées

La matrice du plan factoriel X ∈Mn,p(R) peut être sous laforme d’un tableau ou chaque ligne représente des individus depoids égaux, on parle générallement de données brutes, ou bienchaque ligne est une moyenne d’individus d’un même groupe,chaque ligne est alors affecté du poids égal au nombred’individus composant ce groupes on parle alors de donnéesgroupées ou agrégées.


Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Données brutes

X ∈Mn,p(R)

individu poids Y X 1 · · · X p1 p1 = 1 Y1 X

11 · · · X

p1

......

......

......

i pi = 1 Yi X1i · · · X

pi

......

......

......

n pn = 1 Yn X1n · · · X

pn


Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Données agrégées

X ∈Mn,p(R)

Les Yi sont les moyennes par groupes des valeurs observées.

groupe poids Y X 1 · · · X p1 p1 = n1 Y1 X

11 · · · X

p1

......

......

......

i pi = ni Yi X1i · · · X

pi

......

......

......

n pn = nn Yn X1n · · · X

pn

Si toutes les variables explicatives sont qualitatives, on obtientun tableau de contingence à p indices.


Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Paragraphe




Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

VraisemblanceSoit yµ(x1), · · · , yµ(xn) un échantillon indépendant d’un modèlelinéaire généralisé de paramètre de dispersion connu φ defonction de lien g de paramètre inconnu β ∈Mp,1(R) noté(y1, · · · , yn) alors le logarithme de la vraisemblance del’échantillon

l(β) = log(f (yµ(x1), · · · , yµ(xn)))= log(Π1≤i≤nfθ(µ(xi ))(yµ(xi )))

=i=n∑i=1

log(fθ(µ(xi ))(yµ(xi )))

=i=n∑i=1

yµ(xi )θ(µ(xi ))− b(θ(µ(xi )))φ

pi + K

=i=n∑i=1

yµ(xi )θ(h(z(xi )′β))− b(θ(h(z(xi )′β)))

φpi + K


Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Scores

Soit β̂ un estimateur au sens du maximum de vraisemblance del’échantillon précédent alors par définition on a

∀β ∈Mp,1(R), l(β) ≤ l(β̂) = maxβ∈Mp,1(R)l(β)

Les conditions nécessaires du premier ordre sont

∂l

∂β(β) =

i=n∑i=1

[yµ(xi ) − b

′(θ(h(z(xi )′β)))

]θ′(h(z(xi )

′β))h′(z(xi )′β)z(xi )

′

φpi

=i=n∑i=1

[yµ(xi ) − µi (β)]φ/pi

cov(yµ(xi ))h′(z(xi )

′β)z(xi )′

φ/pi

=i=n∑i=1

yµ(xi ) − µi (β)cov(yµ(xi ))

dh

dz(z(xi )

′β)z(xi )′ = 0


Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Scores

Avec les notations suivantes (échantillon indépendant), on a

µi (β) = h(z(xi )′β)

σ2i (β) = cov(yµ(xi ))

Di (β) =dh

dz(z(xi )

′β)

le score s’écrit

∂l

∂β(β) =

i=n∑i=1

yi − µi (β)σ2i (β)

Di (β)z(xi )′


Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Scores écriture matricielle

Avec les notations suivantes

y = (yµ(x1), · · · , yµ(xn))′ ∈Mn,1(R)

µ(β) = (µ1(β), · · · , µn(β))′ ∈Mn,1(R)Σ(β) = diag(σ2i (β)) = cov(y) ∈Mn,n(R)D(β) = diag(Di (β))

W (β) = diag(D2i (β)

σ2i (β))

Soit X la matrice de design (X = Z (x) = (z(x1), · · · , z(xn))′ ),on a :

∂l

∂β(β) = (y − µ(β))′Σ(β)−1D(β)X


Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Matrice d’information de Fisher

Puisque les échantillons sont supposés indépendants, on a

J(β) = E

(∂l

∂β

′ ∂l

∂β

)= X ′DΣ(β)−1Σ(β)Σ(β)−1DX ′

= X ′DΣ(β)−1DX

= X ′W (β)X


Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Paragraphe




Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Non-linéarité

L’estimation des paramètres du modèle par la méthode dumaximum de vraisemblance se fait grâce à des méthodesnumériques de minimisation de fonctions de plusieurs variables(Newton-Raphson).

convergence Dans certains cas les résultats peuvent être faux,l’algorithme n’a pas convergé.

rapidité L’algorithme de minimisation peut convergerlentement, il faudra dans la période de test,limiter le nombre d’itération.

non convergence on peut démontrer que dans le cas d’unerégression binomiale si les données sont séparéespar un hyperplan ( spécifité et sensitivité 100%),alors l’algorithme ne peut pas converger. On peutalors modifier quelques points.


Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Exemple non convergenceOn considère le modèle logistique canonique :

∀x ∈ R, logit(µ(x)) = log(

µ(x)

1− µ(x)

)= β1x

On suppose que l’on a tiré quatre échantillons

(y1 = 0, x1 = −20), (y2 = 0, x2 = −10), (y3 = 1, x3 = 10), (y4 = 1, x4 = 20)}

Pr([yµ(−20) = 1]) =e−20β1

1 + e−20β1

Pr([yµ(−10) = 1]) =e−10β1

1 + e−10β1

Pr([yµ(+10) = 1]) =e10β1

1 + e10β1

Pr([yµ(+20) = 1]) =e20β1

1 + e20β1

Alors si β1 → +∞ les expressions à droite convergent vers les valeursobservées.


Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Exemple non convergence

On dit que les données du plan d’expérience sont séparées parun hyperplan

∀a ∈]−10, 10[,∀x ∈ {−20,−10, 10, 20}{

x < a ⇒ yµ(x) = 0x > a ⇒ yµ(x) = 1

En prenant a = 0, alors le modèle s’écrit :

Pr([yµ(x) = 1]) =eβ1x

1 + eβ1x

Soit x 6= 0, en faisant tendre β1 → +∞ on obtient :

limβ1→+∞

Pr([yµ(x) = 1]) =

{0 si x < 01 si x > 0


Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence


La famille exponentielle de Bernoulli est caractérisée par

Θ = ]0, 1[

θ(µ) = log(µ

1− µ)∀µ ∈ Θ

b(θ) = ln(1 + eθ)

φ = 1

c(y , φ) = 0

Le modèle est canonique, la fonction de lien est canonique on adonc

g(µ) = θ(µ)

h(z) = g−1(z) = θ−1(z)


Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Exemple non convergenceSi l’on suppose que les quatres échantillons sont indépendantset de poids égaux pi = 1, la log-vraisemblance de l’échantillonest

l(β1) =i=4∑i=1

yµ(xi )θ(h(xiβ))− b(θ(h(xiβ)))φ

pi

=i=4∑i=1

yµ(xi )xiβ − b(xiβ)φ

pi

=i=4∑i=1

yµ(xi )xiβ1 − ln(1 + exiβ1)

On a alors, puisque les données sont séparées

limβ1→+∞

l(β1) = 0


Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence


Puisque la famille de Bernoulli est discrète, la vraisemblanced’un échantillon est toujours majorée par 1, doncmaxβ1∈Rl(β) ≤ ln(1) = 0 On en déduit que

maxβ1∈Rl(β) = 0

Le maximum de la vraisemblance n’est pas atteint en un pointdu domaine de définition, mais quand β1 diverge.


Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Cas général de divergence

Soit X =Mp,1(R) et (yµ(x))x∈X une famille exponentiellelogistique canonique. Soit yµ(x1), · · · , yµ(xn) un n échantillonindépendant. On note < ., . > le produit scalaire canonique deMp,1(R). On suppose que les données sont séparéesstrictement: c’est à dire qu’il existe m ∈ X et a ∈Mp,1(R)normé tel que

∀x ∈ {x1, · · · , xn}{

yµ(x) = 0 ⇒ < a, x −m >< 0yµ(x) = 1 ⇒ < a, x −m >> 0

Le modèle de régression logistique est :

Pr([yµ(x) = 1]) =eβ0+x

′β

1 + eβ0+x ′β


Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Cas général de divergence

En prenant

β0 = −λ < a,m >β = λa

alorsβ0 + x

′β = λ < a, x −m >

et en faisant tendre λ vers +∞, on obtient :

limλ→+∞

Pr([yµ(x) = 1]) = limλ→+∞

eβ0+x′β

1 + eβ0+x ′β=

{0 si yµ(x) = 01 si yµ(x) = 1

Et le maximum de la log vraisemblance est atteint quand lesparamètres divergent. Ce problème se rencontre égalementpour les modèles binomiaux, multinomial et ordonnés


Regressions

Modélisation

Exponentielles

Propriétés

GLM

Agrégation

Vraisemblance

Estimation

Minimisation

Divergence

Remèdes

Les données sont peu nombreuses (sparse) :

I diminuer la dimension du plan d’expérience pour supprimerla séparation des données.

I utiliser les séparateurs à vastes marges

I utiliser l’analyse discriminante linéaire

Les données sont nombreuses :

I ajouter des perturbations à la matrice du plan d’expérienceafin de supprimer la séparation.

I utiliser les méthodes précédentes.


GLMModélisation probabilisteFamilles exponentiellesPropriétésModèle linéaire généraliséDonnées AgrégéesVraisemblanceEstimation

Modèles de regression M2-MASS - François Kauffmann...Regressions Mod eles de regression M2-MASS...

Documents

Transcript of Modèles de regression M2-MASS - François Kauffmann...Regressions Mod eles de regression M2-MASS...