Maximum-Likelihood-Estimation 2 in 1uwe/HOMEPAGE/Talks/Maximum-Likelihood-Estima… · eine...

16
Maximum-Likelihood-Schätzungen für Verteilungsparameter eines ausgewählten stochastischen Prozesses Maximum Likelihood Estimation (MLE) Uwe Menzel 10.3.2007 Maximum - Likelihood - Methode ist aktuell ! R. A. Fisher (1890 - 1962) C. F. Gau (”Methode der kleinsten Quadrate”) Anzahl der Publikationen, die sich mit Likelihood befassen (”Likelihood” in Titel oder Abstract): Biostatistics: 15 Publikationen im Jahr 2006 Bioinformatics: 25 Publikationen im Jahr 2006

Transcript of Maximum-Likelihood-Estimation 2 in 1uwe/HOMEPAGE/Talks/Maximum-Likelihood-Estima… · eine...

Page 1: Maximum-Likelihood-Estimation 2 in 1uwe/HOMEPAGE/Talks/Maximum-Likelihood-Estima… · eine erschöpfende Statistik für den Parameter , wenn (und nur wenn) die Likelihood in zwei

Maximum-Likelihood-Schätzungenfür Verteilungsparameter eines ausgewählten stochastischen

Prozesses

Maximum Likelihood Estimation

(MLE)

Uwe Menzel 10.3.2007

Maximum - Likelihood - Methode ist aktuell !

• R. A. Fisher (1890 - 1962)

• C. F. Gau� (”Methode der kleinsten Quadrate”)

• Anzahl der Publikationen, die sich mit Likelihood

befassen (”Likelihood” in Titel oder Abstract):

– Biostatistics: 15 Publikationen im Jahr 2006

– Bioinformatics: 25 Publikationen im Jahr 2006

Page 2: Maximum-Likelihood-Estimation 2 in 1uwe/HOMEPAGE/Talks/Maximum-Likelihood-Estima… · eine erschöpfende Statistik für den Parameter , wenn (und nur wenn) die Likelihood in zwei

Anwendungen der ML-Methode

• Phylogenetische Analysen auf der

Grundlage der DNS-

Sequenz (Stammbäume)

• Bilderkennung

(Satellitendaten)

Uwe Menzel 10.3.2007

Die Maximum-Likelihood-Methode führt eine

Schätzung durch

• Grundlegende Aufgabe der Statistik

• Beispiele für Schätzungen:

– Wahlen: Hochrechnungen (500 Personen �

Gesamtbevölkerung)

– Lebenserwartung einer Insektenart (50 Individuen �

50 Mrd. Individuen)

� Zufällige Stichprobe (”Sample”) � ”wahre”

(erzeugende) Wahrscheinlichkeitsverteilung

Page 3: Maximum-Likelihood-Estimation 2 in 1uwe/HOMEPAGE/Talks/Maximum-Likelihood-Estima… · eine erschöpfende Statistik für den Parameter , wenn (und nur wenn) die Likelihood in zwei

� Stichprobe � Parameter, z. B. �, � (oder beide)� Art der erzeugenden Verteilung muss bekannt sein

(Normalverteilung?, Exponentialvert.?, Weibullvert.? …)

�: Erwartungswert (Mittelwert)

�: Standardabweichung

Das Spezifische der ML-Methode: schätzt die

Parameter einer Verteilung

( ) ( )��

���

� −−=

2

2

2exp

2

1

σ

µ

σπ

yyf

Beispiel: Von der Stichprobe zum Schätzwert

für Verteilungs - Parameter

• suche mittleres Gewicht der Frösche in einem Teich

• Zufällige Stichprobe von 10 Fröschen (in g):

� y1 = 110; y2 = 115; y3 = 95; y4 = 101; y5 = 121; y6 = 130; y7 = 98; y8 = 99; y9 = 104; y10 = 111

• Annahme: Gewicht ist normalverteilt

( ) ( )∞<<∞−�

���

� −−⋅

⋅= y

yyf

2

2

2exp

2

1

σ

µ

σπ

Maximum-Likelihood: y1, y2, … y10 � �, �Ist n = 10 ausreichend ?

Page 4: Maximum-Likelihood-Estimation 2 in 1uwe/HOMEPAGE/Talks/Maximum-Likelihood-Estima… · eine erschöpfende Statistik für den Parameter , wenn (und nur wenn) die Likelihood in zwei

Grundlegende Idee der MLE

Idee: bestimme Parameter (�,�) derart, dass die beobachteten Daten plausibel (wahrscheinlich) erscheinen � MLE.

P(� = 100, � = 7) = 0,007

P(� = 100, � = 10) = 0,0104

P(� = 110, � = 12) = 0,000021

Die ”Wahrscheinlichkeit der Stichprobe”

( ) ( ) ( ) ( )θθθθ |...|||,...,, 212211 nnn ypypypyYyYyYPP ×××=====

( ) ( ) ( ) ( )θθθθ |...|||,...,, 2121 nn yfyfyfyyyfy

P×××=≅

Diskrete Verteilung:

Kontinuierliche Verteilung: :

- ein oder mehrere Verteilungsparameterθ

Als Funktion des Parameters � betrachtet

� Likelihood - Funktion L(�)

� � so wählen, dass L maximal wird

Page 5: Maximum-Likelihood-Estimation 2 in 1uwe/HOMEPAGE/Talks/Maximum-Likelihood-Estima… · eine erschöpfende Statistik für den Parameter , wenn (und nur wenn) die Likelihood in zwei

Bestimmung der plausibelsten Werte für die

Verteilungsparameter aus der Likelihood

• Wir suchen den Wert von �, der die Wahrscheinlichkeit der Stichprobe maximiert

� Finde das �, für welches L(�) maximal wird !

θθθ

θθ

ˆ0

ˆ0

2

2

=<∂

→=∂

StellederanL

L

θ̂ - Schätzer für �

Uwe Menzel 10.3.2007

Der Schätzwert ist auch eine Zufallsvariable

• Entnimmt man 5 Stichproben (je 10 Frösche) und ermittelt aus jeder Stichprobe einen Schätzwert, so

erhält man 5 verschiedene Schätzwerte.

� �ˆ ist selbst eine Zufallsvariable (eine ”Statistik”)

�Man kann den Erwartungswert und die Varianz des

Schätzwertes berechnen:

( )[ ]2)()(

)()(

YEYEYV

dyyfyYE

−=

⋅⋅= �+∞

∞−

Page 6: Maximum-Likelihood-Estimation 2 in 1uwe/HOMEPAGE/Talks/Maximum-Likelihood-Estima… · eine erschöpfende Statistik für den Parameter , wenn (und nur wenn) die Likelihood in zwei

Kontinuierliche Zufallsvariable, Normalverteilung

( )

( ) ( )

( ) ( )

( )

( )�

=

=

−−−−=

��

���

�−⋅

−⋅

��

�=

��

���

��

���

��

���

� −−⋅

⋅××

��

���

��

���

��

���

� −−⋅

⋅=

××==

��

���

� −−⋅

⋅=

n

i

i

n

i

i

n

n

nn

ii

ynn

L

y

yy

yfyfyyyfL

yyf

1

2

2

2

1

2

2

2

2

2

2

2

2

1

121

2

2

2

1)2ln(

2)ln(

2)ln(

2

1exp

2

1

2exp

2

1...

2exp

2

1

,|...,|),|,...,,(),(

2exp

2

1),|(

µσ

πσ

µσπσ

σ

µ

σπσ

µ

σπ

σµσµσµσµ

σ

µ

σπσµ

Normalverteilung, Schätzung für �

( )

( )

��

=

==

=

=

=

⋅==

=−=∂

−−−−=

n

i

i

n

i

n

i

i

n

i

i

n

i

i

yn

ny

yL

ynn

L

1

11

12

1

2

2

2

01)ln(

2

1)2ln(

2)ln(

2)ln(

µ

µµ

µσµ

µσ

πσ

Ein Schätzer für den Mittelwert der Normalverteilung

ist das arithmetische Mittel der Beobachtungswerte.

Page 7: Maximum-Likelihood-Estimation 2 in 1uwe/HOMEPAGE/Talks/Maximum-Likelihood-Estima… · eine erschöpfende Statistik für den Parameter , wenn (und nur wenn) die Likelihood in zwei

Erwartungswert des Schätzers für �

( ) ( )µ

σ

µ

σπ

µµµµ

µ

=��

���

� −−⋅

⋅⋅=

=⋅⋅===

��

�=

=

���

===

=

dyy

yyE

nnn

yEn

yn

EE

yn

n

i

n

i

i

n

i

i

n

i

i

2

2

111

1

2exp

2

1

:wurdeverwendet

11)(

11)ˆ(

Der Erwartungswert des Schätzers für den Parameterist wieder der Parameter selbst.

� Der Schätzer für � ist erwartungstreu (”unbiased”)

Erwartungstreue

- Erwartungstreue Schätzung

- nicht erwartungstreu

Page 8: Maximum-Likelihood-Estimation 2 in 1uwe/HOMEPAGE/Talks/Maximum-Likelihood-Estima… · eine erschöpfende Statistik für den Parameter , wenn (und nur wenn) die Likelihood in zwei

Varianz des Schätzers für �

( ) 2

22

21

2

21

21

:wurdeverwendet

111)(

11)ˆ(

σ

σσσµ

=

⋅=⋅⋅===

��

�= ���

===

i

n

i

n

i

i

n

i

i

yV

nn

nnyV

ny

nVV

Für n gegen � geht die Varianz des Schätzers gegen Null.

� Der Schätzer für � ist konsistent.

Uwe Menzel 10.3.2007

Konsistenz eines Schätzers

• Ein erwartungstreuer Schätzer heißt konsistent, wenn die Varianz des Schätzers gegen Null geht, sobald die Grö�e der Stichprobe (n) gegen Unendlich geht.

• Der Schätzer konvergiert dann ”in Wahrscheinlichkeit”gegen den wahren Wert.

n=10n=20

n=50

Page 9: Maximum-Likelihood-Estimation 2 in 1uwe/HOMEPAGE/Talks/Maximum-Likelihood-Estima… · eine erschöpfende Statistik für den Parameter , wenn (und nur wenn) die Likelihood in zwei

Normalverteilung, Schätzung für �

( )

( )

( )

( )�

=

=

=

=

−⋅−

=⋅−

=

≠⋅−

=

−⋅=

=−+−=∂

−−−−=

n

i

i

n

i

i

n

i

i

n

i

i

ynn

nKorrektur

n

nEaber

yn

ynL

ynn

L

1

22

0

2

222

0

1

22

0

1

2

3

1

2

2

2

ˆ1

1

1ˆ:

1)ˆ(:)(!

ˆ1

ˆ

0ˆ1)ln(

ˆ2

1)2ln(

2)ln(

2)ln(

µσσ

σσσ

µσ

µσσσ

µσ

πσ

Schätzer für �2 ist konsistent.

Normalverteilung, Schätzer für Mittelwert

und Varianz

( )�

=

=

−⋅−

=

⋅=

n

i

i

n

i

i

yn

yn

1

22

1

ˆ1

µσ

µ

yi – beobachtete Werte(Stichprobe,”Sample”); i=1,2,…,n

n – Anzahl der Werte in der Stichprobe

Erwartungstreue, konsistente Schätzer sind:

Uwe Menzel 10.3.2007

Page 10: Maximum-Likelihood-Estimation 2 in 1uwe/HOMEPAGE/Talks/Maximum-Likelihood-Estima… · eine erschöpfende Statistik für den Parameter , wenn (und nur wenn) die Likelihood in zwei

Weibull-Verteilung

( )

( ) ( ) ( ) ( )

( )

( )

( )n

n

n

n

i

in

n

i

i

n

nn

nn

yyyyhug

yyyyu

Statistikyusetzeyyyyy

yyyyyy

yfyfyfyyyL

yyy

yf

,...,,,),(

...exp2

"":...1

exp2

exp2

...exp2

exp2

|...|||...,,

0exp2

|

321

321

1

2

321

1

2

22

22

2

11

2121

2

×=

⋅⋅⋅⋅⋅��

���

�−⋅

��

�=

=⋅⋅⋅⋅⋅��

���

�⋅−⋅

��

�=

��

���

�−⋅

��

�××�

���

�−⋅

��

��

���

�−⋅

��

�=

×××=

>��

���

�−⋅

��

�=

��==

θ

θθ

θθ

θθθθθθ

θθθθ

θθθ

Die Zufallsvariable u ist eine minimale ”erschöpfende Statistik” für �

(Faktorisierungskriterium der Likelihood-Funktion)

MLE für � in Weibull-Verteilung

( ) ( )

( ) ( )

uvonFunktion;�fürSchätzer1ˆ

0)ln(

...lnln)2ln()ln(

...exp2

|...,,

1

2

2

321

1

2

32121

=

=

⋅==

=+−=

⋅⋅⋅⋅+−⋅−⋅=

=⋅⋅⋅⋅⋅��

���

�−⋅

��

�=

n

i

i

n

n

i

in

n

n

ynn

u

un

d

Ld

yyyyu

nnL

yumityyyyu

yyyL

θ

θθθ

θθ

θθθ

( ) ( ) ( )

( ) treuerwartungsnnn

E

yEywSubstyEn

yn

EE

n

uy

n

n

i

i

n

i

i

n

i

i

n

i

i

θθθθ

θθ

θ

=⋅⋅==

=→==

��

�⋅=

=⋅=

��

=

==

=

11ˆ

.11ˆ

1

22

1

2

1

2

1

2

Page 11: Maximum-Likelihood-Estimation 2 in 1uwe/HOMEPAGE/Talks/Maximum-Likelihood-Estima… · eine erschöpfende Statistik für den Parameter , wenn (und nur wenn) die Likelihood in zwei

Minimalschätzung für die Weibull -Verteilung

• Der Schätzer für � ist:

– ein erwartungstreuer Schätzer

– eine Funktion der minimalen ”erschöpfenden Statistik”

� Damit ist er von allen möglichen erwartungs-

treuen Schätzern derjenige mit der kleinsten

Varianz (Minimalschätzer,”MVUE=Minimum-

Variance Unbiased Estimator”)

• ML – Methode führt oft automatisch zu einem

Minimalschätzer !

Uwe Menzel 10.3.2007

Zusammenfassung 1

• Ausgehend von einer zufälligen Stichprobe und einer Annahme über die zugrunde liegende Verteilung ermittelt die ML-Methode die plausibelsten Parameter dieser Verteilung.

• Die Likelihood-Funktion ist die gemeinsame Verteilungsfunktion (kontinuierlicher Fall) bzw. die kombinierte Wahrscheinlichkeit (diskreter Fall) der Stichprobe, aufgefasst als Funktion der Verteilungsparameter.

• Der plausibelste Wert für den Parameter der Verteilungsfunktion ist derjenige, welcher die Likelihood-Funktion maximiert. Dieser wird als Schätzer verwendet.

Page 12: Maximum-Likelihood-Estimation 2 in 1uwe/HOMEPAGE/Talks/Maximum-Likelihood-Estima… · eine erschöpfende Statistik für den Parameter , wenn (und nur wenn) die Likelihood in zwei

Zusammenfassung 2

• Ein Schätzer ist:

– erwartungstreu, wenn sein Erwartungswert gleich dem zu schätzenden Parameter ist,

– konsistent, wenn er erwartungstreu ist und wenn seine Varianz für unendlich gro�e Stichproben gegen Null geht.

• Ein Minimalschätzer (MVUE) ist ein erwartungstreuer Schätzer mit kleinstmöglicher Varianz. Die ML-Methode führt oft automatisch zu einem Minimalschätzer.

Uwe Menzel 10.3.2007

Vielen Dank für Ihre Aufmerksamkeit

http://puffer.genpat.uu.se/MLE/

[email protected]

Page 13: Maximum-Likelihood-Estimation 2 in 1uwe/HOMEPAGE/Talks/Maximum-Likelihood-Estima… · eine erschöpfende Statistik für den Parameter , wenn (und nur wenn) die Likelihood in zwei

Aufgabe

• y1,y2,…yn sei eine zufällige Stichprobe von einer

Poisson-Verteilung mit dem Mittelwert λ

– Finden Sie einen ML-Schätzer λˆ für λ

– Berechnen Sie den Erwartungswert und die Varianz dieses Schätzers

– Ist der Schätzer erwartungstreu ?

– Ist der Schätzer konsistent ?

Uwe Menzel 10.3.2007

ML für eine diskrete Verteilung

• n Versuche y1,y2,…yn mit jeweils zwei möglichen

Resultaten: yi = 0,1

• p sei die Wahrscheinlichkeit des Erfolges (yi=1)

( ) ( ) ( ) ( )

( ) ( ) ( )

( )

( ) ( )

( )

n

yp

p

yn

p

y

pyn

py

dp

Ld

pynpyL

yymitpp

pppppp

pyPpyPpyPpyyyL

i

yny

yyyyyy

nn

nn

=

−=

=

���

−⋅−+

���

�⋅=

−⋅−+⋅=

=−⋅=

−⋅××−⋅×−⋅=

×××=

�−

−−−

ˆ

1

01

11)ln(

1ln)ln()ln(

1

1...11

|...|||,...,,

111

2121

2211

Uwe Menzel 10.3.2007

Page 14: Maximum-Likelihood-Estimation 2 in 1uwe/HOMEPAGE/Talks/Maximum-Likelihood-Estima… · eine erschöpfende Statistik für den Parameter , wenn (und nur wenn) die Likelihood in zwei

Weitere Anwendungen

• Genauigkeit eines Messgerätes (”50 ± 0,5”) )

• phylogenetische Analyse von DNA- oder Proteinsequenzen mit Maximum-Likelihood (http://abacus.gene.ucl.ac.uk/software/paml.html )

• Classifier http://www.eduspace.esa.int/eduspace/subdocument/default.asp?document

=521

• Shoreline Mapping http://www.eomonline.com/EOM_Jul05/article.php?Article=feature3

• Localization by Maximum-Likelihood

http://www.nasatech.com/Briefs/Oct98/NPO20392.html

Programme

• R: mle-package (im stats4 package)

• Matlab code for the ML estimation

(http://www.netlab.tkk.fi/tutkimus/com2/fbm/index.shtml )

Uwe Menzel 10.3.2007

Page 15: Maximum-Likelihood-Estimation 2 in 1uwe/HOMEPAGE/Talks/Maximum-Likelihood-Estima… · eine erschöpfende Statistik für den Parameter , wenn (und nur wenn) die Likelihood in zwei

Invarianzeigenschaft der ML-Methode

• Sei �’ ein Schätzer für �

� dann ist f(�’) ein Schätzer für f(�)

Uwe Menzel 10.3.2007

Korrektur von �0 (Normalverteilung)

( )

( ) ( )

( ) ( ) ( )

( ) ( ) ( )

( )

( )�

��

����

=

=

==

====

−⋅−

=⋅

��

−=

��

� −=−−+=

���

�+−+⋅=

+=−=

+=−==

−⋅=���

���

−⋅=

−⋅=

��

�⋅−⋅=−⋅=

n

i

i

n

i

iii

n

i

i

n

i

i

n

i

i

n

i

i

n

i

i

n

i

i

ynn

nKorrektur

n

n

nnnE

nEalsoEEVausserdem

yEalsoyEyVistEs

EyEn

yn

EE

yn

yn

yn

yn

1

22

0

2

222

2222

1

222

0

22

222

222222

2

1

22

1

22

0

2

1

2

2

12

1

2

1

22

0

ˆ1

1ˆ:

11)ˆ(

ˆˆˆ)ˆ(:

:

ˆ1

ˆ1

)ˆ(

ˆ111

ˆ1

ˆ

µσσ

σµσ

µσµσ

µσσ

µσ

µµµµ

µσµσ

µµσ

µµσ

Page 16: Maximum-Likelihood-Estimation 2 in 1uwe/HOMEPAGE/Talks/Maximum-Likelihood-Estima… · eine erschöpfende Statistik für den Parameter , wenn (und nur wenn) die Likelihood in zwei

Faktorisierung der Likelihood-Funktion

( ) ( ) �=

=×=n

i

inn yumityyyyhugyyyL1

2

32121 ,...,,,),(|...,, θθ

Sei u eine von einer Stichprobe y1,y2,.,yn abgeleitete Statistik. Dann ist u eine erschöpfende Statistik für den Parameter �, wenn (und nur wenn)

die Likelihood in zwei nichtnegative Faktoren g(u,�) × h(y1,y2,….,yn)zerlegt werden kann, wobei

• g ausschlie�lich eine Funktion von u und � ist und • h nicht von � abhängt.

(engl.: ”sufficient statistics”)(h ist oft identisch 1, z. B. bei derNormalverteilung)

Erschöpfend bedeutet, dass die in der Stichprobe enthaltene Information vollständig für die Schätzung ausgenutzt wird. Es geht keine Information verloren, wenn z. B. 10 Werte einer Stichprobe auf einen einzigen Wert (arithmetisches Mittel) reduziert werden.

Uwe Menzel 10.3.2007

Weitergehende Theorie

• Eine Schätzung, bei der Vorwissen in Form

einer a priori-Wahrscheinlichkeit einfließt, wird

Maximum-A-Posteriori-Schätzung (MAP)

genannt.

Uwe Menzel 10.3.2007