Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi...

103
Bibliografia [1] J.M. Bernardo and A. F. M. Smith. Bayesian theory. Wiley Series in Probability and Mathematical Statistics: Probability and Mathematical Statistics. John Wiley & Sons Ltd., Chichester, 1994. [2] P. J. Bickel and K. A. Doksum. Mathematical statistics. Holden-Day Inc., San Francisco, Calif., 1976. Basic ideas and selected topics, Holden-Day Series in Probability and Statistics. [3] P. Diaconis and D. Ylvisaker. Conjugate priors for exponential families. Ann. Statist., 7(2):269–281, 1979. [4] J. K. Ghosh, M. Delampady, and T. Samanta. An introduction to Bayesian analysis. Springer Texts in Statistics. Springer, New York, 2006. Theory and methods. [5] M. J. Schervish. Theory of statistics. Springer Series in Statistics. Springer-Verlag, New York, 1995. 1

Transcript of Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi...

Page 1: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

Bibliografia

[1] J.M. Bernardo and A. F. M. Smith. Bayesian theory. Wiley Series inProbability and Mathematical Statistics: Probability and MathematicalStatistics. John Wiley & Sons Ltd., Chichester, 1994.

[2] P. J. Bickel and K. A. Doksum. Mathematical statistics. Holden-Day Inc.,San Francisco, Calif., 1976. Basic ideas and selected topics, Holden-DaySeries in Probability and Statistics.

[3] P. Diaconis and D. Ylvisaker. Conjugate priors for exponential families.Ann. Statist., 7(2):269–281, 1979.

[4] J. K. Ghosh, M. Delampady, and T. Samanta. An introduction toBayesian analysis. Springer Texts in Statistics. Springer, New York,2006. Theory and methods.

[5] M. J. Schervish. Theory of statistics. Springer Series in Statistics.Springer-Verlag, New York, 1995.

1

Page 2: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

2 Bibliografia

NOTA IMPORTANTE.

Questi appunti nascono dalla giustapposizione di vario materiale che nelcorso degli ultimi 5 anni ho usato per tenere corsi di Statistica Matematica eStatistica Bayesiana. In questa ultima versione il materiale e’ stato ridottoe modificato per farne un corso adatto alla laurea triennale.

La prima importante osservazione e:

QUESTI APPUNTI NON INTENDONO SOSTITUIRSI A TESTI PIU’ORGANINCI DI STATISTICA!!

In particolare gli studenti sono caldamente invitati a consultare

• Morris H. DeGroot, Mark J. Schervish. Probability and Statistics(4th Edition) Pearson Education,• Bickel, P. J., Doksum, K. A.: Mathematical statistics, Prentice-

Hall, 2001,

oltre al resto del materiale messo sul sito.

I capitoli 3,4,6 nascono da una semplificazione di appunti presi da me eda Valentina Leucari durante un corso di dottorato tenuto dal Prof. E.Regazzini.

Il capitolo 5 e in parte tratto dagli appunti del corso di Regazzini e inparte dal Bickel e Doksum (2001) [2].

I Capitoli 8,9 e 11 sono sostanzialmente basati Bickel e Doksum (2001)[2].

Il Capitolo 10 (molto schematico) e basato sul Bickel e Doksum (2001)[2] .

Page 3: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

CAPITOLO 1

Introduzione, notazioni, esempi

1. Dati

Esperimenti e studi producono dati. Sono dati, ad esempio, le mis-urazioni di una concentrazione di un agente chimico o biologico in un mezzoliquido o gassoso (sangue, acqua, aria, gas di scarico di un’automomile...);sono dati le misurazioni di una distanza fra due corpi celesti, le misurazionidella velocita di un oggetto o della durata di un fenomeno, le misurazionidel tempo che intercorre fra due fenomeni periodici. Sono dati l’eta, le pref-erenze politiche, il reddito degli individui in una popolazione, l’intensita deiterremoti negli ultimi cento anni in Italia, il numero di sinistri fra gli assicu-rati di una compagnia in un anno, i tassi di rendita delle banche, i tassi dicambio, il valore all’apertura della borsa delle azioni negli ultimi tre mesi,la struttura del genoma, le sequenza del DNA.

I dati sono (o dovrebbero essere) le fondamenta di ogni scienza. Natural-mente, pero, i dati da soli non dicono nulla. I dati vanno letti ed interpretatie, quando possibile, usati per validare o smentire una teoria.

2. Apprendimento e statistica matematica

La statistica costituisce uno degli strumenti per dedurre dai dati infor-mazioni generali e per verificare se una teoria o un modello siano adatti aspiegare o a descrivere un certo fenomeno. La statistica fornisce un metodo(o, meglio, vari metodi) per organizzare i dati in modo razionale e coerentee per usarli per prendere decisioni in situazioni di incertezza.

La statistica matematica frequentista, in particolare, assume come ipote-si che i dati siano realizzazioni di fenomeni aleatori.

Questo non vuole dire che i dati reali siano davvero realizzazioni diun fenomeno aleatorio, ma semplicemente che pensarli come tali aiuta adorganizzare il nostro processo di comprensione e di apprendimento dall’es-perienza.

Models, of course, are never true but fortunately it is only necessary thatthey be useful. George Box (1979)

3

Page 4: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

4 1. INTRODUZIONE, NOTAZIONI, ESEMPI

In breve, la statistica puo essere considerata uno strumento per prenderedelle decisioni e per dare delle valutazioni su fenomeni futuri (o non ancoraosservati) non determinabili con certezza.

3. Esempi introduttivi

Esempio 1. Supponiamo di dover controllare la qualita di una massa dipezzi prodotti in serie tramite un’ispezione campionaria (n pezzi). Ciascunpezzo puo risultare difettoso (1) oppure idoneo (0). Se si esegue l’ispezionecon la modalita delle estrazioni con restituzione e le estrazioni avvengonoin condizioni analoghe, indicata con θ la frazione dei difettosi nell’interamassa, la probabilita di avere una specifica successione (x1, . . . , xn) di 0, 1,e uguale a

n∏i=1

θxi(1− θ)1−xi .

Sulla base del campione osservato in che modo possiamo dare una valu-tazione della qualita del prodotto, ossia di θ? Entro che limiti e sensatoutilizzare come stima di θ

νn =1

n

n∑i=1

xi?

Esempio 2. Si effettuano n misurazioni di una grandezza fisica m conuno strumento che fornisce letture con un certo errore. Se denotiamo conei l’errore commesso nella lettura i–esima xi, allora

xi = m+ ei (i = 1, . . . , n).

Se le misurazioni si effettuano nelle stesse condizioni ambientali, e ragionev-ole considerare ei come realizzazioni di variabili aleatorie εi indipendentied identicamente distribuite. Un’ipotesi classica e considerare εi variabilialeatorie con distribuzione Gaussiana di media nulla e varianza (nota oincognita) σ2, ossia variabili aleatorie caratterizzate dalla densita

y 7→ 1√2πσ2

exp

− 1

2σ2y2

.

Supponendo noto σ2 come possiamo stimare m? Come possiamo valutarel’errore che rischiamo di commettere con questa valutazione? Come possi-amo procedere nel caso in cui σ non sia noto? E se fossimo interessati astimare σ invece di m?

Esempio 3. Un produttore di batterie dichiara che la durata in vita diciascuna batteria e di almeno θ0 giorni. Un acquirente di tali batterie e in-teressato ad accertare se la precedente affermazione possa intendersi comesostanzialmente veritiera oppure no. Un modo ragionevole di procedere, perl’acquirente, potrebbe essere quello di osservare la durata effettiva di n bat-terie e, ad esempio, sulla base della media osservata decidere se gli convenga

Page 5: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

4. MODELLO STATISTICO 5

comportarsi come se la durata reale delle batterie θ risultasse non inferiorea θ0 oppure come se θ risultasse minore di θ0.

Esempio 4. Per testare l’efficacia di un farmaco contro l’insonnia siprocede come segue. Si forma un campione di n = 100 persone e lo sisottopone al seguente esperimento. Per ogni soggetto i (i = 1, . . . , n), ven-gono registrate le ore di sonno in una notte senza l’assunzione del farma-co (x1,i) e in una notte dopo l’assunzione del farmaco (x2,i). Per tantoxi = x1,i − x2,i indica la differenza fra le ore di sonno senza assunzione delfarmaco e quelle dopo l’assunzione del farmaco nel soggetto i–esimo. Comeutilizzare (x1, . . . , xn) per decidere se riterere efficace o meno il farmaco?

Esempio 5. [Feller Vol. I] Si supponga che in un lago siano catturati1000 pesci e che, dopo la cattura, vengano segnati con della vernice rossa edinfine vengano rilasciati. Dopo un po’ di tempo viene eseguita una nuovacattura di 1000 pesci e si scopre che 100 fra essi sono marchiati con la ver-nice rossa. Che conclusione puo essere tratta riguardo al numero di pescipresenti nel lago? Assumiamo naturalmente che le due catture possano es-sere considerate come estrazioni casuali dalla popolazione totale di pesci nellago. Supponiamo anche che il numero di pesci nel lago non vari fra unacattura e l’altra. Generalizzando il problema siano: n il numero (incognito)di pesci nel lago, n1 il numero di pesci nella prima cattura, r il numero dipesci nella seconda cattura, k il numero di pesci marcati nella seconda cat-tura. Ovviamente la probabilita che il numero di pesci rossi nella secondacattura sia k e data da (

n1

k

)(n−n1

r−k)(

nr

) .

Sappiamo che n1 + r − k pesci diversi sono stati catturati, e quindi n ≥n1 +r−k. Questo e tutto cio che possiamo dire con certezza. Nel nostro es-empio possiamo dire che il numero dei pesci e maggiore di 1900. Ipotizziamoora che il numero dei pesci sia effettivamente 1900. Sotto questa ipotesi laprobabilita di aver ripescato 100 pesci marcati sarebbe dell’ordine di 10−430.Per tanto, presumibilmente, tutti sarebbero disposti a ritenere irragionevolecomportarsi come se in effetti il lago contenga 1900 pesci.

4. Modello statistico

In tutte le dispense considereremo esperimenti i cui possibili risultaticostituiscono un insieme X ⊂ Rd, a cui si associa una classe di suoi sottoin-siemi X , dotata della struttura di σ-algebra. L’insieme X prende il nome dispazio campionario e la σ-algebra X rappresenta quindi una famiglia dieventi significativi relativi all’esperimento in esame.

In generale, l’esperimento potra consistere in un numero finito, infinitoo incognito di osservazioni relative ad un dato fenomeno. Per fissare le idee,quando non diversamente specificato, si supporra di aver programmato n

Page 6: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

6 1. INTRODUZIONE, NOTAZIONI, ESEMPI

osservazioni di tale fenomeno. La forma del singolo caso elementare sarapertanto x = (x1, . . . , xn).

Come detto si vuole interpretare l’esito di un esperimento (ossia il risul-tato del processo di osservazione) come una variabile aleatoria. Si puo per-tanto pensare che ogni valore osservato x sia la realizzazione di una certavariabile aleatoria ξ definita su uno spazio di probabilita astratto (Ω,F) conuna data legge di probabilita P a valori in (X,X ).

Sulla base delle considerazioni appena esposte, ogni esperimento puoessere rappresentato tramite un insieme

M = Ω,F , X,X ,P ∈M

dove P e una misura di probabilita incognita appartenente ad una famigliadi leggi di probabilita M. Tale insieme viene detto modello statistico.La famiglia M identifica un insieme di meccanismi di generazione dei datiplausibili per il fenomeno analizzato, ognuno dei quali riflette sia le caratter-istiche del processo di osservazione sia differenti ipotesi sulle proprieta delfenomeno stesso.

Prima di proseguire notiamo che lo spazio astratto (Ω,F) non giocaun ruolo importante, infatti lo statistico ha accesso solo alle osservazionie quindi solo allo spazio (X,X ). Si ricordi che per noi X sara sempre unqualche sottoinsieme di Rd. Allo stesso modo cio che conta veramente none la misura a P ma la sua immagine (tramite ξ) su X , in altri termini

P (·) := Pξ ∈ ·.

In seguito, quindi, intenderemo per modello statistico piu brevemente l’in-sieme

M = X,X , P ∈Mdove, questa volta, M e un’insieme di misure di probabilita su X .

5. Ipotesi base e notazioni

Il principale obiettivo della statistica e quello di fare inferenza sulla leggedi probabilia del fenomeno descritto dal modello sulla base del campioneosservato, ossia sulla base di una realizzazione del processo di osservazioneξ.

Nel seguito il modello verra formulato in termini parametrici diretta-mente in funzione della misura immagine P , ossia

M = (X,X , Pθ) : θ ∈ Θ

dove θ e il parametro che indicizza la distribuzione delle osservazioni e Θ ilrelativo spazio parametrico. In questo caso θ sara l’oggetto dell’inferenza.Volendo che l’inferenza sia sensata sara necessario imporre che il parametroidentifichi univocamente la legge di probabilita e viceversa.

Page 7: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

5. IPOTESI BASE E NOTAZIONI 7

Definizione 1.1. Identificabilita. Il modello si dice identificabile sevale

θ 6= θ′ ⇒ Pθ 6= Pθ′ .

Definizione 1.2. Modelli dominati. Un modello (X,X , Pθ, θ ∈ Θ)si dice dominato se esiste una misura σ-finita µ su (X,X ) tale che

Pθξ ∈ B = Pθ(B) =

∫Bfθ(x)µ(dx) ∀ B ∈ X .

In altri termini, un modello e dominato se Pθ ammette una densita fθrispetto a µ.

In questo corso considereremo solo modelli dominati dalla misura diconteggio o dalla misura di Lebesgue, per i quali valgono, rispettiva-mente e per ogni B in X ,

Pθ(B) =∑x∈B

fθ(x)

e

Pθ(B) =

∫Bfθ(x)dx.

Queste ipotesi verranno implicitamente sempre assunte nel seguito (ameno che non sia chiaramente indicato il contrario).

Come gia detto non specificheremo mai la natura di (Ω,F ,P) ma soloquella di (X,X , P ). Tuttavia, per chiarezza, useremo spesso il fatto che ilprocesso di osservazione puo essere identificato con una variabile aleatoriaξ, definita su (Ω,F) con legge P , ossia tale che

Pξ ∈ A = P (A) (A ∈ X ).

In generale se (X,X , P ) e uno spazio probabilizzato, h : (X,X )→ (R,B(R))una funzione misurabile e ξ : (Ω,F ,P)→ (X,X ) una variabile aleatoria conlegge P , i.e. Pξ ∈ · = P (·), la speranza matematica di h(ξ) rispetto a P ,qualora esista, verra indicata indifferentemente con

E[h(ξ)] =

∫Ωh(ξ(ω))P(dω) =

∫Xh(x)P (dx).

Se vorremo evidenziare la misura di probabilita rispetto a cui si stafacendo la speranza matematica useremo la scrittura EP . In altre parole seP e Q sono due m.d.p. allora EP (h(ξ)) sara

∫X h(x)P (dx) e EQ(h(ξ)) sara∫

X h(x)Q(dx). Analogamente, dato un modello statistico Pθ : θ ∈ Θ, conEθ, (V arθ, Covθ) si indichera la speranza matematica (varianza, covarianza)calcolata rispetto a Pθ.

Ancora sono equivalenti le notazioni

Eθ[h(ξ)] e

∫Xh(x)Pθ(dx).

Page 8: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

8 1. INTRODUZIONE, NOTAZIONI, ESEMPI

Dal momento che considereremo sempre modelli dominati con densitafθ si ricordi che nel caso assolutamente continuo

Eθ[h(ξ)] =

∫Xh(x)fθ(x)dx,

dove dx indica la misura di Lebesgue su Rd, e nel caso discreto

Eθ[h(ξ)] =∑x∈X

h(x)fθ(x).

Per evitare di dover continuamente distinguere questi due casi, useremo lanotazione

∫X h(x)fθ(x)µ(dx) con la convenzione che, nel caso in qui ξ sia

una v.a. assolutamente continua, allora µ(dx) coincidera con la misura diLebesgue dx, mentre nel caso in cui ξ sia discreta tale integrale va intesocome la somma

∑x∈X h(x)fθ(x).

5.1. Distribuzioni condizionali. Data una variabile aleatoria T avalori in RM ,

EP [h(ξ)|T ]

indichera (una versione) della speranza condizionale di h(ξ) dato T qualora ξabbia legge P . Analogamente, nel caso di un modello statistico Pθ : θ ∈ Θ,Eθ[h(ξ)|T ] indichera una versione della speranza condizionale di h(ξ) datoT qualora ξ abbia legge Pθ. Per i richiami minimi alle speranze condizionali,si rimanda ad un qualunque buon libro di probabilita.

Dato il vettore (ξ, T ) ∈ Rd×M , sia Fθ(x, t) la funzione di ripartizione ditale vettore, ossia

Fθ(x, t) = Pθξ ≤ x, T ≤ tcon ξ ≤ x = ξ1 ≤ x1, ξ2 ≤ x2, . . . e analogamente T ≤ t = T1 ≤t1, T2 ≤ t2, . . . . Si ricordi che

Pθξ ∈ A, T ∈ B =

∫A

∫BdFθ(x, t)

per ogni A e B misurabili in Rd e RM . In particolare

PθT ∈ B =

∫X

∫BdFθ(x, t) =

∫BdFθ:T (t)

e

Pθξ ∈ A =

∫APθ(dx) =

∫A

∫RM

dFθ(x, t) =

∫AdFθ:ξ(x).

Dove abbiamo indicato le funzioni di ripartizione marginali di ξ e di T conFθ:ξ(x) e Fθ:T (t).

Si ricordi che la funzione di ripartizione condizionale Fθ:ξ|T (x|t) di ξ datoT e caratterizzata dal fatto che rende possibile la disintegrazione

Pξ ∈ A, T ∈ B =

∫B

(∫AdFθ:ξ|T (x|t)

)dFθ:T (t).

(per ogni coppia di insiemi A e B misurabili).

Page 9: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

6. ESEMPI 9

In questo caso si ha che

Eθ[h(ξ)|T = t] =

∫h(x)dFθ:ξ|T (x|t)

e

Eθ[h(ξ)|T ] =

∫h(x)dFθ:ξ|T (x|T ).

Talvolta useremo la notazione Fθ(dx) al posto di dFθ(x).

6. Esempi

Esempio 6 (Modello Bernoulliano). Si consideri una successione di nestrazioni, con restituzione, da un’urna contenente palline bianche e pallinenere secondo una composizione non nota. La composizione e completamentecaratterizzata dalla frazione (incognita) θ∗ delle palline bianche. Il risultatodi ogni osservazione puo descriversi mediante gli interi 0 e 1: 0 corrispondeall’estrazione di nera, 1 all’estrazione di bianca. Quindi X = 0, 1n. Inconsiderazione delle modalita di estrazione ipotizzate, fissata una determi-nazione θ di θ∗ che, necessariamente, deve appartenere a [0, 1], Pθ puosupporsi coerente col ben noto schema Bernoulliano, ovvero

Pθξ1 = x1, . . . , ξn = xn = Pθ((x1, . . . , xn))

= θx1+···+xn(1− θ)n−(x1+···+xn)(1)

in cui si pone, per convenzione, 00 = 1. Per completare la definizione diM, resta da specificare Θ che, in assenza di vincoli posti dal problema, siidentifica con l’intervallo [0, 1].

Esempio 7 (Modello Poissoniano). Si consideri l’osservazione, in n in-tervalli di tempo consecutivi, degli arrivi presso un dato punto di servizio.Si puo porre X = Nn0 (numerabile) e come σ-algebra degli eventi l’insiemedi tutte le parti di Nn0 . Per quanto riguarda la definizione di M, ipotizzandovalide le condizioni del processo di Poisson, per ogni specifica determinazionedi θ (valore atteso del numero di arrivi in un intervallo unitario) si ha

(2) Pθξ1 = x1, . . . , ξn = xn = Pθ((x1, . . . , xn)) =

n∏i=1

θxi

xi!e−θ

con θ in Θ := (0,∞).

Esempio 8 (Modello Gaussiano). Si effettuano n misurazioni di unacerta grandezza con uno strumento che fornisce letture il cui errore dal verovalore incognito si distribuisce secondo la legge Gaussiana di media nulla evarianza σ2 = 1/h2, dove h e un indice noto della precisione dello strumento.Se le misurazioni si effettuano nelle stesse condizioni ambientali e m e ilvero valore della grandezza misurata, e ragionevole considerare le ξi comevariabili aleatorie indipendenti, tutte con distribuzione Gaussiana di mediam e varianza σ2. In questo caso X = Rn, X = B(X) (σ-algebra di Borel su

Page 10: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

10 1. INTRODUZIONE, NOTAZIONI, ESEMPI

Rn), θ = m, Θ = R e la famiglia delle misure di probabilita e caratterizzabilecon

Pθ(B) =

∫B

1

(2πσ2)n/2exp

− 1

2σ2

n∑i=1

(xi −m)2

dx1, . . . , dxn ∀ B ∈ B(X).

Chiaramente con h incognita si ha θ = (m,σ) e Θ = R×R+. Si noti che ξipuo essere riscritta come ξi = m+σεi (con εi = (ξ−m)/σ) dove (ε1, . . . , εn)risultano essere variabili aleatorie indipendenti ed identicamente distribuitecon legge gaussiana di media nulla e varianza unitaria. In questo caso σεipuo essere interpretato come l’errore commesso nella misurazione i–esima.

Esempio 9 (Scala-posizione). Come generalizzazione dell’esempio prece-dente si supponga di effettuare n misurazioni indipendenti di una quantitaincognita m. In questo caso l’errore nella misurazione i-esima sara inte-so come una quantita aleatoria σεi dove (ε1, . . . , εn) e un vettore di variabilialeatorie indipendenti ed identicamente distribuite con una certa legge carat-terizzata da una funzione di ripartizione F su R e σ e una costante positiva.Quindi

ξi = m+ σεi

e per tanto, per ogni (x1, . . . , xn) in Rn,

Pθξ1 ≤ x1, . . . , ξn ≤ xn =

n∏i=1

F

(xi −mσ

),

con θ = (m,σ) e Θ = R× (0,+∞).

Esempio 10 (Regressione). In molti problemi pratici si programmanostudi in cui n soggetti sono sottoposti ad un test il cui esito e un numeroreale xi (i = 1, . . . , n). In generale di ogni soggetto si conoscono delle carat-teristiche specifiche che vengono registrate prima del test, per semplicitasupponiamo che tali caratteristiche si possano sintetizzare in un vettore zidi Rd (i = 1, . . . , n). In altri termini si osserva

(z1, x1), . . . (zn, xn).

Generalmente ogni xi e pensata come realizzazione di una variabile aleatoriaξi. Spesso le ξi sono supposte indipendenti e sono da intendersi, appunto,come la risposta del soggetto i–esimo (anche detto caso) allo studio. Sisuppone infine che la legge di ogni ξi dipenda dalle caratteristiche del soggettoi–esimo. Ad esempio ξi potrebbe essere il risultato di un test medico e le zipotrebbero contenere le informazioni sul sesso, sull’eta, sul peso e sull’altezzadel soggetto i–esimo. In generale le zi si suppongono fissate (ossia nonsono aleatorie) e sono dette covariate (o variabili esplicative). Per quantoriguarda la legge delle ξi, comunemente dette variabili dipendenti, si possonopostulare varie forme. Qui supponiamo che ogni ξi si possa scrivere come

ξi = gθ(zi) + εi

Page 11: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

7. CAMPIONI GAUSSIANI 11

dove ε1, . . . , εn sono variabili aleatorie indipendenti e identicamente dis-tribuite con media nulla (i.e. E(εi) = 0) e gθ : Rd → R e una funzionenota a meno di un parametro θ che varia in Θ ⊂ Rk. Se indichiamo con Fla funzione di ripartizione di εi si ha che

Pθξ1 ≤ x1, . . . , ξn ≤ xn =n∏i=1

F (xi − gθ(zi)).

In questa generalita non e detto che il modello Rn,B(Rn), Pθ : θ ∈ Θ siaun modello identificabile.

Esempio 11 (Modello lineare gaussiano). Come caso notevole dell’e-sempio precedente si consideri il caso in cui le εi sono variabili aleatoriegaussiane con media nulla e

gθ(t) :=

d∑i=1

tiθi, (t ∈ Rd)

(con k = d e Θ = Rd) ossia

ξi =d∑j=1

zi,jθj + εi i = 1, . . . n.

Sotto queste ipotesi si dimostra che se z1, . . . , zn sono linearmente indipen-denti allora il modello e identificabile.

7. Campioni gaussiani

Prima di procedere con una trattazione sistematica di alcuni argomen-ti di statistica matematica ci proponiamo in questa sezione di ricapitolarealcuni risultati classici sui campioni gaussiani che saranno utili in seguitocome spunto e come illustrazione di risultati generali.

Nel resto del capitoloξ1, . . . , ξn

sono da intendersi come variabili aleatorie indipendenti e identicamentedistribuite con legge gaussiana di media m e varianza σ2.

7.1. Stima della media con varianza nota. Supponiamo noto σ2.Per stimare m possiamo scegliere di utilizzare la media empirica

mn =1

n

n∑i=1

ξi.

In seguito vederemo come tale scelta possa essere variamente giustificata.Al momento assumiamola senz’altri commenti. Notiamo che, se indichiamocon E la speranza matematica,

E(mn) = m

Page 12: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

12 1. INTRODUZIONE, NOTAZIONI, ESEMPI

inoltre la varianza di mn e

V ar(mn) =σ2

n=: s2

n.

La legge forte dei grandi numeri assicura che mn converge quasi certamentea m. Queste proprieta suggeriscono che la nostra scelta non e del tuttoinsensata.

La variabile aleatoria mn, essendo somma di variabili aleatorie gaussiane,ha legge gaussiana di media m e varianza s2

n e, di conseguenza, la legge diMn := (mn −m)/sn e una gaussiana di media nulla e varianza 1. Ne segueche

Prob−c ≤Mn ≤ c = Φ(c)− Φ(−c) = 2Φ(c)− 1

dove Φ e la funzione di ripartizione di una gaussiana di media nulla e varianzaunitaria, ossia

Φ(x) =1√2π

∫ x

−∞e−t

2/2dt.

Poiche−c ≤Mn ≤ c

se e solo semn − snc ≤ m ≤ mn + snc,

anche senza sapre quale sia il valore di m, si puo concludere che la probabilitache l’intervallo aleatorio

[mn − cασ/√n,mn + cασ/

√n]

contenga m e 1−α, quando si scelga cα in modo che Φ(cα) = 1−α/2, ossia

cα = Φ−1(1− α/2).

In questo modo possiamo parzialmente rispondere alle domande dell’Esempio2.Infatti potremmo affermare che se ragionassimo come se m fosse contenutonel suddetto intervallo avremmo la probabilita 1−α di comportarci corretta-mente. Si puo procedere in modo del tutto analogo quando si sia interessatia stimare la varianza.

7.2. Stima della varianza con media incognita. Si voglia stimarela varianza. Come stimatore consideriamo qui la varianza empirica, ossia

S2n :=

1

n

n∑i=1

(ξi −mn)2.

Si noti che la legge forte dei grandi numeri implica che

S2n =

1

n

n∑i=1

ξ2i +m2

n − 2mn1

n

n∑i=1

ξi

converge quasi certamente a σ2.

Per quanto riguarda la distribuzione esatta di S2n si ha la seguente

Page 13: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

7. CAMPIONI GAUSSIANI 13

Proposizione 1.3. La distribuzione di nS2n/σ

2 e una χ2n−1 (chi quadrato

con n− 1 gradi di liberta) e quindi nS2n/σ

2 ha densita

x 7→ xn−12−1e−

12x

2(n−1)/2Γ((n− 1)/2)

per ogni x > 0. Inoltre Sn e mn sono stocasticamente indipendenti.

Dimostrazione. Calcoliamo la funzione caratteristica del vettore (mn, ξ1−mn, . . . , ξn−mn). Sia (t, t1, . . . , tn) un vettore di Rn+1. Posto t =

∑nj=1 tj/n,

si ha

E(expitmn + i

n∑j=1

tj(ξj −mn)) = E(expin∑j=1

(t

n+ tj − t)ξj)

= expitm− σ2

n

t2

2 exp−σ

2

2n(

1

n

n∑j=1

t2j − (1

n

n∑j=1

tj)2

= expitm− σ2

n

t2

2 exp−1

2(n∑j=1

t2j (1−1

n)σ2 −

∑1≤k 6=j≤n

tjtkσ2

n).

Nell’ultimo termine della precedente catena di uguaglianze si riconosce ilprodotto di due funzioni caratteristiche gaussiane. In particolare mn e (ξ1−mn, . . . , ξn−mn) risultano stocasticamente indipendenti, inoltre mn ha leggegaussiana di media m e varianza σ2/n mentre (ξ1 −mn, . . . , ξn −mn) e unvettore con legge gaussiana n–dimensionale con vettore delle medie nullo ematrice di varianze e covarianze

(1− 1n)σ2 −σ2

n . . . −σ2

n

−σ2

n (1− 1n)σ2 . . . −σ2

n. . . . . . . . . . . .

−σ2

n −σ2

n . . . (1− 1n)σ2

.Questo dimostra che Sn e mn sono stocasticamente indipendenti. Consid-eriamo ora un vettore di variabili aleatorie indipendenti identicamente dis-tribuite con legge gaussiana di media nulla e varianza unitaria (ζ1, . . . , ζn)Si verifica subito, con un semplice cambiamento di variabili, che

Probζ21 ≤ z =

1√2π

∫ z

0

1√te−tdt,

pertanto ζ21 ha legge Gamma di parametri (1/2, 1/2), ossia una χ2

1. Sfrut-tando il fatto che se Y1, . . . , Yn sono variabili aleatorie indipendenti condistribuzione Gamma(pi, λ), allora

∑i Yi ha legge Gamma(

∑pi, λ) (vedi

esercizi), si deduce che∑n

i=1 ζ2i ha legge χ2

n. Quindi

1

σ2

n∑i=1

(ξi −m)2

Page 14: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

14 1. INTRODUZIONE, NOTAZIONI, ESEMPI

ha funzione caratteristica

t 7→ 1

(1− 2it)n/2.

D’altra parte

1

σ2

n∑i=1

(ξi −m)2 =1

σ2

n∑i=1

(ξi −mn)2 +n

σ2(mn −m)2

e quindi, passando alle funzioni caratteristiche, dal momento che∑n

i=1(ξi−mn)2 e mn sono indipendenti

1

(1− 2it)n/2= φnS2

n/σ2(t)

1

(1− 2it)1/2

ossia

φnS2n/σ

2(t) =1

(1− 2it)(n−1)/2.

Il che conclude la dimostrazione.

Se indichiamo con Fχ2n−1

la funzione di ripartizione di una variabile

aleatoria χ2n−1, e con c1 e c2 due numeri tali che

Fχ2n−1

(c2)− Fχ2n−1

(c1) = 1− α

si ha che

Probc1 ≤ nS2n/σ

2 ≤ c2 = Fχ2n−1

(c2)− Fχ2n−1

(c2) = 1− α

e quindi la probabilita che σ2 appartenga a all’intervallo (aleatorio)

[nS2n/c2, nS

2n/c1]

e 1− α.

7.3. Stima della media con varianza incognita. Come procederequando la varianza sia incognita ma si sia interessati a stimare la media?Naturalmente mn rimane una stima valida, ma come possiamo possiamodeterminare agevolemente un intervallo di confidenza per m? La risposta edata dalla seguente

Proposizione 1.4. La distribuzione di

Tn =

√n(n− 1)(mn −m)√∑n

i=1(ξi −mn)2

e una T di Student con n− 1 gradi di liberta, ossia ha densita

Γ(n/2)

Γ((n− 1)/2)√π(n− 1)

(1 +

x2

n− 1

)−n/2x ∈ R.

Page 15: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

7. CAMPIONI GAUSSIANI 15

Dimostrazione. Prima di tutto si noti che Tn puo essere riscritto come

X√Yn−1

dove

X :=

√n

σ2(mn −m)

ha legge gaussiana di media nulla e variaza unitaria e

Y :=1

σ2

n∑i=1

(ξi −mn)2

ha legge χ2n−1, inoltreX ed Y sono stocasticamente indipendenti (cfr. Propo-

sizione 1.3). Osservato che Tn ha chiaramente una distribuzione simmetricaattorno all’origine, fissato u > 0 ne segue che

ProbTn ≤ u = ProbX − u√Y/(n− 1) ≤ 0

ovvero

ProbTn ≤ u =

∫ +∞

0

∫ u√y/(n−1)

−∞

1√2πe−

x2

2 dx2−(n−1)/2

Γ((n− 1)/2)y(n−1)/2−1e−y/2dy.

Derivando si ha che la densita di Tn calcolata in u e

f(u) =

∫ +∞

0

1√2πe−

u2

2y

n−1

√y

n− 1

2−(n−1)/2

Γ((n− 1)/2)y(n−1)/2−1e−y/2dy

=1

2n/2Γ((n− 1)/2)√π√n− 1

∫ +∞

0yn/2−1e

−y( 12

+ u2

2(n−1))dy

=1

2n/2Γ((n− 1)/2)√

(n− 1)π

Γ(n/2)

(12 + u2

2(n−1))n/2

=Γ(n/2)

Γ((n− 1)/2)√

(n− 1)π(1

2+

u2

2(n− 1))−n/2.

Ancora una volta possiamo concludere che

Prob−c ≤ Tn ≤ c = FTn−1(c)− FTn−1(−c) = 2FTn−1(c)− 1

dove FTn−1 e la funzione di ripartizione di una T di Student a n− 1 gradi diliberta. La seconda uguaglianza segue dalla simmetria attorno allo zero delladistribuzione T di Student. Senza sapere quale sia il valore di m e quale siaquelllo di σ, possiamo affermare che la probabilita che m appartenga a

[mn − Sncα/√n− 1,mn + Sncα/

√n− 1]

e 1− α secα = F−1

Tn−1(1− α/2).

Page 16: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi
Page 17: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

CAPITOLO 2

Concetti fondamentali

In questo capitolo introduciamo schematicamente alcuni concetti fonda-mentali di statistica, sia dal punto di vista della statistica frequentista, siadal punto di vista della statistica Bayesiana.

Nei capitoli successivi svilupperemo piu nel dettaglio quanto introdottoin questo capitolo.

1. Statistica frequentista

Nella statistica frequentista si assume che la legge del fenomeno oggettodi studio sia un ben determinato elemento di Pθ : θ ∈ Θ. In altri terminisi assume che le osservazioni siano realizzazioni di una variabile aleatoria ξla cui legge sia una certa Pθ0 con θ0 in Θ. Naturalmente θ0 e incognito e loscopo della statistica e fare dell’inferenza su questo parametro incognito.

In queste note distingueremo tre tipologie di problemi

• Stima puntuale• Stima per intervalli di confidenza• Test di ipotesi

1.1. Stima puntuale. Date le premesse, e chiaro che uno dei problemiprincipali della statistica frequentista sia quello di stimare il vero valore delparametro θ a partire dalla conoscenza del campione ξ = (ξ1, ξ2, . . . ), o, piuin generale, di una sua statistica, ossia di una funzione T (ξ). Spesso si einteressati a stimare una funzione di θ, diciamo τ(θ), e non direttamenteθ. Per questo motivo si introducono delle particolari statistiche a valorinell’immagine di τ che in un qualche senso permettano di approssimare ilvero valore τ(θ). Nel seguito supponiamo che Θ sia uno qualche sottoinsiememisurabile di RK e che τ : RK → RM .

Definizione 2.1. Dato il modello (X,X , Pθ) : θ ∈ Θ e una funzionemisurabile τ da Θ in RM , si dice stimatore puntuale di τ(θ) qualunquestatistica T (ξ) che associa ad ogni realizzazione di ξ un valore in RM .

Definizione 2.2. Sia τ una funzione a valori in R, uno stimatorepuntuale T (ξ) di τ si dice non distorto se

Eθ[T (ξ)] = τ(θ)

17

Page 18: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

18 2. CONCETTI FONDAMENTALI

per ogni θ in Θ.

Esempio 12. Si supponga che ξ = (ξ1, . . . , ξn) sia un vettore di variabilialeatorie indipendenti ed identicamente distribuite con funzione di ripar-tizione Fθ, ossia che

Pθξ1 ∈ A1, . . . , ξn ∈ An =

∫A1×···×An

dFθ(x1) . . . dFθ(xn).

Si supponga inoltre che Eθ[ξi] = τ(θ). Allora uno stimatore della media τ(θ)e la media empirica

T (ξ) =1

n

n∑i=1

ξi.

Ovviamente tale stimatore e anche non distorto.

La costruzione di stimatori puntuali e le proprieta di tali stimatoricostituiranno una parte importante di questo corso.

Qui ci limitiamo ad un semplice esempio.

Esempio 13 (Stime dei minimi quadrati). Si supponga, come gia vistonell’Esempio 10, che ogni osservazione ξi sia la somma di una parte sistem-atica e di un disturbo. In particolare si supponga che la parte sistematicasia esprimibile come αzi + β, con zi nota, e che il disturbo sia esprimibilecome una variabile aleatoria εi. Un metodo classico di stima puntuale (cherisale a Legandre e Gauss) consiste nella ricerca di stimatori di (α, β) cherendano minima un’opportuna penalizzazione quadratica. Il metodo proponein sostanza di stimare (α, β) con la coppia (αn, βn) che minimizza la sommadei quadrati dei disturbi

q(α, β) :=n∑i=1

ε2i =n∑i=1

(ξi − β − αzi)2.

Determinando i punti stazionari di q dalle equazioni

∂αq(α, β) = −2n∑i=1

(ξi − β − αzi)zi = 0

∂βq(α, β) = −2n∑i=1

(ξi − β − αzi) = 0

si ottiene

αn = ρnσ2,n

σ1,n

βn = m2,n −m1,nρnσ2,n

σ1,n

Page 19: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

1. STATISTICA FREQUENTISTA 19

dove

m1,n :=1

n

n∑i=1

zi

m2,n :=1

n

n∑i=1

ξi

σ1,n :=

√√√√ 1

n

n∑i=1

z2i −m2

1,n

σ2,n :=

√√√√ 1

n

n∑i=1

ξ2i −m2

2,n

ρn :=1

σ1,nσ2,n

( 1

n

n∑i=1

ziξi −m1,nm2,n

).

E’ facile verificare che (αn, βn) e punto di minimo assoluto di q(α, β); pertanto questo e detto vettore delle stime dei minimi quadrati.

1.2. Insiemi di confidenza. Naturalmente la stima puntuale non el’unico strumento di un’indagine statistica. Supponiamo, ad esempio, divoler stimare la durata in vita θ di una parte di un dato sistema. In certi casipiu che fissare una stima puntuale, si e interessati a stabilire una funzionedell’osservazione θ∗(ξ) per la quale si possa affermare che

Pθθ∗(ξ) ≤ θ ≥ 1− αper ogni θ in Θ, essendo α un numero positivo (piccolo) assegnato. In altritermini, si intende determinare un intervallo (aleatorio) [θ∗,+∞) che, conprobabilita elevata, contenga il vero valore incognito del parametro.

La stima di parametri mediante insiemi che ne contengano il vero valoreincognito viene detta stima mediante insiemi di confidenza.

Definizione 2.3. Dato il modello statistico (X,X , Pθ) : θ ∈ Θ, siaSx ⊂ Θ : x ∈ X una famiglia di sottoinsiemi di Θ. Tale famiglia e dettafamiglia d’insiemi di confidenza di livello (1− α) per θ se

PθSξ contiene θ ≥ 1− αper ogni θ in Θ.

Analoga definizione si puo dare sostituendo τ(θ) a θ.

Definizione 2.4. Dato il modello statistico (X,X , Pθ) : θ ∈ Θ e unafunzione τ del parametro θ, una famiglia Sx ⊂ τ(Θ) : x ∈ X di sottoinsie-mi di τ(Θ) e detta famiglia d’insiemi di confidenza di livello (1 − α)per τ(θ) se

PθSξ contiene τ(θ) ≥ 1− α

Page 20: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

20 2. CONCETTI FONDAMENTALI

per ogni θ in Θ.

Esempio 14. Sia (ξ1, . . . , ξn) un vettore aleatorio di variabili indipenden-ti ed identicamente distribuite con legge gaussiana di media m e varianzaσ2. Nel Paragrafo 7.1 abbiamo dimostrato che un intervallo di confidenzadi livello (1− α) per m quando σ2 sia noto e dato da

[mn − cασ/√n,mn + cασ/

√n]

dove

mn =1

n

n∑i=1

ξi.

e

cα = Φ−1(1− α/2).

Nel Paragrafo 7.2 abbiamo dimostrato che un intervallo di confidenza dilivello (1− α) per σ con m incognito e dato da

[nS2n/c2, nS

2n/c1]

dove S2n := 1

n

∑ni=1(ξi −mn)2 e c1 e c2 sono tali per cui

Fχ2n−1

(c2)− Fχ2n−1

(c1) = 1− α.

Nel Paragrafo 7.3 abbiamo dimostrato che un intervallo di confidenza dilivello (1− α) per m quando σ sia incognito e dato da

[mn − Sncα/√n− 1,mn + Sncα/

√n− 1]

se

cα = F−1Tn−1

(1− α/2).

1.3. Test di Ipotesi. Nel test d’ipotesi si e interessati, a partire daidati osservati, a discriminare se il parametro incognito θ0 appartenga o menoad un dato insieme Θ0. In generale si supporra Θ = Θ0∪Θ1, con Θ0∩Θ1 = ∅.Il fatto che θ0 appartegna a Θ0 viene generalmente riferito come ipotesi nul-la, in simboli H0, mentre il fatto che θ0 appartegna a Θ1 e comunementeindicato con il termine di ipotesi alternativa, H1. Se accettiamo H0 sti-amo sostenendo che il parametro incognito appartega a Θ0 e, per tanto, cicomporteremo di conseguenza, mentre se rifiutiamo H0 sosteniamo che ilparametro non appartenga ad Θ0.

Un test sara una metodologia per decidere se accettare o rifiutare H0,matematicamente

Definizione 2.5. Un test e una funzione misruabile

δ : X → [0, 1].

Page 21: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

1. STATISTICA FREQUENTISTA 21

Se in corrispondenza di un’osservazione x0 si ha δ(x0) = 1, allora lostatistico rifiuta H0, se δ(x0) = 0 allora lo statistico accetta H0, se inveceδ(x0) = p, con p ∈ (0, 1), lo statistico procede accettando o rifiutando inmodo casuale, con probabilita di rifiutare pari a p. In altri termini tirauna monetina con probabilita di testa pari a p e se esce testa rifiuta H0

mentre se esce croce l’accetta. Un simile test si dice randomizzato, mentrese δ(x) ∈ 0, 1 per ogni x in X, δ si dice non randomizzato.

Naturalmente lo statistico puo commettere due errori

• Errore di I tipo: rifiutare H0 mentre θ0 appartiene a Θ0,• Errore di II tipo: accettare H0 mentre θ0 non appartiene a Θ0.

Sebbene matematicamente il ruolo di H0 e H1 sia assolutamente sim-metrico nella pratica vi possono essere grandi differenze.

L’esempio piu classico e testare l’efficacia di un farmaco. In un modellosemplificato potremmo assumere che Θ0 = θ∗ e Θ1 = θ∗∗. Assumiamoche Θ0 corrisponda al fatto che il farmaco funzioni. Per esempio potremmoassumere che il nostro modello statistico sia costituito da una successionebernoulliana con probabilita di successo θ, con la convenzione che in ogniesperimento (=paziente sottoposto alla cura) la probabilita di guarire, sottoPθ, dopo aver assunto il farmaco e uguale a θ. Si potrebbe quindi volertestare θ∗ = 0.9 contro θ∗∗ = 0.1. Commettere un errore di primo tipocomporta l’immettere nel mercato un farmaco che non funziona, mentrel’errore di secondo tipo comporta di non immettere nel mercato un farma-co funzionante. In questo caso e ragionevole che ritenere piu grave l’erroredi primo tipo. Data questa asimmetria in genere si deve pensare all’erroredi primo tipo come il peggiore fra i possibili due errori. Questo classicoesempio dovrebbe spiegare come mai storicamente le definizioni e le proce-dure statistiche non considerano l’ipotesi nulla e l’ipotesi alternativa comesimmetriche.

Definizione 2.6. Dato un test δ, si introduce la funzione di potenza

β(θ, δ) = β(θ) := Eθ[δ(ξ)].

Chiaramente

se θ0 ∈ Θ0 allora β(θ0) = prob. errore I tipo

se θ0 ∈ Θ1 allora β(θ0) = 1− prob. errore II tipo.

Definizione 2.7. La taglia di un test e

Tg(δ) = supθ∈Θ0

β(θ, δ).

Definizione 2.8. Un test si dice di livello α se

Tg(δ) ≤ α.

Page 22: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

22 2. CONCETTI FONDAMENTALI

Definizione 2.9. La potenza di un test contro un’alternativa θ1 ∈ Θ1 edefinita come β(θ1).

Guardando θ 7→ β(θ) vorremmo che fosse una funzione prossima a zerosu Θ0 e prossima ad uno su Θ1. Dal momento che cio e in generale impossi-bile, si pensa a contenere l’errore di primo tipo sotto una certa soglia, ossia,fissato α in (0, 1), si considerano solo test di livello α.

Definizione 2.10. Un test δ0 e detto α-test piu potente contro θ1 ∈ Θ1

seTg(δ0) ≤ α e β(θ1, δ) ≤ β(θ1, δ0) ∀ δ : Tg(δ) ≤ α.

Spesso per costruire un test in generale si procede fissando un’opportunastatistica T : X → Rk e scegliendo come test

δ(ξ) = IT (ξ) ∈ Ccon C ⊂ Rk, oppure

δ(ξ) = IT (ξ) ∈ C+ γIT (ξ) ∈ ∂CPoiche per calcolare la taglia di un test occorre calcolare Eθ[δ(ξ)], risulteratutto semplificato se, almeno per θ ∈ Θ0, la legge di T (ξ) non dipendera daθ. Una statistica con tali caratteristiche e detta pivot. Un’esempio di talistatistiche e gia stato incontrato nel paragrafo precedente. In altri casi sipossono scegliere delle statistiche per cui sia nota la legge.

Esempio 15. Supponiamo di voler confrontare un trattamento con unplacebo. Ad esempio si vuole testare se un farmaco induce sonnolenza. Adun gruppo di n pazienti (scelti a caso) si somministra un giorno il place-bo e un’altro giorno il farmaco. Si registra poi in ξi la differenza delle oredi sonno con e senza farmaco per il paziente i. Se facciamo l’ipotesi (sinoti che e un’ipotesi!) che le osservazioni ξi siano indipendenti ed identi-camente distribuite con comune legge gaussiana di media incognita m e divarianza nota (per semplicita) σ2, possiamo formulare il problema come unproblema di test d’ipotesi. Si tratta di testare Θ0 = (−∞, 0) contro l’alter-nativa Θ1 = [0,+∞). Infatti se m > 0 la media della differenza fra le oresi sonno prima e dopo il trattamento e positivo e quindi si puo ragionevol-mente ritenere che il farmaco non induca sonnolenza, mentre se m < 0 lasituazione e ribaltata. Come si vede nella scelta di chi sia H0 e chi H1

preferiamo essere conservativi e non rischiare di affermare che un farmaconon induca sonnolenza qunado invece la induce. Infatti l’errore di primotipo e affermare che il farmaco non induce sonnolenza (H0) quando invecela induce. Con riferimento a 7.1, consideriamo il test

δc(ξ) = ITn > ccon

Tn(ξ) =

√nmn

σ=

1

σ√n

n∑i=1

ξi.

Page 23: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

2. STATISTICA BAYESIANA 23

Chiaramente

β(m, δc) = PmTn(ξ) > c = PMn > c−

√nm

σ

= Φ

(− c+

√nm

σ

)dove

Mn :=mn −m

σ

√n ∼ N (0, 1)

e Φ e la funzione di ripartizione di una gaussiana standard. Quindi, dalmomento che Φ e una funzione monotona non decrescente

supm≤0

β(m, δc) = Φ(−c)

e dunque se scegliamo cα in modo che

Φ(−cα) = α ossia cα = −Φ−1(α)

otteniamo un test di livello α.

2. Statistica Bayesiana

Un approccio completamente diverso all’indagine statistica e quello del-la statistica bayesiana. La statistica bayesiana differisce dalla statistica fre-quentista sia per i metodi sia per i principi “filosofici” su cui si basa. Peruna discussione approfondita sul tema si rinvia al Capitolo 4, Sezioni 4.1-4.2-4.3 e al Capitolo 5, Sezioni 5.1.1 - 5.1.2 - 5.1.3 di [1]. Nel seguito esponi-amo sinteticamente alcuni punti base della statistica bayesiana. Nei capitolisuccessivi avremo modo di tornare piu approfonditamente sull’argomento.

Il concetto chiave sul quale si basa la statistica bayesiana e il concettodi probabilita condizionale e, in varie forme, il teorema di Bayes.

Ricordiamo che il teorema di Bayes, nella sua versione elementare, af-ferma che, dato uno spazio di probabilita (Ω,F , P ), se H1, H2, . . . e unapartizione di Ω ed E e un determinato evento con P (E) > 0, allora

P (Hj |E) =P (E|Hj)P (Hj)

P (E)=

P (E|Hj)P (Hj)∑i P (E|Hi)P (Hi)

.

L’interpretazione e la seguente. La partizione rappresenta un insieme diipotesi (H1, H2, . . . ) (ipotesi che possono essere pensate come determinatecircostanze e che hanno il ruolo di parametri) sulle quali sappiamo forniredelle valutazioni di probabilita (ossia P (Hi)). Inoltre si suppone che con-dizionatamente ad una data ipotesi sappiamo valutare la probabilita di E,ossia sappiamo fornire P (E|Hi). Nel processo di osservazione immagini-amo di osservare il verificarsi di E. Naturalmente non conosciamo qualedelle ipotesi si sia verificata, allora “aggiorniamo” la probabilita delle ipote-si usando il terema di Bayes. La nostra opinione iniziale P (Hi) sul’ipote-si Hi diventa un’opinione finale (o a posteriori) P (Hi|E). In questo mo-do abbiamo descritto probabilitisticamente il processo di apprendimento.

Page 24: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

24 2. CONCETTI FONDAMENTALI

P (H1), . . . , P (Hn) descrivera la nostra opinione iniziale sui parametri, P (E|Hi)sara il nostro modello e P (Hi|E) la nostra opinione dopo l’esperimento.

Prima di proseguire, ricordiamo che, se (X,Y ) e un vettore aleatorio condensita g(x, y) rispetto alla misura di lebesgue o di conteggio (indicata conµ(dxdy)), la densita condizionale di X dato Y e

gX|Y (x|y) :=g(x, y)

gY (y)

dove g2(y) =∫g(x, y)µ(dx). In questo caso il teorema di Bayes e semplice-

mente

gY |X(y|x) =gX|Y (x|y)gY (y)∫

gX|Y (x|u)gY (u)µ(du).

A differenza di quanto visto per la statistica frequentista, nella statisticabayesiana non si suppone l’esistenza di una legge “vera” Pθ0 , che descrivela legge di probabilita del nostro processo di osservazione, ma si consideraanche il parametro come un ente aleatorio. In altri termini si considera unvettore aleatorio (ξ, θ) a valori in (X × Θ) e non piu solo ξ. Il fatto diconsiderare la legge congiunta di parametro ed osservazioni consente, comevedremo, di utilizzare i principi della probabilita non solo per descrivere ifenomeni studiati (il processo di osservazione), ma anche per descrivere ilprocesso di apprendimento dall’esperienza.

Come sempre supponiamo che X ⊂ Rn e Θ ⊂ Rd. Un modello statisticoBayesiano, in questo caso, e dato da

Θ, π,X, P (·|θ)

dove: P (·|θ) = Pθ e la legge del vettore delle osservazioni nell’ipotesi che ilparametro incognito sia θ, Θ e uno spazio di parametri dei quali varia θ, πe una misura di probabilita (m.d.p.) su Θ.

A questo punto occorre definire la legge congiunta di osservazioni-parametro.Ancora una volta supponiamo che Pθ sia assolutamente continua ed ammet-ta una densita f(x|θ) per ogni θ in Θ. Si noti che f(x|θ) e esattamentecio che in precedenza abbiamo indicato con fθ(x), tuttavia, per motivi chesaranno chiari fra poco, preferiamo qui una differente notazione.

Per assegnare la legge congiunta di osservazioni-parametro, si ricorreal paradigma di Bayes-Laplace. Ossia: la legge congiunta del processo diosservazione e del parametro e data da

(3) Pξ1 ∈ dx1, . . . , ξn ∈ dxn, θ ∈ dθ = f(x1, . . . , xn|θ)dx1 . . . dxnπ(dθ)

Si noti che (3) non e altro che una forma abbreviata per indicare che laprobabilita P e l’unica probabilita caratterizzata dal fatto che

Pξ1 ∈ A1, . . . , ξn ∈ An, θ ∈ B =

∫A1×···×An×B

f(x1, . . . , xn|θ)dx1 . . . dxnπ(dθ)

Page 25: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

2. STATISTICA BAYESIANA 25

per ogni scelta di insiemi misurabili A1, . . . , An, B. Tale forma abbreviatasara spesso usata nel resto di questi appunti.

Si noti anche che, con le precedenti posizioni, f(x1, . . . , xn|θ) risulta

essere la densita condizionale di (ξ1, . . . , ξn) dato θ.

Ne segue che la legge marginale delle osservazioni e

Pξ1 ∈ dx1, . . . , ξn ∈ dxn =[ ∫

Θf(x1, . . . , xn|θ)π(dθ)

]dx1 . . . dxn.

Schematicamente:

• Si fissa una distribuzione iniziale (prior) π sullo spazio dei parametriΘ. La prior doverbbe riflettere l’opinione iniziale di chi si ap-presta a fare inferenza.• Il parametro incognito si pensa come realizzazione di una variabile

aleatoria con distribuzione π,

θ ∼ π(dθ).

• Condizionatamente a θ i dati (x1, . . . , xn) si pensano come realiz-

zazioni di una successione di v.a. ξ1, . . . , ξn con densita f(x1, . . . , xn|θ),in simboli

(ξ1, ξ2, . . . , ξn)|θ ∼ f(x1, . . . , xn|θ)dx1 . . . dxn.

In questo caso f(x|θ) deve incorporare la nostra idea sul modellonell’ipotesi che il parametro sia θ.

Come accennato, uno dei punti cruciali dell’impostazione Bayesiana eil fatto che consente di formalizzare il processo di apprendimento dall’es-perienza. Infatti osservato (ξ1, . . . , ξn) = (x1, . . . , xn) si aggiorna l’opinioneiniziale sul parametro incognito (ossia π(dθ)) con il teorema di Bayes.

Applicando il teroema di Bayes nella verisione appena ricordata per den-sita, se supponiamo π(dθ) = π(θ)dθ, otteniamo la densita finale (posterior)

(ossia la densita condizionale di θ dato (ξ1, . . . , ξn)).

Definizione 2.11. La denista finale, posterior, e data da

π(θ|x1:n) =f(x1, . . . , xn|θ)π(θ)∫

Θ f(x1, . . . , xn|u)π(u)du

dove

x1:n = (x1, . . . , xn).

Si noti che con un certo abuso di linguaggio abbiamo usato lo stessosimbolo per la misura di probabilita π e la sua densita. Occorre pero nonfare confusione fra le due.

Il passaggio da π a π(·|x1:n) e cio che abbiamo appreso dai dati.

Page 26: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

26 2. CONCETTI FONDAMENTALI

Si noti che in generale, visto che abbiamo supposto che il modello Pθ sipossa sempre scrivere come

Pθ(dx) = fθ(x)µ(dx)

per un’opportuna misura σ-finita µ, il postulato di Bayes-Laplace risultasemplicemente

Pξ1:n ∈ dx1:n, θ ∈ dθ = f(x1, . . . , xn|θ)µ(dx1:n)π(dθ).

La foruma della distribuzione finale resta identica

π(dθ|x1:n) =f(x1, . . . , xn|θ)π(dθ)∫

Θ f(x1, . . . , xn|u)π(du).

Esercizio 1. Dimostrare la formula precedente.

Supponendo che il processo di osservazione sia proseguibile, si puo con-siderare anche la distribuzione predittiva, ossia

Pξn+1 ∈ dxn+1|ξ1:n = x1:n

Essa serve se si vuole dare una previsione dell’n + 1–esima osservazioneavendo osservato le prime n-realizzazioni del processo di osservazione.

Molto spesso si assume che, per ogni n ≥ 1,

f(x1, . . . , xn|θ) =

n∏i=1

f(xi|θ),

ossia che, condizionatamente al parametro θ, le osservazioni siano indipen-denti ed identicamente distribuite con densita f(·|θ). Chiaramente in questocaso il processo e infinitamente proseguibile. Inoltre notiamo che poiche

Pξ1 ∈ dx1, . . . , ξn ∈ dxn =

∫Θ

n∏i=1

f(xi|θ)dx1 . . . dxnπ(dθ),

la legge di (ξ1, . . . , ξn) e scambiabile, ossia invariante per permutazioni fi-nite. In altri termini, per ogni permutazione di σ di 1, . . . , n la legge di(ξ1, . . . , ξn) e ugale alla legge di (ξσ(1), . . . , ξσ(n)).

Nel caso ora esaminato la distribuzione predittiva prende la forma par-ticolarmente significativa

Pξn+1 ∈ dxn+1|ξ1:n = x1:n =

∫Θf(xn+1|θ)π(θ|x1:n)dθdxn+1.

Esercizio 2. Dimostrare la formula precedente.

Vi sono due tipi diversi di inferenza nella statistica bayesiana: l’inferenzapredittiva e l’inferenza sul parametro.

Page 27: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

2. STATISTICA BAYESIANA 27

-INFERENZA PREDITTIVA. Essa risponde alla necessita di fornire unavalutazione di probabilita sull’n + k–esima osservazione condizionatamentealla conoscenza delle prime n-realizzazioni del processo di osservazione. Sibasa sulla determinazione della distribuzione predittiva. In ques’ottica ladeterminazione della distribuzione finale e solo uno strumento per calcolarela distribuzione finale e non ha particolare interesse in se stesso. Si veda5.1.2 e 5.1.3 in [1].

-INFERENZA PARAMETRICA. E’ l’inferenza che ha come oggetto ilparametro θ. Per tale tipo di inferenza si puo riportare la legge finale oppurequalche sua funzione. Ad esempio, se il parametro di interesse e un numeroreale, si puo calcolare la media a posteriori

E[θ|ξ1:n = x1:n] =

∫Rθπ(θ|x1:n)dθ

e la varianza a posteriori∫R

(θ −∫Ruπ(u|x1:n)du)2π(θ|x1:n)dθ

per avere un riassunto delle informazioni realtive alla distribuzione a poste-riori del parametro. In questo caso si pensa al parametro θ (e di conseguenzaalla sua legge) come qualcosa interessante dal punto di vista statistico. Inquesto ambito e possibile formulare sia problemi di stima (puntuale o perintervalli) del parametro, sia problemi di test d’ipotesi. Anche se occorretenere a mente che per l’impostazione Bayesiana il parametro e esso stessoun ente aleatorio, e quindi non avra senso paralere di parametro vero.

2.1. Elementi di teoria delle decisioni. La teoria delle decisioini eun ampio settore della statistica. Essa e utilizzata sia in ambito frequentistache in ambito classico. Qui introduciamo alcuni elementi minimali di teoriadelle decisioni per far campire come essa possa essere utilmente usata inambito bayesiano per guidare le scelte dello statistico.

Lo studente interessato legga il paragrafo 2.5 di Ghosh et al. [4].

Schematicamente nella teoria delle decisioni si hanno

• A: spazio delle azioni.• D: spazio delle decisioni , ossia un insieme di funzioni (misurabili)

da X in A.• L: funzione di danno. L : Θ × A → R+, tale per cui L(θ, a) -

rappresenta la perdiata alla quale va in contro lo statistico chesceglie a quando il parametro e θ.

Nel seguito poniamo supponiamo che

X = Rn

e indichiamo con f(x1, . . . , xn|θ) la densita di Pθ.

Page 28: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

28 2. CONCETTI FONDAMENTALI

A partire dalla verosimiglianza f e dalla funzione di danno L, per ognidecisione δ si possono definire vari costi.

Definizione 2.12. Il costo medio di una decisione δ e

Rn(θ, δ) := E[L(θ, δ(ξ1:n))|θ = θ] =

∫RnL(θ, δ(x1:n))f(x1:n|θ)dx1 . . . dxn.

Definizione 2.13. Il costo iniziale di una decisione δ e

Rn(δ) :=

∫ΘRn(θ, δ)π(dθ) = E[L(θ, δ(ξ1:n))].

Definizione 2.14. Il costo a posteriori di una decisione δ:

ψn(δ(ξ1:n)) := E[L(θ, δ(ξ1:n))|ξ1:n] =

∫ΘL(θ, δ(ξ1:n))π(θ|ξ1:n)dθ.

Definizione 2.15. Bayes estimator. Una scelta Bayesiana ottima aposteriori e definita come un elemento δn di D tale che

ψn(δn(ξ1:n)) = minδ∈D

ψn(δ(ξ1:n))

per ogni realizzazione di ξ1:n.

Chiaramete E(ψn(δ(ξ1:n)) = E(E[L(θ, δ(ξ1:n))|ξ1:n]) = Rn(δ).

A questo punto si verifica facilmente (farlo per esercizio) che ogni sceltabayesiana ottima a posteriori minimizza Rn(δ). (Si veda il Thm.2.7 in Ghoshet al. [4].)

Esempio 16 (Stima puntuale-costo quadratico). In questo caso

A = Θ = Re

L(θ, a) = |θ − a|2.Allora

Rn(θ, δ) =

∫Rn|θ − δ(x1:n)|2f(x1, . . . , xn|θ)dx

e l’errore quadratico medio. Lo stimatore Bayesiano e in questo caso lamedia a posteriori, infatti

argminδE[|θ − δ(ξ1:n)|2|ξ1:n] = E[θ|ξ1:n].

Questo esempio giustifica l’uso (assai frequente) della media a posterioricome stima bayeisiana del parametro.

Esempio 17 (Tests). In questo caso

A = 0, 1dove 0 = accetto H0 = θ ∈ Θ0 e 1 = rifiuto H0, ossia vale H1 = θ ∈ Θ1,dove Θ0 ∪Θ1 = Θ. Se

L(θ, a) = 1− IΘa(θ),

Rn(θ, δ) risulta uguale all’errore di primo tipo se θ appartiene a Θ0 a quellodi secondo tipo se θ appartiene a Θ1.

Page 29: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

2. STATISTICA BAYESIANA 29

2.2. Due esempi base.

Esempio 18 (Binomiale-Beta). Consideriamo il caso in cui

X = 0, 1n, Θ = (0, 1)

e assumiamo che le osservazioni siano indipendenti e identicamente dis-tribuite condizionatamente al parametro θ con densita

f(x|θ) = θx(1− θ)1−x x = 0, 1 θ ∈ (0, 1).

Come prior scegliamo

π(dθ) = B(a, b)−1I(0,1)(θ)θa−1(1− θ)b−1dθ (a > 0, b > 0)

con

B(a, b) =

∫ 1

0θa−1(1− θ)b−1dθ.

In questo caso la legge congiunta e

Pθ ∈ dθ, ξ1:n = x1:n = θ∑ni=1 xi(1− θ)1−

∑ni=1 xiθa−1(1− θ)b−1 I(0,1)(θ)

B(a, b)dθ.

e la posterior e

π(θ|x1:n) =θa+

∑ni=1 xi−1(1− θ)b+n−

∑ni=1 xi−1J(0,1)(θ)

B (a+∑n

i=1 xi, b+ n−∑n

i=1 xi).

Possiamo calcolare media e varianza a posteriori:

E[θ|ξ = x1:n] =a+

∑ni=1 xi

a+ b+ n

V ar[θ|ξ = x1:n] =(a+

∑ni=1 xi)(b+ n−

∑ni=1 xi)

(a+ b+ n)2(a+ b+ n+ 1).

Si ricordi che se X e una variabile con legge Beta(a, b) allora

E(X) =a

a+ b

V ar(X) =ab

(a+ b)2(a+ b+ 1).

Esempio 19 (Normale-Normale). Consideriamo

X = Rn, Θ = R

π(dθ) =1√2πa

exp− 1

2aθ2dθ = N (0, a)(dθ).

Anche in questo caso assumiamo che le osservazioni siano condizionata-mente (al parametro) indipendenti con comune densita

f(x|θ) =1√2π

exp−1

2(x− θ)2.

Page 30: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

30 2. CONCETTI FONDAMENTALI

Allora

π(θ|x1:n) ∝ exp−1

2

n∑i=1

(xi − θ)2 − 1

2θ2/a

= exp−1

2(

n∑i=1

x2i + θ2(n+ 1/a)− 2

n∑i=1

xiθ)

∝ exp−1

2(n+ 1/a)

(θ − 1

n+ 1/a

n∑i=1

xi

)2

ossia la distribuzione finale di θ e

N( 1

n+ 1/a

n∑i=1

xi,1

n+ 1/a

).

Media e varianza a posteriori sono:

E[θ|ξ = x1:n] =1

n+ 1/a

n∑i=1

xi

V ar[θ|ξ = x1:n] =1

n+ 1/a.

Esercizio 3. Si consideri

Xn = R, Θ = R

π(dθ) =1√2πa

exp− 1

2a(θ − η)2dθ = N (η, a)(dθ).

f(x|θ) =1√

2πσ2exp− 1

2σ2(x− θ)2

(σ,η ed a noti). Dimostrare che

π(dθ|x1:n) = N(

a+

1

σ2

n∑i=1

xi)/(a−1 + n/σ2),

σ2a/n

σ2/n+ a

)(dθ).

Page 31: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

CAPITOLO 3

Stime di massima verosimiglianza.

1. Funzione di Verosimiglianza

Sia (X,X , Pθ) : θ ∈ Θ un modello statistico dove Pθ abbia densita fθ.

Definizione 3.1. Data una realizzazione x di ξ, la funzione

θ 7→ fθ(x) =: vx(θ)

e detta funzione di verosimiglianza.

Espressioni della funzione di verosimiglianza per alcuni modelli notevolivengono presentate nei successivi esempi.

Esempio 20. (Modello Bernoulliano). Si consideri il modello bernoul-liano definito nell’Esempio 6. Per ogni campione osservato x = (x1, . . . , xn)in 0, 1n, la funzione di verosimiglianza e

vx(θ) = θ∑i xi(1− θ)n−

∑i xi

con θ ∈ [0, 1].

Esempio 21. (Modello Poissoniano). Si consideri il modello poissonianodefinito nell’Esempio 7. In questo caso si ha, per ogni x = (x1, . . . , xn) ∈ Nn0 ,

vx(θ) =1∏n

i=1 xi!θ∑i xie−nθ.

Esempio 22. (Modello Gaussiano). Si consideri il modello gaussianodefinito nell’Esempio 8. Per ogni x = (x1, . . . , xn) ∈ Rn e per ogni θ =(µ, σ2) ∈ R× R+ si ha

vx(θ) =1

(2πσ2)n/2exp

− n

2σ2(s2 + (µ− x)2)

dove x := 1

n

∑ni=1 xi e s2 :=

∑ni=1

(xi−x)2

n .

Esempio 23. (Regressione gaussiana). Si consideri il modello di regres-sione lineare definito nell’Esempio 11 con d = 2, θ = (α, β), zi = (zi,1, 1),ossia gθ(t) = αt+ β. Per ogni x = (x1, . . . , xn) in Rn e per ogni θ = (α, β)in R× R si ha

vx(θ) =1

(2πσ2)n/2exp

− 1

2σ2

n∑i=1

(xi − αzi,1 − β)2

31

Page 32: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

32 3. STIME DI MASSIMA VEROSIMIGLIANZA.

2. Stimatori di massima verosimiglianza

Il termine verosimiglianza (traduzione di likelihood usato da Fisher)sarebbe coerente con la seguente interpretazione: i valori di θ in corrispon-denza ai quali vξ(θ) risulta piu elevata sarebbero da ritenersi vicini al veroin quanto in corrispondenza ad essi risulterebbe elevata la probabilita (o ladensita) associata a ξ. E’ sembrato lecito (a partire da Fisher) proporrecome metodo per stimare il vero parametro incognito di scegliere un valoreθ che massimizzi

θ 7→ vξ(θ).

Definizione 3.2. Uno stimatore θ e chiamato stimatore di massimaverosimiglianza se in corrispondenza di θ(ξ) la funzione di verosimiglianzaθ 7→ vξ(θ) e massimizzata.

Come dimostrano i seguenti esempi puo essere comodo determinare ilminimo di θ 7→ − log vx(θ) al posto del massimo di θ 7→ vx(θ).

Esempio 24. (Modello Poissoniano). Si consideri il modello poissonianodefinito nell’Esempio 7 derivando e immediato determinare che il massimodi

θ 7→ log(vx(θ)) =n∑i=1

xi log(θ)− nθ − log(n∏i=1

xi!)

e raggiunto in∑n

i=1 xi/n, ossia lo stimatore di massima verosimiglianza diθ basato su (ξ1, . . . , ξn) e

θn =1

n

n∑i=1

ξi.

Esempio 25. (Modello Gaussiano). Si consideri il modello gaussianodefinito nell’Esempio 8. Ancora per derivazione e facile vedere che lo sti-matore di massima verosimiglianza di (m,σ2) e dato da

mn =1

n

n∑i=1

ξi σ2n =

1

n

n∑i=1

(ξi − mn)2.

Esempio 26. (Modello di regressione gaussiano). Si consideri il modellodi regressione definito nell’Esempio 23 con varianza nota σ2. Osserviamoche massimizzare log(vx(θ)) equivale a minimizzare

n∑i=1

|xi − β − αzi,1|2

e quindi lo stimatore di massima verosimiglianza di (α, β) coincide, in questocaso particolare, alla stima ai minimi quadrati vista nell’Esempio 13.

Page 33: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

3. ESERCIZI 33

3. Esercizi

Esercizio 4. Siano ξ1, . . . , ξn variabili aleatorie indipendenti con leggecomune Gamma di parametri (α, 1/λ), con λ > 0, α > 0, ossia con comunedensita di probabilita

fα,1/λ(x) = I(0,+∞)(x)xα−1

λαΓ(α)e−x/λ.

Supposto noto α determinare lo stimatore di massima verosimiglianza λn diλ basato sul campione ξ1, . . . , ξn e calcolare E(λn).

Esercizio 5. Siano ξ1, . . . , ξn v.a. indipendenti con comune legge diPoisson di parametro λ > 0, i.e. tali che

Pξi = k =λke−λ

k!(k ≥ 0).

(1) Determinare lo stimatore di massima verosimiglianza λn di λ basatosul campione ξ1, . . . , ξn

(2) Calcolare E(λn).

Esercizio 6. Siano ξ1, . . . , ξn variabili aleatorie indipendenti con leggecomune Weibull di parametri (α, λ), α > 0 e λ > 0, ossia con comunedensita di probabilita

fα,λ(x) = I(0,+∞)(x)αxα−1

λe−x

α/λ.

(1) Supposto noto α determinare lo stimatore di massima verosimiglian-

za λn di λ basato sul campione ξ1, . . . , ξn;(2) calcolare E(λn).

Esercizio 7 (Cfr. Esercizi 10 e 12). Sia (ξn)n≥1 una successione dii.i.d. con comune densita di probabilita

fλ,a(x) = λaλ1

xλ+1I(a,+∞)(x) (a > 0, λ > 0).

Si ponga Yi = log(ξi/a) e Tn =∑n

i=1 Yi.

(1) Dimostrare che Yi ha legge esponenziale di parametro λ.(2) Dimostrare che

E(1

Tn) =

λ

n− 1.

(3) Noto λ determinare lo stimatore di massima verosimiglianza di a.(4) Noto a determinare lo stimatore di massima verosimiglianza di λ.

Esercizio 8 (Cfr. Esercizi 9 e 11). Sia (ξn)n≥1 una successione di i.i.d.con comune legge esponenziale di parametri (a, λ).

(1) Si scriva la verosimiglianza delle prime n osservazioni.

Page 34: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

34 3. STIME DI MASSIMA VEROSIMIGLIANZA.

(2) Si mostri che noto a lo stimatore di massima verosimiglianza di λe dato da

λn :=n∑n

i=1(ξi − a)

e cheE(λn) =

n

n− 1λ.

(3) Si mostri che noto λ lo stimatore di massima verosimiglianza di ae dato da

νn := minξ1, . . . , ξne che

E(νn) =1

λn+ a.

Page 35: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

CAPITOLO 4

Sufficienza e Completezza.

1. Statistiche Sufficienti.

Come gia ricordato qualunque funzione del campione ξ e usualmentechiamata statistica o riassunto del campione.

La prima caratteristica di cui tratteremo e la sufficienza. Il concettodi sufficienza in statistica e molto intuitivo: si tratta di definire quandouna statistica, che di per se rappresenta una forma di riduzione dei dati,non comporti perdita di informazione nel contesto di un modello statisticoPθ, θ ∈ Θ.

Chiaramente se ξ = (ξ1, . . . , ξn) e un vettore aleatorio che rappresenta ilprocesso di osservazione e T (ξ1, . . . , ξn) e una opportuna statistica a valoriin RM , allora, fissato θ, resta ben definita la legge congiunta del vettore

(ξ, T (ξ)).

Supponiamo che tale legge sia discreta e indichiamo con gθ la sua densita,ossia

gθ(x, t) = Pθξ = x, T (ξ) = t.

Per costruzione ∑t

gθ(x, t) = fθ(x) = Pθξ = x.

Inoltre la densita marginale di T (ξ) e

gθ:T (t) =:∑x

gθ(x, t)

e la densita condizionale di ξ dato T (ξ) = t

gθ:ξ|T (x|t) =gθ(x, t)

gθ:T (t)= Pθξ = x|T (ξ) = t.

Si noti che occorre concordare sulla definizione di gθ:ξ|T (x|t) nel caso incui PθT (ξ) = t = 0. In questo caso la definizione di gθ:ξ|T (x|t) e arbitraria,infatti per qualunque scelta resta vera la relazione

Pθξ = x, T (ξ) = t = Pθξ = x|T (ξ) = tPθT (ξ) = t,35

Page 36: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

36 4. SUFFICIENZA E COMPLETEZZA.

che possiamo assumere come definizione di probabilita condizionale anchequando PθT (ξ) = t = 0. Data l’arbitrarita di tale scelta, sarebbe piucorretto parlare di una versione della densita condizionale di ξ dato T (ξ).

Nel caso in cui la legge di ξ sia discreta, una statistica T e detta suffi-ciente se (una versione del)la densita condizionale di ξ dato T (ξ) = t, nondipende da θ per ogni valore di t.

La definizione precedente va precisata con maggior cura nel caso in cui lalegge di (ξ, T (ξ)) non sia discreta. Ad esempio se ξ ha distribuzione uniformesu [−θ, θ] e T (ξ) = ξ2 il vettore congiunto (ξ, T (ξ)) non e discreto e nemmenoassolutamente continuo. Tuttavia, come ricordato in precedenza, si puoconsiderare egualmente la legge condizionale di ξ dato T (ξ), ad esempiocalcolando la funzione di ripartizione condizinale. In questo esempio si puodimostrare che

dFθ:T (ξ)(t) = I(0,θ)(t)dt

2θ√t

dFθ:ξ|T (ξ)(x|t) =1

2δ−√t(dx) +

1

2δ+√t(dx).

La formula precedente e intuitiva perche fissato ξ2 = t e chiaro che persimmetria (la distribuzione di ξ e uniforme) ξ = ±

√t con probabilita 1/2.

Naturalmente il discorso precedente e solo intuitivo. Lo studente interessatopuo provare a dimostrare quanto enunciato usando la definizione di funzionedi ripartizione condizionale. In ogni caso, prendendo per buona la precedenteformula, in questo caso dFθ:ξ|T (ξ)(x|t) non dipende da θ.

Definizione 4.1. Una statistica T e detta sufficiente se la legge con-dizionale di ξ dato T (ξ) non dipende da θ.

Esempio 27. a) Nell’Esempio 6 si consideri T (x) =∑n

i=1 xi =: |x|. Dalmomento che(4)

Pθ(ξ1 = x1, ..., ξn = xn||ξ| = s) =

0 se s 6= |ξ|Pθ(ξ=x1,...,ξn=xn)

Pθ(|ξ|=s) = 1/( ns)

se s = |ξ|,

Dunque |ξ| e una statistica sufficiente.

b) Nell’Esempio 7 si ponga T (x) =∑n

i=1 xi =: |x|. Si ha(5)

Pθ(ξ = x1, ..., ξn = xn||ξ| = s) =

0 se s 6= |ξ|Pθ(ξ=x1,...,ξn=xn)

Pθ(|ξ|=s) = s!∏ni=1 xi!

1ns se s = |ξ|.

Anche in questo caso essa non dipende da θ e dunque |ξ| e una statisticasufficiente.

Quando si ha a che fare con modelli che non sono discreti verificare pervia diretta se una statistica sia sufficiente puo essere complicato. Per questomotivo risulta molto utile il successivo teorema.

Page 37: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

1. STATISTICHE SUFFICIENTI. 37

Teorema 4.2 (di fattorizzazione di Neyman). Sia (X,X , Pθ : θ ∈ Θ)uno modello statistico dominato. Una statistica T (ξ) e sufficiente se e solo seper ogni θ ∈ Θ esiste una funzione misurabile φθ ed una funzione misurabileh tale che tale che x 7→ φθ(T (x))h(x) sia una densita di ξ sotto Pθ.

In altri termini

T e sufficiente ⇔ fθ(x) = Φθ(T (x))h(x).

La dimostrazione di questo teorema e omessa perche richiede strumentileggermente piu sofisticati di quelli presupposti per il corso. Dimiostriamoil teorema solo nel caso semplice in cui la legge di ξ sia discreta.

Dimostrazione per il caso discreto. Supponiamo che

fθ(x) = Φθ(T (x))h(x).

Dal momento che T e una funzione deterministica, per ogni x tale che Pθξ =x > 0 esiste un’unico t tale che t = T (x), inoltre si ha che

PθT (ξ) = t =∑

y:T (y)=t

Pθξ = y ≥ Pθξ = x > 0.

Siano allora (x, t) tali che Pθξ = x > 0 e t = T (x). In questo caso

Pθξ = x|T (ξ) = t =Pθξ = x, T (ξ) = t

PθT (ξ) = t=

Pθξ = x, T (x) = t∑y:T (y)=t Pθξ = y

=Pθξ = x∑

y:T (y)=t Pθξ = y=

Φθ(T (x))h(x)∑y:T (y)=t Φθ(T (y))h(y)

=Φθ(t)h(x)∑

y:T (y)=t Φθ(t)h(y)=

h(x)∑y:T (y)=t h(y)

che non dipende da θ. Se t 6= T (x) la distribuzione condizionale e ugualea zero e quindi non dipende da θ, infine se Pθξ = x = 0 il calcolo delladistribuzione condizionale non e rilevante per l’osservazione fatta all’iniziodel paragrafo.

Viceversa, supponiamo che T sia sufficiente. Considerando ancora unacoppia (x, t) tale che Pθξ = x > 0 e t = T (x). In questo caso

Pθξ = x = Pθξ = x, T (x) = t = Pθξ = x, T (ξ) = t= Pθξ = x|T (ξ) = tPθT (ξ) = t.

Dal momento che t = T (x) si ha che

PθT (ξ) = t =∑

y:T (y)=T (x)

Pθξ = y =: Φθ(T (x))

e, per l’ipotesi di sufficienza,

Pθξ = x|T (ξ) = t = Pθξ = x|T (ξ) = T (x) =: h(x).

Cio conclude la dimostrazione.

Page 38: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

38 4. SUFFICIENZA E COMPLETEZZA.

Definizione 4.3. Una statistica sufficiente U(ξ) per un modello (X,X , Pθ :θ ∈ Θ) e detta minimale se per ogni statistica sufficiente T (ξ) esiste unafunzione misurabile g tale che

PθU(ξ) = g(T (ξ)) = 1

per ogni θ.

Una statistica minimale e detta anche necessaria. Infatti essa rappre-senta il risultato della riduzione massima per l’osservazione campionaria.

2. Statistiche complete.

Definizione 4.4. Una statistica T si dice completa se per ogni funzioneφ misurabile, tale che Eθ[|φ(T (ξ))|] < +∞ per ogni θ e che soddisfa

Eθ[φ(T (ξ))] = 0 ∀ θ ∈ Θ

risulta

(6) Pθφ(T (ξ)) = 0 = 1 ∀ θ ∈ Θ.

Definizione 4.5. Una statistica T si dice l-completa se per ogni fun-zione φ misurabile e limitata che soddisfa

Eθ[φ(T (ξ))] = 0 ∀ θ ∈ Θ

risulta

(7) Pθφ(T (ξ)) = 0 = 1 ∀ θ ∈ Θ.

Ogni statistica completa e anche l-completa; non vale in genere il vicev-ersa.

Teorema 4.6 (Bahadur). Se U(ξ) e una statistica sufficiente a valoriin Rk e l-completa per il modello dominato (X,X , Pθ) : θ ∈ Θ, allora U esufficiente minimale.

Dimostrazione. Per semplicita scriviamo U al posto di U(ξ) e T al postodi T (ξ). Per ipotesi U = (U1, . . . , Uk). Si ponga Vi(U) = 1/(1 + exp(Ui)).Chiaramente Vi e biettiva e limitata. Poniamo

Hi(t) = Eθ[Vi(U)|T = t] =

∫Vi(U(x))dFθ:ξ|T (ξ)(x|t)

Li(u) = Eθ[Hi(T )|U = u] =

∫Hi(T (x))dFθ:ξ|U(ξ)(x|u).

Osserviamo che Hi e Li non dipendono da θ perche T ed U sono sufficientied inoltre sono limitate poiche Vi e limitata. Per come abbiamo definito Hi

e Li, si verifica facilmente (farlo!) che

Eθ[Vi(U(ξ))] = Eθ[Hi(T (ξ))] = Eθ[Li(U(ξ))]

Page 39: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

2. STATISTICHE COMPLETE. 39

per ogni θ. Dal momento che Vi e limitata e U e l-completa ne segue che

PθVi(U) = Li(U) = 1

per ogni θ. Di conseguenza

Eθ[Li(U)|T ] = Hi(T ).

A questo punto, si ricordi che date due variabili aleatorie η, ζ si ha perdefinizione

V ar(η|ζ) = E[η2|ζ]− (E[η|ζ])2

(si noti che V ar(η|ζ) e una variabile aleatoria). Inoltre

V ar(η) = E[V ar(η|ζ)] + V ar(E[η|ζ])

Combinando quanto fin qui dimostrato, si ottiene

V arθ(Hi(T )) = Eθ[V arθ(Hi(T )|U)] + V arθ(Li(U))

V arθ(Li(U)) = Eθ[V arθ(Li(U)|T )] + V arθ(Hi(T )).

Dal precedente sistema si conclude che

Eθ[V arθ[Li(U)|T ]] = −Eθ[V arθ[Hi(T )|U ]]

e quindi V arθ[Li(U)|T ] = 0 Pθ q.c.. Poiche Li(U) = Vi(U) q.c., segue cheV arθ[Vi(U)|T ] = 0 Pθ q.c. e dunque Vi(U) = Eθ[Vi(U)|T ] = Hi(T ) Pθ q.c..Cio conclude la dimostrazione perche risulta Ui = V −1

i (Hi(T )).

Definizione 4.7. Una statistica T si dice libera per il modello (X,X , Pθ) :θ ∈ Θ se la sua legge e indipendente da θ.

Teorema 4.8 (Basu). Siano T1 e T2 rispettivamente una statistica suf-ficiente l-completa e libera per il modello (X,X , Pθ) : θ ∈ Θ. Allora T1 eT2 sono stocasticamente indipendenti per ogni θ ∈ Θ.

Dimostrazione. Se T1 e sufficiente per definizione la funzione di ripar-tizione condizionale di ξ dato T1(ξ) = t1 non dipende da θ. Indichiamolacon Gξ|T1(x|t1). Inoltre indichiamo con γ la funzione di ripartizione di T2.Anche’essa e indipendente da θ poiche T2 e libera. Fissato A (nella σ-algebradi arrivo di T2), supponendo che T1 assuma valori in Rm,∫

Adγ(t2) = Pθ(T2(ξ) ∈ A = Pθξ : T2(ξ) ∈ A, T1(ξ) ∈ Rm

=

∫Rm

(∫x:T2(x)∈A

dGξ|T1(x|t1)

)PθT1(ξ) ∈ dt1

= Eθ[

∫x:T2(x)∈A

dGξ|T1(x|T1(ξ))].

Dunque

0 = Eθ

(∫Adγ(t2)−

∫x:T2(x)∈A

dGξ|T1(x|T1(ξ))

).

Page 40: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

40 4. SUFFICIENZA E COMPLETEZZA.

L’ultima uguaglianza vale per ogni θ ∈ Θ e, poiche T1 e l-completa, essaimplica

∫Aγ(dt2) =

∫x:T2(x)∈A

γξ|T1(dx|T1(ξ))

= 1.

Pertanto, per ogni B misurabile, si ha

PθT2(ξ) ∈ A, T1(ξ) ∈ B =

∫B

∫x:T2(x)∈A

dGξ|T1(x|t1Pθ(T1(ξ) ∈ dt1)

=

∫B

∫Aγ(dt2)Pθ(T1(ξ) ∈ dt1)

= PθT2(ξ) ∈ APθT1(ξ) ∈ B.

Page 41: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

CAPITOLO 5

Famiglia esponenziale

1. Famiglia esponenziale

Un modello X,X , Pθ : θ ∈ Θ e detto famiglia esponenziale se esisteuna funzione misurabile T : X → Rk, una misura σ–finita µ su (X,X ) e unafunzione misurabile η : Θ→ Rk tale che

(8) Pθ(B) :=

∫B

exp(η(θ), T (x))− ψ(θ)µ(dx) (B ∈ X )

dove (v, w) indica il prodotto scalare in Rk e, per ipotesi,

ψ(θ) := log

∫X

exp(η(θ), T (x))µ(dx) < +∞

per ogni θ in Θ.

Si noti che in generale noi avremo a che fare con misrue µ che ammettonodensita ripsetto alla misura di conteggio oppure alla misura di Lebesgue, inaltri termini spesso ci troveremo in situazioni in cui

Pθ(B) :=

∫B

exp(η(θ), T (x))− ψ(θ)h(x)dx (B ∈ X )

per un’opportuna funzione h ≥ 0 tale che∫h(x)dx < +∞ oppure

Pθ(B) :=∑x∈B

exp(η(θ), T (x))− ψ(θ)h(x) (B ∈ X )

con∑

x h(x) < +∞. Nel primo caso µ(dx) = h(x)dx, nel secondo µ(dx) =h(x)C(dx) dove C(dx) e la misura di conteggio suX. Quindi, per riconoscereuna famiglia esponenziale, si puo procedere come quando vogliamo usare ilteorema di fattorizzazione e dimostrare che la densita di Pθ rispetto allamisura di Lebesgue (oppure alla misura di conteggio) su X e della forma

fθ(x) = exp(η(θ), T (x))h(x).

A questo punto e d’obbligo un’osservazione: non ci si deve confondre con lasimbologia, infatti, possiamo anche affermare che una densita per il nostromodello statistico rispetto alla misura µ(dx) = h(x)C(dx) (oppure µ(dx) =h(x)dx) e data da

fθ(x) = exp(η(θ), T (x)).Come naturale, parlando di densita, occorre specificare rispetto a qualemisura stiamo lavorando.

41

Page 42: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

42 5. FAMIGLIA ESPONENZIALE

Esempio 28. Consideriamo il modello di Poisson dell’Esempio 7. Talemodello puo essere visto come famiglia esponenziale. In questo caso µ e lamisura la cui densita rispetto alla misura di conteggio su Nn e data da

h(x) =1∏n

i=1 xi!,

k risulta essere pari ad 1, T (x) =∑n

i=1 xi, η(θ) = log(θ), Θ = R+ e

ψ(θ) = nθ. Introduciamo ora una riparametrizzazione del precedente mod-ello ponendo H = η(Θ) = R e riparametrizzando Pθ : θ ∈ Θ come Qη :=Peη : η ∈ R. Si noti che il nuovo modello e una reale riparametrizzazionein quanto la funzione log e biettiva da R+ in R. Il nuovo modello e carat-terizzato dalla misura di probabilita Qη(B) :=

∫B expηT (x) − ψ(η)µ(dx),

ossia e ancora una famiglia esponenziale in cui, tuttavia, la funzione η el’identita.

L’esempio precedente suggerisce che, talvolta, un modello esponenzialeX,X , Pθ : θ ∈ Θ puo essere riparametrizzato come X,X , Qη : η ∈ H,dove H = η(Θ), e Qη(B) :=

∫B exp(η, T (x))− ψ(η)µ(dx).

Data una funzione misurabile T : X → Rk e una misura σ–finita µ su(X,X ) si puo sempre definire una famiglia esponenziale definendo

H := η ∈ Rk : ψ(η) := log

∫X

exp(η, T (x))µ(dx) < +∞

e per ogni η in H ponendo

(9) Qη(B) :=

∫B

exp(η, T (x))− ψ(η)µ(dx) (B ∈ X ).

Se la famiglia esponenziale si presenta nella forma (9) viene detta canoni-ca. Da una qualunque famiglia esponenziale si ottiene sempre una famigliacanonica, tuttavia non e detto che quest’ultima sia una riparametrizzazionedella famiglia originaria, ossia non e detto che η sia biettiva. Non solo, ingenerale, presa una famiglia esponenziale in forma canonica non e detto cheX,X , Pη : η ∈ H sia un modello identificabile.

Indicata con µT la misura immagine su Rk di µ tramite T , ossia µT (A) =µT−1(A) per ogni A in B(Rk), nel seguito supporremo che l’interno delconvessificato del supporto di µT sia non vuoto.

Ricordiamo che il supporto di una misura ν su i boreliani di uno spaziotopologico U con topologia U e definito come l’insieme di tutti i punti u diU tali per cui ogni intorno di u ha misura positiva. In formule

supp(ν) := u ∈ U : per ogni N ∈ U tale che u ∈ N allora ν(N) > 0

Prima di proseguire osserviamo che chiaramente

exp(ψ(η)) =

∫X

exp(η, T (x))µ(dx) =

∫Rk

exp(η, y))µT (dy)

Page 43: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

2. COMPLETEZZA PER FAMIGLIE ESPONENZIALI IN FOMRA CANONICA 43

e piu in generale ∫Xφ(T (x)))µ(dx) =

∫Rkφ(y)µT (dy).

Lemma 5.1. ψ e una funzione convessa da H in R e H e un sottoinsiemeconvesso di Rk.

Dimostrazione. Per ogni ε in (0, 1) ed ogni coppia di funzioni nonnegative u e v, la disuguaglianza di Holder fornisce∫

u(y)v(y)µT (dy) ≤(∫

u(y)1εµT (dy)

)ε(∫v(y)

11−εµT (dy)

)1−ε

da cui prendendo i logaritmi

log

∫u(y)v(y)µT (dy) ≤ ε log

(∫u(y)

1εµT (dy)

)+(1−ε) log

(∫v(y)

11−εµT (dy)

).

Scegliendo ora u(y) = expε(η1, y) e v(y) = exp(1− ε)(η2, y) si ha che

ψ(εη1 + (1− ε)η2) ≤ εψ(η1) + (1− ε)ψ(η2).

Da cui segue immediatamente la tesi.

Come gia detto, il modello X,X , Pη : η ∈ H e detto famiglia espo-nenziale in forma canonica e quandoH ha interno non vuoto tale famigliasi dice regolare.

2. Completezza per famiglie esponenziali in fomra canonica

Come conseguenza immediata del teorema di fattorizzazione si ha che Te una statistica sufficiente per il modello. Dimostriamo ora che T e ancheuna statistica completa.

Prima di proseguire facciamo un’importante osservazione. Per costruzioneuna famiglia esponenziale e un modello dominato da ogni elemento dellafamiglia, ossia:

(10) Pη0(A) = 0 ⇒ Pη(A) = 0 ∀η ∈ H.

Per dimostrare il prossimo enunciato abbiamo bisogno anche di ricordareun’importante proprieta delle funzioni generatrici dei momenti.

Proposizione 5.2. Siano Q1 e Q2 due misure di probabilita su Rk congeneratrice dei momenti finita in un’intorno dell’origine. Ossia

L1(y) =

∫e(y,x)Q1(dx) < +∞ ∀y : |y| ≤ δ

e

L2(y) =

∫e(y,x)Q2(dx) < +∞ ∀y : |y| ≤ δ.

Se L1(y) = L2(y) coincidono per ogni y in un’intorno dell’origine alloraQ1 = Q2.

Page 44: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

44 5. FAMIGLIA ESPONENZIALE

Un’altro risultato che ci tornera utile nel corso della dimostrazione e ilseguente.

Proposizione 5.3. Sia Φ : Rk → R una funzione misurabile e Y unavariabile aleatoria definita su (Ω,F , P ) a valori in Rk. Se E[|Φ(Y )|] < +∞e

E[IY ∈ AΦ(Y )] = 0

per ogni A in F allora PΦ(Y ) = 0 = 1.

Si noti in particolare che come corollario della precedente proposizionesi ottiene

Corollario 5.4. Sia T : Rm → Rk misurabile, sia Y una variabilealeatoria definita su (Ω,F , P ) a valori in Rm e sia Φ : Rk → R una funzionemisurabile. Se Se E[|Φ(T (Y ))|] < +∞ e

E[IY ∈ AΦ(T (Y ))] = 0

per ogni A in F allora PΦ(T (Y )) = 0 = 1.

Siamo ora pronti per enunciare e dimostrare la prossima importanteproposizione.

Proposizione 5.5. Sia X,X , Pη : η ∈ H una famiglia esponenzialeregolare in forma canonica, allora T e una statistica completa.

Dimostrazione. Fissato un valore η0 nell’interno di H si ha

Pη(A) =

∫A

exp(η−η0, T (x))−ψ(η)+ψ(η0) exp(η0, T (x))−ψ(η0)µ(dx) A ∈ X

dove z = (η − η0) varia, per opportuna scelta di η in H, in un intornoI0 dell’origine di Rk. Sia φ una funzione che soddisfa le condizioni delladefinizione di statistica completa. In particolare Eη(|φ(T (ξ))|) < +∞ perogni η in H e

0 =

∫Xφ(T (x)) exp(η, T (x))− ψ(η)µ(dx)

=

∫Xφ+(T (x)) exp(η − η0, T (x))− ψ(η) + ψ(η0)Pη0(dx)

−∫Xφ−(T (x)) exp(η − η0, T (x))− ψ(η) + ψ(η0)Pη0(dx).

Per tale φ, si ha quindi, ricordando che z = η − η0,∫Xφ+(T (x)) exp(z, T (x))Pη0(dx) =

∫Xφ−(T (x)) exp(z, T (x))Pη0(dx) z ∈ I0.

Ponendo z = 0 si ottiene

Z :=

∫Xφ+(T (x))Pη0(dx) =

∫Xφ−(T (x))Pη0(dx).

Page 45: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

2. COMPLETEZZA PER FAMIGLIE ESPONENZIALI IN FOMRA CANONICA 45

Se Z = 0 si ha che φ+(T (ξ)) = φ−(T (ξ)) Pη0–quasi certamente. Grazie a(10) ne segue che

φ+(T (ξ)) = φ−(T (ξ)) q.c.-Pη ∀ η

e la dimostrazione e conclusa. Se invece Z > 0 si ha che∫X

exp(z, T (x)) φ+(T (x))Pη0(dx)∫X φ

+(T (s))Pη0(ds)=

∫X

exp(z, T (x)) φ−(T (x))Pη0(dx)∫X φ−(T (s))Pη0(ds)

.

L’ultima uguaglianza puo essere vista come uguaglianza su I0 di due funzionigeneratrici dei momenti di due leggi, Q+ e Q−, che, per il corrispondenteteorema di unicita, devono coincidere. Le due leggi in questione sono

Q+(A) =

∫XIA(T (x))

φ+(T (x))Pη0(dx)∫X φ

+(T (s))Pη0(ds),

Q−(A) =

∫XIA(T (x))

φ−(T (x))Pη0(dx)∫X φ−(T (s))Pη0(ds)

.

Pertanto∫IT (x) ∈ Aφ+(T (x))Pη0(dx) =

∫IT (x) ∈ Aφ−(T (x))Pη0(dx) ∀ A ∈ X

e, quindi, dal Corollario 5.4 si ha φ+(T (ξ)) = φ−(T (ξ)) q.c.-Pη0 . Nuova-mente, si conclude grazie a (10).

Esempio 29 (Modello Gaussiano.). Un caso particolare di modello espo-nenziale e rappresentato dal modello Gaussiano di parametro θ = (θ1, θ2) ∈(−∞,+∞)× [0,+∞). Si veda l’Esempio 8. Ponendo η1 = θ1

θ2e η2 = −1

2θ2si

ottiene una densita (rispetto alla misura di Lebesgue su Rn) riparametrizzatacome

expη1

n∑i=1

xi + η2

n∑i=1

x2i − ψ(η1, η2)

dove η = (η1, η2) ∈ (−∞,+∞) × (−∞, 0] e (x1, . . . , xn) ∈ Rn e il vettoredi osservazioni. La statistica sufficiente e completa e quindi data da T =(T1, T2) = (

∑ni=1 ξi,

∑ni=1 ξ

2i ).

Esempio 30 (Regressione gaussiana.). Si consideri il modello di regres-sione lineare definito nell’Esempio 23 e per semplicita di notazione si pongazi,1 = zi. In altri termini

ξi = αzi + β + εi.

Page 46: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

46 5. FAMIGLIA ESPONENZIALE

Si noti che, posto θ = (α, β, σ2), la densita (rispetto alla misura di Lebesgue)di (ξ1, . . . , ξn) puo essere riscritta come

fθ(x) =1

(2πσ2)n/2exp

− 1

2σ2

n∑i=1

(xi − αzi − β)2

= exp

−n

2log(2πσ2)− 1

2σ2

n∑i=1

(αzi + β)2

exp

− 1

2σ2

n∑i=1

x2i +

β

σ2

n∑i=1

xi +α

σ2

n∑i=1

zixi

e quindi e una famiglia esponenziale con k = 3,

η(θ) = (− 1

2σ2,β

σ2,α

σ2)

e

T (x) = (

n∑i=1

x2i ,

n∑i=1

xi,

n∑i=1

zixi).

Per tanto

(

n∑i=1

ξ2i ,

n∑i=1

ξi,n∑i=1

ziξi)

risulta essere una statistica sufficiente e completa. Per ottenere la formacanonica e sufficiente riparametrizzare Θ come

(η1, η2, η3) = (− 1

2σ2,β

σ2,α

σ2).

3. Rango e parametrizzazione

Proposizione 5.6. Sia X,X , Pη : η ∈ H una famiglia esponenziale

regolare in forma canonica, allora per ogni (i1, . . . , ik) in Nk ed ogni ηappartenente all’interno di H si ha

Eη[T1(ξ)i1 . . . Tk(ξ)ik ] = e−ψ(η) ∂i1+···+ik

∂ηi11 . . . ∂ηikkeψ(η)

Poiche

eψ(η) =

∫X

exp(η, T (x))µ(dx)

la dimostrazione della precedente proposizione consiste nel giustificare loscambio fra le derivate e l’integrale. Per la dimostrazione completa si vedail Paragrafo 2.2.2 in [5].

Page 47: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

3. RANGO E PARAMETRIZZAZIONE 47

Ad esempio, se H ⊂ R,

Eη(T (ξ)) = ψ(η)

Eη(T2(ξ)) = ψ(η)2 + ψ(η)

V arη(T (ξ)) = ψ(η).

In generale se Y = (Y1, . . . , Yn) e un vettore aleatorio, porremo

E[Y ] := (E[Y1], . . . , E[Yn])

e

V ar(Y ) = [Cov(Yi, Yj)]ij

Dalla precedente proposizione segue che

Proposizione 5.7. Sia X,X , Pη : η ∈ H una famiglia esponenzialeregolare in forma canonica, ed η0 appartenga all’interno di H, allora

Eη0 [T (ξ)] = ∇ψ(η0)

e

V arη0 [T (ξ)] = Hess[ψ(η0)]

dove ∇ψ(η0) = ( ∂ψ∂η1 (η0), . . . , ∂ψ∂η1 (η0)) e Hess[ψ(η0)] = [ ∂2ψ∂ηi∂ηj

(η0)]ij.

Una famiglia esponeziale regolare in forma canonica si dice di rango kse T (x) = (T1(x), . . . , Tk(x)) e, per qualche η in H, si ha

Pηk∑j=1

ajTj(ξ) = ak+1 = Pηx :k∑j=1

ajTj(x) = ak+1 < 1

per ogni a1, . . . , ak+1 reali tali che aj 6= 0 per almeno un j = 1, . . . , k + 1.

Enunciamo senza dimostrare il seguente risultato.

Proposizione 5.8. Sia X,X , Pη : η ∈ H una famiglia esponenzialeregolare in forma canonica con T (x) = (T1(x), . . . , Tk(x)) e H aperto. Allorasono equivalenti

(1) la famiglia e di rango k;(2) η e un parametro, ossia Pη : η ∈ H e identificabile;(3) V arη(T (ξ)) e definita positiva;(4) ψ e strettamente convessa.(5) ∇ψ e ben definita in H ed e un’applicazione iniettiva su H

Per la dimostrazione si veda [2] Thm. 1.6.4.

Page 48: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

48 5. FAMIGLIA ESPONENZIALE

4. Stimatori di massima verosimiglianza

Proposizione 5.9. Sia X,X , Pη : η ∈ H una famiglia esponen-ziale regolare in forma canonica di rango k con H aperto. Sia x0 il valoreosservato dei dati e si ponga t0 = T (x0). Se

(11) Pη0(T (ξ)− t0, c) > 0 > 0 ∀ c 6= 0

(per qualche η0, e quindi per tutti gli η) allora esiste un’unico stimatore dimassima verosimiglianza η(x0). Inoltre tale stimatore e soluzione di

(12) ∇ψ(η) = t0.

Vicecersa, se t0 non soddisfa (11) allora allora lo stimatore di massimaverosimiglianza (per t0) non esiste e l’equazione (12) non ha soluzione.

Dimostrazione. Prima di tutto riscriviamo il modello come segue

Pη(dx) = Pη0(dx) exp(T (x)− t0, η − η0)− ψ(η)

con

ψ(η) = log(∫

exp((T (x)− t0, η − η0)Pη0(dx)).

Inoltre

ψ(η) = −(t0, η − η0) + ψ(η)− ψ(η0).

Di conseguenza massimizzare log(vx0(η)) e equivalente a massimizzare

(T (x0)− t0, η − η0)− ψ(η) = −ψ(η).

Dalla Proposizione 5.8 sappiamo che ψ e strettamente convessa e continuain H. Per concludere l’esistenza di un’unico massimo resta da dimostrareche data una qualunque successione (ηn)n che non contenga punti di accu-mulazione in H allora − log(vx0(ηn + η0))→ +∞.

Dimostriamo l’ultima affermazione distinguendo due casi. Scriviamo

ηn = λnun

con λn = ‖ηn‖ e un = ηn/‖ηn‖. Ci sono solo due possibilia o (a) supn λn <+∞ oppure (b) supn λn = +∞.

Valga (a). Consideriamo una generica sottosuccessione di n, diciamo n′.Dato che stiamo supponendo che ηn non contenga punti di accumulazionein H possiamo estrarre una sotto-sottosuccessione nk tale che λnk → λ e,contemporaneamente, unk → u. Chiaramente deve accadere che λu 6∈ H.Per tale sottosuccessione

lim infk

Eη0 [eλnk (T (ξ)−t0,unk )] ≥ Eη0 [eλ(T (ξ)−t0,u)] = eλ(t0,u)Eη0 [e(T (ξ),λu)] = +∞

poiche λu 6∈ H. Questo dimostra che limn expψ(ηn + η0) = +∞ e dunquelimn−ψ(ηn + η0) = −∞.

Page 49: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

4. STIMATORI DI MASSIMA VEROSIMIGLIANZA 49

Valga (b). Consideriamo una generica sottosuccessione di n, diciamo n′.Questa volta possiamo estrarre una sotto-sottosuccessione tale che λnk →+∞ e, contemporaneamente, unk → u. Ora notiamo

lim supk

expψ(ηnk + η0) = lim supk

∫Pη0(dx)e(T (x)−t0,ηnk )

≥ lim supk

eδλnkPη0(T (ξ)− t0, unk) > δ

= lim supk

Pη0(T (ξ)− t0, u) > δeδλnk = +∞

poiche per ipotesi, per qualche δ > 0, Pη0(T (ξ)− t0, u) > δ > 0. Anche inquesto caso, data l’arbitrarieta della sotto-successione iniziale, concludiamofacilmente che limn−ψ(ηn+η0) = −∞. La dimostrazione della prima partesi conclude facilmente perche, stabilito esistenza ed unicita del massimo diuna funzione differenziabile definita su un’aperto, tale punto di massimodeve essere necessariamente un punto stazionario.

Per la seconda parte, supponiamo che (11) sia falsa. Allora, per oppor-tuni c 6= 0 ed η0, Pη0(T (ξ) − t0, c) ≤ 0 = 1. Di conseguenza Eη[(T (ξ) −t0, c)] ≤ 0 per ogni η. Se η esistesse, essendo tale η necessariamente un puntoin H (aperto), dovrebbe essere un punto stazionario e quindi dovrebbe esseresoluzione di (12), ossia EηT (ξ)− t0 = 0, che implica Eη(T (ξ)− t0, c) = 0 equindi Pηx : (T (x)−t0, c) = 0 = 1 che contraddice l’ipotesi che la famigliasia di rango k. La non solubilita di (12) e ovvia dal momento che un puntostazionario e necessariamente un punto di minimo essendo la funzione ψconvessa.

Proposizione 5.10. Sia X,X , Pη : η ∈ H una famiglia esponenzialeregolare in forma canonica di rango k con H aperto. Sia x0 il valore dei datiosservato e si ponga t0 = T (x0). Lo stimatore di massima verosimiglianzaper x0 esiste se e solo se t0 appartiene all’interno del convessificato delsupporto della distribuzione di T (ξ).

Dimostrazione Sia C il convessificato del supporto della legge di T (ξ).E’ sufficiente osservare che per definizione di interno di un convesso, t0appartine all’interno di C se e solo se per ogni d 6= 0 in Rk, gli insiemiy : (y − t0, d) > 0 ∩ C e y : (y − t0, d) < 0 ∩ C sono non vuoti. La tesisegue quindi dalla Proposizione 5.9 e dalla definizione di supporto di unamisura.

Proposizione 5.11. Sia X,X , Pη : η ∈ H una famiglia esponenzialeregolare in forma canonica di rango k con H aperto tale che Pη sia asso-lutamente continua rispetto alla misura di lebesgue. Allora lo stimatore dimassima verosimiglianza esiste con probabilita uno.

Page 50: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

50 5. FAMIGLIA ESPONENZIALE

Dimostrazione La tesi segue immediatamente dal fatto che la frontieradi un insieme convesso ha misura di lebesgue nulla.

5. Famiglie esponenziali per campioni i.i.d.

Un’altra buona proprieta delle famiglie esponenziali e che un prodottodi famiglia esponenziali e ancora una famiglia esponenziale. In altri terminise consideriamo un modello statistico in cui le osservazioni (ξ1, ξ2, . . . , ξn)sono variabili aleatorie indipendenti ed identicamente distribuite a valoriin (X,X ) con comune legge appartenente ad una famiglia esponenziale de-scritta da (µ, T, η,Θ), allora il modello statistico associato al campione n-dimensionale e ancora una famiglia esponenziale. In particolare la misuraPθ per il modello n-dimensionale sara

Pθ(A) =

∫A

exp( n∑

i

T (x), η(θ))−nψ(θ)

µ(dx1) . . . µ(dxn) (A ∈ X n).

Si noti che Θ rimane invariato cosı come η, mentre la nuova statistica suffi-ciente e completa sara

∑ni=1 T (x), la nuova funzione ψ sara nψ(θ) e la nuova

misura di riferimento sara il prodotto delle µ, ossia dµ⊗n. Posto

Tn(x) =1

n

n∑i=1

T (xi)

la forma canonica e utile scriverla come

dQηdµ⊗n

(x) = exp(nTn, η)− nψ(η)

con

ψ(η) = log∫

Xexp(T (x1), η)dµ(x1)

.

In questo modo l’equazione per gli stimatori di massima verosimiglianza (12)diventa

nTn(x0) = n∇ψ(η)

ossia, se x0 = (x0,1, . . . , x0,n),

1

n

n∑i=1

T (x0,i) = ∇ψ(η) = Eη[T (ξ1)].

6. Esercizi

Esercizio 9. Siano ξ1, . . . , ξn variabili aleatorie indipendenti con leggecomune esponenziale di parametri (a, λ), ossia con comune densita di prob-abilita

fa,λ(xi) = λI(a,+∞)(xi)e−λ(xi−a) (a > 0, λ > 0).

Si denoti, inoltre, con Pa,λ la misura di probabilita di (ξ1, . . . , ξn)

Page 51: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

6. ESERCIZI 51

(1) Scrivere la densita di (ξ1, . . . , ξn).(2) Il modello Rn,B(Rn), Pa,λ : λ ∈ R+ e una famiglia esponen-

ziale? Il modello Rn,B(Rn), Pa,λ : a ∈ R+, λ ∈ R+ e una famigliaesponenziale?

(3) Noto a mostrare che∑n

i=1 xi e una statistica sufficiente e completaper λ.

(4) Noto λ mostrare che νn e una statistica sufficiente e completa pera.

Esercizio 10. Siano ξ1, . . . , ξn variabili aleatorie indipendenti con leggecomune di pareto di parametri (a, λ), ossia con comune densita di probabilita

fλ,a(x) = λaλ1

xλ+1I(a,+∞)(x) (a > 0, λ > 0).

Si denoti, inoltre, con Pa,λ la misura di probabilia di (ξ1, . . . , ξn)

(1) Scrivere la densita di (ξ1, . . . , ξn).(2) Il modello Rn,B(Rn), Pa,λ : λ ∈ R+ e una famiglia esponen-

ziale? Il modello Rn,B(Rn), Pa,λ : a ∈ R+, λ ∈ R+ e una famigliaesponenziale?

(3) Noto a mostrare che∑n

i=1 log(xi) e una statistica sufficiente ecompleta per λ.

(4) Noto λ mostrare che νn e una statistica sufficiente e completa pera.

Page 52: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi
Page 53: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

CAPITOLO 6

Stimatori a Varianza Uniformemente Minima einformazione di Fisher.

1. Stimatori a Varianza Uniformemente Minima

La sufficienza, unitamente alla completezza, si rivela una proprieta fon-damentale per la ricerca di stimatori ottimali di funzioni dei parametri incog-niti. Preliminari all’illustrazione di questo punto sono alcuni concetti legatialla nozione di stimatore puntuale di un parametro.

Nel seguito si supponga fissata una funzione

τ : Θ→ R.

Se lo spazio dei parametri e R l’esempio piu classico di τ e l’ identita.

In questo capitolo considereremo statistiche che siano stimatori di τ(θ),per tanto statistiche T (ξ) a valori in R.

Per valutare la bonta di uno stimatore puntuale si considerano simul-taneamente due aspetti: la capacita di avvicinarsi al valore vero della quan-tita da stimare e la variabilita intorno a tale valore. Piu precisamente, epossibile valutare l’errore (o scarto) quadratico medio (EQM) di ungenerico stimatore T calcolando

EQM(T, θ) := Eθ[(T (ξ)− τ(θ))2

](13)

= [Eθ(T (ξ)− τ(θ))]2 + V arθ(T (ξ))(14)

Tra tutti i possibili stimatori per τ(θ) si vorrebbe quindi cercare quelloche minimizza sia lo scarto medio dal valore vero di τ che la varianza. Ingenerale, data l’ampiezza della classe degli stimatori ammissibili, non sitrova uno stimatore ottimale unico sulla base di questo criterio. Pertanto eopportuno restringere la ricerca all’interno della classe degli stimatori nondistorti per τ(θ).

Ricordiamo che uno stimatore T e non distorto per τ(θ) se

Eθ(T (ξ)) = τ(θ) ∀ θ ∈ Θ.

Dalla (13) e chiaro che, considerando soltanto stimatori non distorti, ilconfronto va fatto sulla base della varianza. Per far cio e naturale restringersialla classe degli stimatori con varianza finita.

53

Page 54: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

546. STIMATORI A VARIANZA UNIFORMEMENTE MINIMA E INFORMAZIONE DI FISHER.

Nel seguito denotiamo con Uτ l’insieme degli stimatori non distorti avarianza finita di τ , ossia

Uτ : = T : V arθ(T (ξ)) < +∞,Eθ(T (ξ)) = τ(θ) ∀θ ∈ Θ.

Come gia detto si puo pensare che piu uno stimatore abbia varianzapiccola piu sia buono. Tuttavia, dal momento che vi e la dipendenza dalparametro θ, incognito, non e ovvio cosa intendere per varianza piccola.Potrebbe accadere che uno stimatore per certi valori di θ abbia variazabassa mentre per altri valori di θ lo stesso stimatore abbia varianza moltoalta. Generalmente si e portati a considerare migliore uno stimatore cheminimizzi uniformemnte la varianza nell’ ambito degli stimatori non distorticon varianza finita.

Definizione 6.1. Uno stimatore T ∗ appartenente a Uτ e detto stimatorenon distorto a varianza uniformemente minima (in inglese UMVUE)se

V arθ(T∗(ξ)) ≤ V arθ(T (ξ)) ∀ T ∈ Uτ , ∀ θ ∈ Θ.

Se non vengono fatte ipotesi sul campione e sulla funzione da stimarenon e detto che tali stimatori esistano. Vedremo ora sotto quali condizionie possibile costruire uno stimatore a varianza uniformemente minima. Suf-ficienza e completezza forniscono risultati utili per la ricerca di stimatoriottimali. Un primo importante risultato in tale direzione e il seguente

Lemma 6.2. (Kolmogorov, Blackwell, Rao). Siano M = (X,X , Pθ) :θ ∈ Θ un modello statistico, T1 una statistica sufficiente per M e T2 unostimatore non distorto per τ(θ). Posto

T3(ξ) = Eθ(T2(ξ)|T1(ξ))

si ha:

(i) T3(ξ) e indipendente da θ e Eθ[T3(ξ)] = τ(θ).(ii) V arθT3(ξ) ≤ V arθT2(ξ) ∀ θ ∈ Θ.

Dimostrazione. Dalla sufficienza di T1 segue che la funzione di ripar-tizione condizionale di ξ dato T1(ξ) non dipende da θ, ossia Fθ:ξ|T1(x|t1) =H(x|t1) per un’opportuna H. Quindi

Eθ(T2(ξ)|T1(ξ) = t1) =

∫T2(x)Fθ:ξ|T1(dx|t1) =

∫T2(x)H(dx|t1)

che e indipendente da θ. Inoltre, indicando con Fθ:T1(t1) la funzione diripartizione di T1(ξ), si ha

Eθ(T3(ξ)) =

∫ ∫T2(x)Fθ:ξ|T1(dx|t1)Fθ:T1(dt1)

=

∫ ∫T2(x)Fθ:ξ,T1(dx, dt1) = Eθ(T2(ξ)) = τ(θ).

Page 55: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

1. STIMATORI A VARIANZA UNIFORMEMENTE MINIMA 55

La disuguaglianza di Jensen implica che

T3(ξ)2 =(∫

T2(x)Fθ:ξ|T1(dx|T1(ξ)))2

≤∫T2(x)2Fθ:ξ|T1(dx|T1(ξ))

(15)

e quindi

Eθ(T23 (ξ)) ≤

∫ ∫T2(x)2Fθ:ξ|T1(dx|t1)Fθ:T1(dt1)

=

∫ ∫T2(x)2Fθ:ξ,T1(dx, dt1) = Eθ(T

22 (ξ)).

Dal momento che T1 e T2 hanno lo stesso valore atteso si conclude immedi-atamente.

Questo teorema non ci assicura che T3 sia a varianza uniformementeminima, ma ci fornisce una tecnica per migliorare uno stimatore non distor-to sfruttando la conoscenza di una statistica. Per ottenere uno stimatore avarianza uniformemente minima dobbiamo rinforzare le ipotesi sulla statis-tica rispetto alla quale si condiziona. Un risultato fondamentale e il seguenteclassico

Teorema 6.3. (Lehmann, Scheffe). Siano soddisfatte le condizioni delprecedente Lemma e si assuma inoltre che T1 sia completa. Allora T3 estimatore UMVUE per τ(θ).

Dimostrazione. Sia U(ξ) uno stimatore non distorto di τ(θ). Grazie allemma precedente si ha che U ′(ξ) = Eθ(U(ξ)|T1(ξ)) e tale che

V arθ(U′(ξ)) ≤ V arθ(U(ξ)).

D’altro canto si ha che T3(ξ) = φ T1(ξ) e U ′(ξ) = φ′ T1(ξ) per opportuneφ e φ′ poiche entrambe le statistiche sono valori attesi condizionali funzionidi T1(ξ). Poiche T1 e completa e U ′ e T3 sono stimatori non distorti diτ(θ), ne segue che T3 = U ′ Pθ-q.c.. Dunque V arθ(U(ξ)) ≥ V arθ(U

′(ξ)) =V arθ(T3(ξ))

Il signficato dei due risultati appena esposti e che lo stimatore UMVUE,se esiste, va cercato tra gli stimatori non distorti che siano funzioni di statis-tiche sufficienti e complete. Si noti che la statistica T1 dei precedenti teo-remi non necessariamente e una statistica a valori reali. Come illustratodal seguente esempio e spesso utile condizionare a statistiche che assumonovalori in Rk.

Esempio 31 (Modello Gaussiano). Si consideri modello gaussiano del-l’esempio 8. In altri termini

X = Rn, X = B(Rn), Θ = R× (0,+∞) θ = (µ, σ2)

Page 56: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

566. STIMATORI A VARIANZA UNIFORMEMENTE MINIMA E INFORMAZIONE DI FISHER.

e

fθ(x) =n∏k=1

1

(σ22π)1/2exp

− 1

2σ2(xk − µ)2

x = (x1, . . . , xn) ∈ Rn.

Si vuole stimare τ(θ) = Eθξ1 = µ. Come gia visto quando si e trattata lafamiglia esponenziale, si ha che T1(ξ) = (

∑ni=1 ξi,

∑ni=1 ξ

2i ) e una statistica

sufficiente e completa per tale modello, almeno scritto in forma canonica.E’ immediato dedurre che lo e anche per il medesimo modello scritto comesopra, perche in questo caso la forma canonica e una reale riparametriz-zazione del modello sopra scritto. Si osservi ora che la media campionariamn = 1

n

∑ni=1 ξi e uno stimatore non distorto per τ(θ) = µ ed inoltre e

funzione di T1. Applicando il Teorema 6.3 si ha quindi che mn e stimatoreUMVUE per µ. In maniera analoga si consideri

sn(ξ) :=1

n− 1

n∑i=1

(ξ − mn)2 =1

n− 1(n∑i=1

ξ2 − nm2n).

Con un po’ di conti si vede che Eθ(sn(ξ)) = σ2, quindi sn e uno stimatorenon distorto di τ(θ) = σ2, inoltre, poiche e funzione di T1, esso e e unostimatore UMVUE per σ2.

Esempio 32 (Regressione lineare Gaussiana). Si consideri modello diregressione lineare gaussiana dell’Esempio 30. In altri termini

X = Rn, X = B(Rn), Θ = R× R× (0,+∞) θ = (α, β, σ2)

e

fθ(x) =1

(σ22π)n/2exp

− 1

2σ2

n∑i=1

(xi − αzi − β)2

x = (x1, . . . , xn) ∈ Rn.

Ragionando come nell’esempio precedente si dimostra che

T1(ξ) = (

n∑i=1

ξ2i ,

n∑i=1

ξi,n∑i=1

ξizi)

e una statistica per il modello in forma canonica ma anche per il modelloscritto come sopra. Consideriamo ora gli stimatori ai minimi quadrati di αe β

αn(ξ) =1

σ21,n

( 1

n

n∑i=1

ξizi −m1,n1

n

n∑i=1

ξi

)

β(ξ) =1

n

n∑i=1

ξi −m1,n

σ21,n

( 1

n

n∑i=1

ξizi −m1,n1

n

n∑i=1

ξi

)dove

m1,n =1

n

n∑i=1

zi, σ21,n =

1

n

n∑i=1

z2i −m2

1,n

Page 57: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

2. L’ INFORMAZIONE DI FISHER E LA DISUGUAGLIANZA DI FISHER-CRAMER-RAO57

si veda Esempio 13. Semplici conti mostrano che Eθ[α(ξ)] = α e Eθ[β(ξ)] =

β. Poiche α e β risultano funzioni di T1 essi sono stimatori UMVUE.

2. L’ Informazione di Fisher e la disuguaglianza diFisher-Cramer-Rao

In questa sezione considereremo solo modelli parametrici con Θ ⊂ R.

Diremo che un modello e regolare se sono soddisfatte le condizioni seguen-ti

(H1) Θ e un intervallo aperto di R. Il modello e dominato da una misuraσ-finita µ. La densita di Pθ rispetto a µ sara indicata con fθ.

(H2) X+ := x ∈ X : fθ(x) > 0 non dipende da θ.(H3) θ 7→ fθ(x) e una funzione derivabile con continuita su Θ, per ogni

x in X.(H4) Si ha

(16)d

dθEθ[T (ξ)] = Eθ[T (ξ)∂θ log(fθ(ξ))1X+(ξ)]

per ogni funzione misurabile T a valori reali definita su X conEθ(T

2(ξ)) < +∞ per ogni θ in Θ.(H5) Per ogni θ in Θ

[(∂θ log(fθ(ξ)))

2 1X+(ξ)]< +∞.

Si osservi che la condizione (H4) e verificata sicuramente se

θ 7→∫XT (x)fθ(x)µ(dx)

e derivabile sotto il segno d’integrale, per ogni T come nella definizione datasopra.

Si noti che in particolare (H4) implica, scegliendo T (ξ) = 1, il fatto che

(H4’) per ogni θ in Θ

Eθ[∂θ log(fθ(ξ))1X+(ξ)] = 0.

Infatti, poiche ∫Xfθ(x)µ(dx) = 1 per ogni θ,

si ha

0 =d

∫X+

fθ(x)µ(dx) =

∫X+

∂θfθ(x)µ(dx) =

∫X+

∂θ log(fθ(x))Pθ(dx).

Da (H4’) si deduce che H5 puo essere riformulata, in modo espressivo, come

I(θ) := V arθ(∂θ log(fθ(ξ))) < +∞.

Page 58: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

586. STIMATORI A VARIANZA UNIFORMEMENTE MINIMA E INFORMAZIONE DI FISHER.

Definizione 6.4. La funzione I(θ) e detta informazione di Fisher.

Osserviamo che l’informazione di Fisher gode di una proprietata di addi-tivita nel caso di successioni di osservazioni indipendenti. Supponiamo cheX = X1 × · · · ×Xn, e che

Pθ(A1 × . . . An) = p(1)θ (A1)× . . . p(n)

θ (An)

per ogni A1, . . . An in X1, . . .Xn, con p(i)θ : θ ∈ Θ famiglia di misure di

probabilita su Xi per i = 1, . . . , n. Si vede facilmente che Pθ : θ ∈ Θsoddisfa H1-H5 se p(i)

θ : θ ∈ Θ soddisfa le corrispondenti proprieta perogni i = 1, . . . , n. Inoltre, posto

I(i)(θ) = V arθ(∂θ log(f(i)θ (ξ))1f (i)

θ (ξi)) > 0),

con f(i)θ una densita per p

(i)θ rispetto ad una dominante µ(i) σ–finita su Xi,

si ha

I(θ) =

n∑i=1

I(i)(θ).

Infatti, grazie all’indipendenza delle ξi,

I(θ) = V arθ(∂θ log(fθ(ξ))1X+(ξ)) = V arθ(n∑i=1

∂θ log(f(i)θ (ξi))1X+(ξ))

=n∑i=1

V arθ(∂θ log(f(i)θ (ξi))1f (i)

θ (ξi)) > 0) =n∑i=1

I(i)(θ).

Consideriamo ora un stimatore non distorto T di τ(θ), ossia tale cheEθ(T (ξ)) = τ(θ) per ogni θ in Θ.

Teorema 6.5. Se il modello introdotto e regolare e se I(θ) > 0 per ogniθ in Θ, allora

V arθ(T (ξ)) ≥ (τ(θ))2

I(θ)

per ogni θ in Θ ed ogni stimatore non distorto T di τ .

Dimostrazione Dalla condizione (16) si ha che

τ(θ) = Eθ(T (ξ)∂θ log fθ(ξ)1X+)

= Covθ(T (ξ), ∂θ log(fθ(ξ))1X+) [per la (H4’)]

e per la disuguaglianza di Cauchy-Schwartz

[Covθ(T (ξ), ∂θ log(fθ(ξ))1X+)]2 ≤ V arθ(T (ξ))I(θ)

Esempio 33. Si consideri un modello statistico di tipo scala-posizionecon parametro di scala noto. Si veda Esempio 9. Ossia

ξi = θ + εi

Page 59: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

2. L’ INFORMAZIONE DI FISHER E LA DISUGUAGLIANZA DI FISHER-CRAMER-RAO59

con εi indip. ed identicamente distribuite con una certa densita f . In questocaso fθ(x1, . . . , xn) =

∏ni=1 f(xi − θ). Poiche

(∂θ log f(x− θ))2 =(f ′(x− θ)f(x− θ)

)2,

se I1(θ) e l’informazione di fisher del modello unidimensionale si ha subitoche

I1(θ) =

∫ (f ′(x− θ)f(x− θ)

)2f(x− th)dx =

∫ (f ′(x)

f(x)

)2f(x)dx.

In altri termini I risulta essere indipendente da θ. Piu in generale l’infor-mazione di Fisher per (ξ1, . . . , ξn), usando quanto gia visto per campioniindipendneti, e

In(θ) = n

∫ (f ′(x)

f(x)

)2f(x)dx.

2.1. Informazione e statistiche sufficienti. Data una statistica T :(X,X )→ Rm, si definisce il modello statistico indotto

Pθ,T : θ ∈ Θ

dove

Pθ,T (B) := PθT (ξ) ∈ B

per ogni misurabile B, e la misura µT su indotta da T , µT (B) := µx :T (x) ∈ B per ogni B misurabile. Se µ e asseganta come in (H2), allora µTdomina Pθ,T : θ ∈ Θ. Infatti, se µT (B) = 0, allora µx : T (x) ∈ B = 0 equindi, poiche µ domina il modello, PθT (ξ) ∈ B = 0 e, dunque, Pθ,T (B) =0. Si denoti, allora, con fθ,T una versione della densita di Pθ,T rispetto µT ,ossia una funzione non negativa tale che

Pθ,T (B) =

∫Bfθ,T (y)µT (dy)

per ogni B misurabile. Se anche il modello indotto Pθ,T risulta regolare, nelsenso che soddisfa le (H1)-(H5), resta definita l’informazione di Fisher delmodello indotto

IT (θ) = V arθ(∂θ log(fθ,T (T (ξ))).

Enunciamo senza dimostrare il seguente risultato.

Teorema 6.6. Se i modelli Pθ : θ ∈ Θ e Pθ,T : θ ∈ Θ siano regolari.Allora

IT (θ) ≤ I(θ)

per ogni θ in Θ e l’uguaglianza vale per ogni θ se e solo se T e sufficiente.

Page 60: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

606. STIMATORI A VARIANZA UNIFORMEMENTE MINIMA E INFORMAZIONE DI FISHER.

3. Esercizi

Esercizio 11. [Vedi Esercizio 9] Siano ξ1, . . . , ξn variabili aleatorie in-dipendenti con legge comune esponenziale di parametri (a, λ), ossia concomune densita di probabilita

fα,θ(xi) = λI(a,+∞)(xi)e−λ(xi−a).

(1) Noto a determinare uno stimatore UMVUE di λ.[Usare l’Esercizio 9 e il fatto che se Z e una variabile aleatoria

con legge Gamma(n, θ) allora E(1/Z) = θ/(n− 1)][soluzione: (n− 1)/

∑ni=1(xi − a)]

(2) Noto λ determinare uno stimatore UMVUE di a.[soluzione: νn − 1/nλ]

Esercizio 12. [Vedi Esercizio 10] Siano ξ1, . . . , ξn variabili aleatorie in-dipendenti con legge comune di pareto di parametri (a, λ), ossia con comunedensita di probabilita

fλ,a(x) = λaλ1

xλ+1I(a,+∞)(x) (a > 0, λ > 0).

(1) Noto a determinare uno stimatore UMVUE di λ. [Usare l’Eser-cizio 10 e il fatto che se Z e una variabile aleatoria con leggeGamma(n, θ) allora E(1/Z) = θ/(n− 1)]

(2) Noto λ determinare uno stimatore UMVUE di a.

Esercizio 13. Siano ξ1, . . . , ξn variabili indipendenti aleatorie con co-mune legge di Poisson di parametro θ. Determinare uno stimatore nondistorto a varianza uniformemente minima per

τ(θ) := Pθξ1 = 0 = e−θ.

[Suggerimento: si ricordi che∑n

i=1 ξ1 e una statistica sufficiente e com-pleta per tale modello. Trovare una statistica semplice che sia stimatore nondistorto di τ(θ). Applicare il Teorema di Lehmann-Scheffe.]

Page 61: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

CAPITOLO 7

La famiglia esponenziale nella statisitca Bayesiana

Consideraimo prima di tutto modelli statistici in cui pθ sia una famigliaesponenziale in forma canonica e la cui statistica sufficiente e completa sia l’i-dentita. Per accordare le notazioni con la parte delle dispense in cui abbiamointrodotto la famiglia esponenziale, indichiamo il parametro con η.

In accordo con il paradigma Bayesiano, consideriamo il caso in cui ilprocesso di osservazioni

(ξ1, ξ2, . . . )

sia tale per cui ogni singola osservazione ξi assuma valori in X0 ⊂ Rk condisribuzione (condizionale dato η)

(17) pη(dx) = e(x,η)−ψ(η)µ(dx)

con µ misura σ–finita su Rk e tale per cui l’interno del convessificato del suosupporto (d’ora in poi indicato con CS(µ)) sia non vuoto. Infine, poniamo

H = η ∈ Rk : exp(ψ(η)) :=

∫Rke(x,η)µ(dx) < +∞,

e supponiamo che H sia un aperto non vuoto.

Osserviamo che il modello statistico Bayesiano che vogliamo studiare ecaratterizzato dalla distribuzione congiunta (ξ1, ξ2, . . . , η) data da

P

(ξ1, ξ2, . . . , ξn, η) ∈ A×B

=

∫Bp⊗nη (A)π(dη)

per ogni n ≥ 1, per ogni A in B(Rk×n) ed ogni B in B(H). Nella formulaprecedente abbiamo usato la notazione p⊗nη per indicare la misura prodotto

(indipendente) su Rk×n caratterizzata da

p⊗nη (A1 × · · · ×An) =n∏j=1

pη(Aj)

per ogni A1, . . . , An in B(Rk).

Siamo qui interessati a determinare una famiglia coniugata di distribuzioniiniziali per il modello esponenziale.

In generale, diremo che una famiglia di m.d.p. πλ : λ ∈ Λ su (H,B(H))e detta famiglia coniugata per una famiglia di m.d.p. pη : η ∈ H se

61

Page 62: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

62 7. LA FAMIGLIA ESPONENZIALE NELLA STATISITCA BAYESIANA

per ogni λ in Λ, la distribuzione finale πλ(·|ξ1:n) appartiene a Λ, ossia se

πλ(·|ξ1:n) = πλn(ξ1:n) per un’opportuna funzione λn : (Rk)n → Λ.

Ora, data la famiglia esponenziale (17), scegliamo come distribuzioneiniziale su (H,B(H)) la seguente misura di probabilita:

πn0,x0(dη) = exp(n0x0, η)− n0ψ(η)− φ(n0, x0)dη

dove

φ(n0, x0) := log

[∫H

exp(n0x0, η)− n0ψ(η)dη]

n0 e un numero reale positivo e x0 un punto di Rk. Naturalmente, percheπn0,x0 sia ben definita, dovremo dimostrare che exp(φ(n0, x0)) < +∞. Rin-viamo per il momento questo controllo e, prendendo per buona la limi-tatiezza del precedente integrale, osserviamo che per il teorema di Bayes siha

πn0,x0(dη|x1:n) =exp(

∑ni=1 xi, η)− nψ(η) exp(n0x0, η)− n0ψ(η)− φ(n0, x0)dη

(∫Rk exp(

∑ni=1 xi, u)− nψ(u) exp(n0x0, u)− n0ψ(u)− φ(n0, x0))du)

= exp

(n∑i=1

xi + n0x0, η

)− (n+ n0)ψ(η)− φ

(n0 + n,

n0x0 +∑n

i=1 xin0 + n

)dη.

E’ possibile giustificare i precedenti passaggi con con la prossima propo-sizione, in cui poniamo

U := πn0,x0(dη) := exp(n0x0, η)−n0ψ(η)−φ(n0, x0)dη;x0 ∈ CS(µ), n0 ∈ (0,+∞).

Proposizione 7.1 (Diaconis-Ylvisaker). Se n0 > 0 e x0 ∈ CS(µ) e He un aperto non vuoto, allora

expφ(n0, x0) < +∞.

Inoltre, U e una famiglia coniugata di prior per la famiglia esponenziale(17). In particolare

πn0,x0(dη|x1:n) = πn+n0,

n0x0+∑ni=1 xi

n0+n (dη).

Dimostrazione. Sia A un sottoinsieme convesso e compatto di CS(µ).Dimostriamo prima di tutto che µ(A) < +∞. Fissiamo η 6= 0 in H.

Chiaramente IA = infx∈A e(x,η) > 0, quindi µ(A)IA ≤

∫A e

(x,η)µ(dx) ≤∫X0e(x,η)µ(dx) < +∞ e quindi µ(A) <

∫X0e(x,η)/IA < +∞. Di conseguen-

za, per ogni A convesso e compatto possiamo definire una mdp µA nelseguente modo

B 7→ µA(B) =µ(A ∩B)

µ(A)

Page 63: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

7. LA FAMIGLIA ESPONENZIALE NELLA STATISITCA BAYESIANA 63

e porre poi xA :=∫xµA(dx). Applicando la disuguaglianza di Jensen alla

funzione x 7→ exp(x, η), otteniamo

exp(−ψ(η)) =1∫

e(x,η)µ(dx)≤ 1

(∫e(x,η)µA(dx))µ(A)

≤exp(−(η,

∫xµA(dx)))

µ(A),

ossia

(18) e−ψ(η) ≤ 1

µ(A)e−(η,xA).

Ora sia D l’insieme di tutti i punti di CS(µ) ⊂ Rd che si possono scriverecome

x =d+1∑j=1

λjxAj

dove

• Aj sono sottoinsiemi covessi e compatti di CS(µ),

• λj > 0 per j = 1, . . . , d+ 1 e∑d+1

j=1 λj = 1,• xA1 , . . . , xAd+1

non giacciono in alcun iperspazio d−1 dimensionale.

Si puo dimostrare che D e denso in CS(µ). Omettiamo la dimostrazionedettagliata, limitandoci a sottolineare i punti salienti: (i) Ogni punto x di

CS(µ) puo essere scritto come x =∑d+1

j=1 λjxj con xj in nel supporto di µ,∑d+1j=1 λj = 1, λj ≥ 0 e con x1, . . . , xd+1 che non giacciono in alcun iperpiano

d− 1 dimensionale; (ii) il sottoinsieme di punti x =∑d+1

j=1 λjxj come sopra

dove pero λj > 0 per ogni j e denso in CS(µ); (iii) i punti del tipo xA sonodensi nel supporto di µ.

Una volta appurato che D e un sottoinsieme denso di CS(µ), dimostri-amo prima di tutto il teorema per n0 > 0 e x0 ∈ D. Supponiamo quindi

che x0 =∑d+1

j=1 λjxAj . Possiamo decomporre H come unione di una par-

tizione H1, . . . ,Hd+1 (insiemi disgiunti tali che H = ∪Hi) in modo che se ηappartiene ad Hk allora

(η, xAk − xAj ) ≥ 0 j 6= k.

Page 64: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

64 7. LA FAMIGLIA ESPONENZIALE NELLA STATISITCA BAYESIANA

Usando (18) possiamo quindi scrivere∫Hen0((x0,η)−ψ(η))dη =

d+1∑k=1

∫Hk

en0((x0,η)−ψ(η))dη

≤d+1∑k=1

1

µ(Ak)n0

∫Hk

en0(x0−xAk ,η)dη

=

d+1∑k=1

1

µ(Ak)n0

∫Hk

e−n0

∑d+1j=1 λj(xAk−xAj ,η)

Si noti che su Hk si ha (xAk − xAj , η) ≥ 0 per ogni j. Per concludere cheper ogni k gli integrali che compaiono nell’ultima espressione sono integralidi esponenziali negativi e quindi finiti, non ci resta che fare un semplicecambiamento di variabili. Su Hk consideriamo il cambiamento di base Lkdato da lkj := (η, xAk − xAj ) per j = 1, . . . , k − 1, k + 1, . . . , d + 1. Dalmomento che i punti xAj non giacciono su un iperpiano d− 1 dimensionalesi ha che |JLk| 6= 0, quindi un semplice cambio di variabili fornisce∫

Hk

e−n0

∑d+1j=1 λj((xAk−xAj ),η)

=

∫Lk(Hk)∩lkj≥0

e−n0∑j 6=k λj l

kj

1

|JLk|⊗j 6=k dlkj < +∞.

Ora se x = εx1 + (1 − ε)x2 e combinazione convessa di due punti x1 ex2 appartenenti a D, la disuguaglianza di Holder implica che φ(n0, x) ≤εφ(n0, x1) + (1 − ε)φ(n0, x2) < +∞. Quindi per ogni punto x di CS(µ),φ(n0, x) < +∞.

E’ immediato rienuciare il precedente risultato nel caso in cui

(19) pη(A) =

∫Ae(T (x),η)−ψ(η)µ(dx) (A ∈ B(Rk)).

e

H = η ∈ Rk : exp(ψ(η)) :=

∫Rke(T (x),η)µ(dx) < +∞.

In questo caso supporremo che l’interno del convessificato del supporto diµT sia non vuoto, e lo indicheremo con CS(µT ). Posto

φ(n0, t0) := log

[∫H

exp(n0t0, η)− n0ψ(η)dη]

si ha che

U := πn0,t0(dη) := exp(n0t0, η)−n0ψ(η)−φ(n0, t0)dη; t0 ∈ CS(µT ), n0 ∈ (0,+∞)e una famiglia coniugata per (19).

Molto importante e il seguente risultato, che tuttavia non dimostreremo.

Page 65: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

7. LA FAMIGLIA ESPONENZIALE NELLA STATISITCA BAYESIANA 65

Proposizione 7.2. Se H e un aperto di Rk allora, per ogni n0 > 0 eper ogni t0 in CS(µT ) ∫

H∇ψ(η)πn0,t0(dη) = t0.

Proof. Si veda [3].

In particolare, grazie al fatto che∫RkT (x)pη(dx) = ∇ψ(η)

otteniamo il seguente utile corollario.

Corollario 7.3. Se H e un aperto di Rk,∫H

[∫RkT (x)pη(dx)

]πn0,t0(dη|ξ1:n) = E[T (ξn+1)|ξ1:n] =

n0t0 +∑n

i=1 T (ξi)

n0 + n.

In altri termini, la media a posteriori di T e una combinazione convessadella media a priori e della media empirica.

Infine, supponiamo che

(20) pθ(A) =

∫Ae(T (x),η(θ))−ψ(θ)µ(dx) (A ∈ B(Rk))

e

Θ = θ ∈ Rk : exp(ψ(θ)) :=

∫Rke(T (x),η(θ))µ(dx) < +∞

con η : Θ → H biettiva e misurabile e con Θ ⊂ Rk aperto non vuoto.Ancora supponiamo che l’interno del convessificato del supporto di µT sianon vuoto. Osserviamo che ψ(θ) = ψ(η(θ)). Definiamo infine νη(dθ) comela misura σ–finita su Θ tale che∫

Aνη(dθ) =

∫η(A)

dη.

Allora, posto

φ(n0, t0) := log

[∫Θ

exp(n0t0, η(θ))− n0ψ(η(θ))νη(dθ)],

si ha che

U := πn0,t0(dθ) := exp(n0t0, θ)−n0ψ(η(θ()−φ(n0, t0)νη(dθ); t0 ∈ CS(µT ), n0 ∈ (0,+∞)e una famiglia coniugata per (20). Infatti∫

Θexp(n0t0, η(θ))− n0ψ(η(θ))νη(dθ) =

∫H

exp(n0t0, η)− n0ψ(η)dη.

In particolare per ogni t0 ∈ CS(µT ) e n0 ∈ N risulta φ(n0, t0) < +∞ e

πn0,t0(dθ|x1:n) = πn+n0,

n0t0+∑ni=1 t(xi)

n0+n (dθ).

Page 66: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

66 7. LA FAMIGLIA ESPONENZIALE NELLA STATISITCA BAYESIANA

Esempio 34 (Binomiale-Beta). Consideriamo il classico modello bino-miale, ossia

Θ = (0, 1) X0 = R µ(dx) := δ0(dx) + δ1(dx)

pθ(dx) = θx(1− θ)1−xµ(dx) = explog(1− θ) + x log(θ/(1− θ))µ(dx)

Chiaramente in questo caso

T (x) = x;

η(θ) = log(θ/(1− θ)) H = R;

ψ(θ) = − log(1− θ).

Di conseguenza, poiche η′(θ) = (θ(1− θ))−1,

πn0,x0(dθ) =θn0x0−1(1− θ)n0−1

B(n0x0, n0)dθ

con n0 > 0, x0 ∈ (0, 1) = CS(µ) e

B(a, b) =

∫ 1

0θa−1(1− θ)b−1dθ.

Ossia la famiglia coniugata risulta essere la famiglia di distribuzioni beta.La posteriori risulta essere

πn0,t0(θ|x1:n) = B

(n0x0 +

n∑i=1

xi, n0 + n−n∑i=1

xi

)−1

I(0,1)(θ)θn0x0+

∑ni=1 xi−1(1−θ)n0+n−

∑ni=1 xi−1d

Esempio 35 (Poisson-Gamma). Consideriamo il modello di Poisson. Inquesto caso

Θ = R+ X0 = R µ(dx) :=∑k≥0

δk(dx)

pθ(dx) =1

x!e−θθxµ(dx) = exp− log(x!)− θ + (log θ)xµ(dx).

Chiaramente in questo caso

T (x) = x;

η(θ) = log(θ) H = R;

ψ(θ) = θ.

Di conseguenza, poiche η′(θ) = (θ)−1,

πn0,x0(dθ) =θn0x0−1e−n0θ

Γ(n0x0)nn0x0

0 dθ

con n0 > 0, x0 ∈ R+ = CS(µ). Ossia la famiglia coniugata risulta essere lafamiglia di distribuzioni gamma.

Page 67: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

7. LA FAMIGLIA ESPONENZIALE NELLA STATISITCA BAYESIANA 67

Esempio 36 (Normale-Normale). Consideriamo ora una likelihood nor-male di media incognita e precisione nota λ. Ossia

X0 = R, Θ = R

pµ(dx) = dx

√λ

2πe−

λ2

(x−µ)2 =dx√λ√

2πe−λx

2/2 expλµx− λµ2/2.

Ossiat(x) = λx ψ(µ) = λµ2/2.

Poiche t0 = λx0 si ha

πn0,λx0(dµ) ∝ expn0x0λµ− n0λµ2/2dµ

= exp−n0λ

2(µ− x0)2

√n0λ

2πdµ.

In altre parole πn0,λx0 = N (x0,1n0λ

). Quindi la gaussiana e una famigliaconiugata per la gaussiana con media incognita e precisione nota. In parti-colare la distribuzione a posteriori e

πn0,λx0x1:n = N (

n0x0 +∑n

i=1 xin0 + n

,1

λ(n0 + n)).

Page 68: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi
Page 69: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

CAPITOLO 8

Test di Ipotesi

Per le definizioni base sui test rimandiamo al paragrafo 1.3.

1. Test e P-value

Come gia anticipato nel paragrafo 1.3, un test spesso si basa sulla costruzionedi una zona di rifiuto, ossia si cercano test della forma

δα(ξ) = IT (ξ) ∈ Rαdove T e un’opportuna statistica e Rα e una regione tale che

PθT (ξ) ∈ Rα ≤ αper ogni θ ∈ Θ0. In questo modo δα sara un test di livello α.

Definizione 8.1. Un test δ∗ di livello α e detto uniformemente piupotente se

Eθ1 [δ∗(ξ)] > Eθ1 [δ(ξ)]

per ogni θ1 in Θ1 e ogni δ test di livello α.

Da quato fin qui visto e chiaro che un parametro importante per costruireun test e il livello α. Tale scelta, naturalmente, e arbitraria e dipende daquale probabilita di errore di primo tipo si e disposti a tollerare. Spesso si hapero la possibilita di costruire per ogni α un opportuno test di livello α. Ilconcetto di p-value e strettamente collegato a questa particolare possibilita.

Definizione 8.2. Sia (δα)α∈(0,1) una famiglia di test dove δα ha tagliaα. Allora, per ogni realizzazione x di ξ si definisce p-value (associato allafamiglia (δα)α∈(0,1)) il valore

Pv(x) = infα : δα(x) = 1.

Spesso se il test e costruito sulla base di una statistica T (ξ), il p-valuesi intende funzione delle realizzazioni di T (ξ).

Il significato del p-value e di indicare a quale livello si deve prendere iltest per rifiutare l’ipotesi nulla in corrispondenza di una data osservazionex. Chiaramente se p e molto piccolo sara sufficiente che lo statistico fissiuna soglia molto bassa come livello per rifiutare l’ipotesi nulla. In questocaso si considera il risultato di rifiutare l’ipotesi nulla come significativo. Nel

69

Page 70: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

70 8. TEST DI IPOTESI

caso contrario, quando p e grande, per rifiutare l’ipotesi nulla si e costrettia considerare α elevati e quindi, in sostanza, si considera piu ragionevolerifiutare l’ipotesi. Naturalmente il tutto e opinabile e soggettivo: quantopiccolo deve essere Pv per essere significativo? Non c’e una risposta univoca.Nella pratica spesso si considera, in modo sostanzialmente arbitrario, unasoglia del 0.05 come accettabile.

Esempio 37. Consideriamo il problema di Esempio 15. Ossia si vuoletestare se la media di un campione gaussiano ξ1, . . . , ξn di variabili aleatorieindipendenti ed identicamente distribuite (di varianza nota σ2) sia positiva.Abbiamo visto che

δα(ξ) = ITn > cαcon

Tn(ξ) =

√nmn

σ=

1

σ√n

n∑i=1

ξi.

e

cα = −Φ−1(α)

e un test per Θ0 = m ≤ 0 contro Θ1 = m ≥ 0 di livello α. In questocaso, osservato Tn(ξ) = t, si rifiuta H0 se

t > cα

ossia, notando che vale anche cα = Φ−1(1− α), se

Φ(t) > Φ(cα) = 1− α

e quindi se

Φ(−t) < α.

Concludendo

Pv(t) = Φ(−t)ovvero come funzione di ξ,

Pv(ξ) = Φ(− 1

σ√n

n∑i=1

ξi

)

2. Test alla Neyman-Pearson

Consideriamo un campione ξ e indichiamo con fθ la densita di ξ.

Supponiamo che Θ = θ0, θ1 e per semplicita poniamo fθi = fi. Chiara-mente siamo interessati al problema della verifica d’ipotesi per Θ0 = θ0contro Θ1 = θ1.

Definizione 8.3. Un test di Neyman-Pearson di parametri k > 0 ec ≥ 0 e

δNP (ξ) = If1(ξ) > kf0(ξ)+ cIf1(ξ) = kf0(ξ).

Page 71: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

2. TEST ALLA NEYMAN-PEARSON 71

Si noti che, se f0(x) > 0, il test di Neyman-Pearson puo essere scrit-to in fuzione del rapporto di verosimiglianza L(ξ) = f1(ξ)/f0(ξ). Intuiti-vamente, ragionando come fatto per giustificare gli stimatori di massimaverosimiglianza, se il campione proviene da f0 si ha maggior probabilita cheL(ξ) < 1, ossia f1(ξ) < f0(ξ).

Proposizione 8.4. Se δ e un test di livello α, ossia Eθ0 [δ(ξ)] ≤ α,per testare H0 vs H1, allora ogni test di Neyman-Pearson δNP tale cheEθ0 [δNP (ξ)] = α soddisfa

Eθ1 [δNP (ξ)] ≥ Eθ1 [δ(ξ)],

ossia δNP e piu potente di δ.

Dimostrazione Poniamo

A0 = x : f1(x) 6= 0, f0(x) = 0A∗0 = x : f1(x) 6= 0, f0(x) 6= 0A1 = A∗0 ∩ x : f1(x) > kf0(x)A2 = A∗0 ∩ x : f1(x) = kf0(x)A3 = A∗0 ∩ x : f1(x) < kf0(x).

Allora

Eθ1 [δNP (ξ)− δ(ξ)] =

∫A0

(δNP (x)− δ(x))f1(x)µ(dx)

+

∫Ac0

(δNP (x)− δ(x))f1(x)µ(dx)

≥∫Ac0

(δNP (x)− δ(x))f1(x)µ(dx)

=

∫Ac0

(δNP (x)− δ(x))f1(x)

f0(x)f0(x)µ(dx)

(21)

poiche su A0 si ha δNP (x) = 1 ≥ δ(x). Ora su A1

(δNP (x)− δ(x))f1(x)

f0(x)= (1− δ(x))

f1(x))

f0(x)> k(δNP (x)− δ(x)),

su A2

(δNP (x)− δ(x))f1(x)

f0(x)= k(δNP (x)− δ(x))

e su A3

(δNP (x)− δ(x))f1(x)

f0(x)= −δ(x)

f1(x)

f0(x)≥ −kδ(x)

f1(x)

f0(x)= k(δNP (x)− δ(x)).

Combinando queste disuguaglianze con la (21) si ha

Eθ1 [δNP (ξ)− δ(ξ)] ≥ kEθ0 [(δNP (ξ)− δ(ξ))IA∗0(ξ)]

Page 72: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

72 8. TEST DI IPOTESI

D’altra parte

Eθ0 [(δNP (ξ)−δ(ξ))IA0(ξ)] =

∫x:f0(x)=0,f1(x)6=0

(δNP (x)−δ(x))f0(x)µ(dx) = 0

e quindi

Eθ1 [δNP (ξ)− δ(ξ)] ≥ kEθ0 [(δNP (ξ)− δ(ξ))] = k(α− Eθ0 [δ(ξ)]) ≥ 0.

Resta da dimostrare che e possibile trovare (k, c) = (kα, cα) in modo cheEθ0 [δNP (ξ)] = α.

Dal momento che L(ξ) = f1(ξ)/f0(ξ)If0(ξ) > 0 e una variabile aleato-ria la funzione

[0,+∞) 3 y 7→ Pθ0L(ξ) ≥ ye monotona non decrescente, in 0 vale 1 ed e continua da sinistra. Quindiper ogni α ∈ (0, 1) esiste kα tale che

Pθ0L(ξ) > kα ≤ α

e

Pθ0L(ξ) ≥ kα ≥ α.Ponendo

cα =α− Pθ0L(ξ) > kαPθ0L(ξ) = kα

se Pθ0L(ξ) = kα > 0 e cα = 0 altrimenti, si ha che

δNP (ξ) = If1(ξ) > kαf0(ξ)+ cαIf1(ξ) = kf0(ξ)

e un test di Neyman-Pearson e che

Eθ0 [δNP (ξ)] = Pθ0L(ξ) > kα+ cαPθ0L(ξ) = kα = α.

Definizione 8.5. Una famiglia fθ : θ ∈ Θ ⊂ R di densita di proba-bilita e detta a rapporto di verosimiglianza monotono se per ogni θ1 < θ2 inΘ

fθ2(x)

fθ1(x)= Ψθ1,θ2(T (x))

con

y 7→ Ψθ1,θ2(y)

monotona crescente (strettamente) e T statistica a valori in R.

Esempio 38. Si consideri una famiglia esponenziale con T reale param-eterizzata in modo canonico. In questo caso

fθ(x) = expθT (x)−Ψ(θ).

Quindifθ2(x)

fθ1(x)= exp(θ2 − θ1)T (x) expΨ(θ1)−Ψ(θ2),

Page 73: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

2. TEST ALLA NEYMAN-PEARSON 73

e dunque

y 7→ Ψθ1,θ2(y) = exp(θ2 − θ1)y expΨ(θ1)−Ψ(θ2)

e monotona crescente.

In presenza di modelli con rapporto di verosimiglianza monotono e pos-sibile adattare la costruzione del test di Neyman-Pearson per testare

Θ0 := θ ≤ θ0 vs Θ1 = θ > θ0.

Si ponga, per ogni t0 e c in R

δt0,c(ξ) = IT (ξ) > t0+ cIT (ξ) = t0.

Proposizione 8.6. La funzione

θ 7→ β(θ) = Eθ[δt0,c(ξ)]

e crescente.

Dimostrazione Sia θ1 < θ2 e si ponga

α := Eθ1 [δt0,c(ξ)].

Ora dal momento che Ψθ1,θ2 e una funzione monotona

δt0,c(ξ) = IΨθ1,θ2(T (ξ)) > Ψθ1,θ2(t0)+ cIΨθ1,θ2(T (ξ)) = Ψθ1,θ2(t0).

e quindi δt0,c e un test di Neyman-Pearson di livello α per testare l’ipotesiH0 = θ = θ1 versus H1 = θ = θ2. Si ponga ora δ(ξ) = α. Poiche δ e untest di livello α, per il Lemma di Neyman-Pearson si ha

Eθ1 [δt0,c(ξ)] = α = Eθ2 [δ(ξ)] ≤ Eθ2 [δt0,c(ξ)].

Proposizione 8.7. Se Eθ0 [δt0,c(ξ)] = α > 0 allora δt0,c e un test uni-formemente piu potente di livello α per testare Θ0 := θ ≤ θ0 vs Θ1 = θ >θ0.

Dimostrazione Per la proposizione precedente θ 7→ β(θ) e crescente equindi δt0,c e di livello α. D’altra parte, ragionando come nella dimostrazioneprecedente δt0,c e un test di Neyman-Pearson per testare θ0 vs θ1 per ogniθ1 > θ0 e quindi per il lemma di Neyman-Pearson

Eθ1 [δt0,c(ξ)] ≥ Eθ1 [δ(ξ)]

purche δ sia di livello α. Dal momento che ogni test di livello α per testareΘ0 contro Θ1 puo essere visto come un test di livello α per testare θ0 vs θ1

per un θ1 > θ0 si conclude.

Page 74: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

74 8. TEST DI IPOTESI

3. Test ed intervalli di confidenza: impostazione bayesiana

In linea molto generale, dal punto di vista Bayesiano, volendo testareH0 = θ ∈ Θ0 versus H1 = θ ∈ Θ1 si puo procedere considerando unaprior π su Θ = Θ0 ∪Θ1 e poi confrontare

PΘ0|ξ = x =

∫Θ0

π(θ|x)dθ

con

PΘ1|ξ = x =

∫Θ1

π(θ|x)dθ.

Spesso questo confronto e fatto sulla base del cosiddetto posterior-odds, ossia

Odd =PΘ0|ξ = xPΘ1|ξ = x

.

Si fissa una soglia e si rifiuta l’ipotesi a seconda se l’Odd supera o menoquesta soglia. Se il posterior odd e piccolo (piu piccolo di uno) si e propensia rifiutare l’ipotesi nulla.

Un modo comodo per riscrivere quanto appena visto e nel considerare

π(θ) = π0g0(θ)Iθ ∈ Θ0+ (1− π0)g1(θ)Iθ ∈ Θ1dove chiaramente π0 = π(Θ0) e gi sono densita di probabilita su Θi. Inquesto modo si mette in evidenza il peso a priori che si assegna all’ipotesinulla e all’ipotesi alternativa (i.e. π0 e 1− π0).

A qusto punto, ricordando che

π(θ|x) =f(x|θ)π(θ)∫

Θ f(x|u)π(u)du

osserviamo che∫Θf(x|u)π(u)du = π0

∫Θ0

f(x|u)g0(u)du+ (1− π0)

∫Θ1

f(x|u)g1(u)du

per ottenere

π(θ|x) =π0f(x|θ)g0(θ)Iθ ∈ Θ0+ (1− π0)f(x|θ)g1(θ)Iθ ∈ Θ1π0

∫Θ0f(x|u)g0(u)du+ (1− π0)

∫Θ1f(x|u)g1(u)du

.

Quindi

PΘ0|ξ = x =π0

∫Θ1f(x|θ)g0(θ)dθ

π0

∫Θ0f(x|u)g0(u)du+ (1− π0)

∫Θ1f(x|u)g1(u)du

.

e

PΘ1|ξ = x =(1− π0)

∫Θ1f(x|θ)g1(θ)dθ

π0

∫Θ0f(x|u)g0(u)du+ (1− π0)

∫Θ1f(x|u)g1(u)du

.

e dunque

Odd =π0

1− π0

∫Θ0f(x|θ)g0(θ)dθ∫

Θ1f(x|θ)g1(θ)dθ

.

Page 75: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

4. GOODNESS OF FIT 75

Comunemente si chiama Bayes factor il termine

BF01 =

∫Θ0f(x|θ)g0(θ)dθ∫

Θ1f(x|θ)g1(θ)dθ

.

Il fatto di avere BF01 piccolo si considera come un’idicazione contro l’ipotesinulla, ossia a favore del suo rifiuto.

Si noti che fin qui abbiamo supposto che la dimensione di Θi non fosseridotta ad un solo punto. Quando, ad esempio, l’ipotesi nulla sia del tipoΘ0 = θ0, la situazione e piu delicata. Una possibilita e procedere comefatto prima considerando una prior π con una componente concentrata suθ0, ossia

π(dθ) = π0δθ0(dθ) + (1− π0)g1(θ)Iθ ∈ Θ1dθ.In questo caso, usando sempre il teorema di Bayes, si ottiene che

PΘ0|ξ = x =π0f(x|θ0)

π0f(x|θ0) + (1− π0)m1(x)

dove

m1(x) =

∫θ∈Θ1

f(x|θ)g1(θ)dθ.

Usando il fatto che

PΘ1|ξ = x = 1− PΘ1|ξ = x

si ottiene

Odd =π0

1− π0

f(x|θ)m1(x)

Concludiamo questo paragrafo osservando che, nel caso si sia interessatia stime per intervalli dal punto di vista bayesiano, si possono considerare icosiddetti intervalli di credibilita.

Definizione 8.8. Un insieme C ⊂ Θ si dice insieme di confidenza(credibilita) di livello α se

Pθ ∈ C|ξ = x ≥ 1− α

4. Goodness of fit

Consideriamo un campione ξ = (ξ1, . . . , ξn) di variabili aleatorie (reali)indipendneti e identicamente distribuite con comune funzione di ripartizioneFθ.

Supponiamo di fissare un certo θ0 in Θ e per semplicita poniamo Fθ0 =F0. Capita spesso di trovarsi nella situazione in cui, sulla base del campioneξ, si e interessati a verificare l’ipotesi H0 che la funzione di ripartizione

Page 76: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

76 8. TEST DI IPOTESI

delle osservazioni sia F0 contro l’alternativa H1 che θ 6= θ0. Sulla base delleosservazioni possiamo costruire la funzione di ripartizione empirica

Fn(x) = Fn,ξ(x) =1

n

n∑j=1

I(−∞,x](ξj).

Si noti che fissata una realizzazione di ξ in X (ossia una traiettoria), x 7→Fn,ξ(x) e una funzione di ripartizione, viceversa, fissato x in R, ξ 7→ Fn,ξ(x)e una variabile aleatoria. Si noti anche che questa funzione (aleatoria)corrisponde alla misura (aleatoria)

en(dx) =1

n

n∑j=1

δξj (dx).

Il teorema di Glivenko-Cantelli (si veda il prossimo Capitolo) assicu-ra che per n tendente a +∞, Fn tende (quasi certamente) a Fθ. Quindiper decidere se la funzione Fθ sia uguale a F0 o meno, non e irragionevoleconsiderare

Tn(ξ) = supx∈R|F0(x)− Fn(x)|.

Tale statistica e nota come distanza di Kolmogorov-Smirnov. Sulla base diquesta statistica si puo poi di costruire il test

δ(ξ) = ITn(ξ) > c.

Per fissare c = cα in modo che il test costruito sia di livello α e utile laseguente

Proposizione 8.9. Per ogni F0 funzione di ripartizione continua lavariabile aleatoria Tn(ξ) ha la stessa legge di

Dn = supy∈[0,1]

|y − 1

n

n∑j=1

I(−∞,y](Uj)|

dove U1, . . . , Un sono v.a. indipendenti con legge uniforme su [0, 1].

Dimostrazione. Prima di tutto si osservi che se U1, . . . , Un sono variabilii.i.d. con disribuzione uniforme su [0, 1], allora

F−10 (Ui)

sono variabili aleatorie con funzione di ripartizione F0. Si ricordi che F−10 e

la funzione quantile (o inversa generalizzata) di F0

F−10 (y) = infx ∈ R : y ≤ F0(x).

[Fare un disegno per capire!!!] Il caso facile e quando F0 e strettamentemonotona, in questo caso, ovviamente F−1

0 (F0(x)) = x, e quindi PF−10 (Ui) ≤

Page 77: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

4. GOODNESS OF FIT 77

x = PUi ≤ F0(x) = F0(x). Quindi Tn(ξ) ha la stessa legge di

supx∈R| 1n

n∑j=1

IF−10 (Ui) ≤ x − F0(x)|.

Ora, se F0 e continua vale anche, ponendo F0(x) = y, che

supx∈R| 1n

n∑j=1

IF−10 (Ui) ≤ x−F0(x)| = sup

y∈(0,1)| 1n

n∑j=1

IF0(F−10 (Ui)) ≤ y−y|.

Inoltre, sempre usando la continuita di F0, si ha F0(F−10 (Ui)) = Ui, da cui

la tesi.

La distribuzione di Dn si trova oramai in molti pacchetti statistici ein varie tavole. Inoltre si puo facilmente simulare con un banale metodoMontecarlo.

Page 78: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi
Page 79: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

CAPITOLO 9

Stimatori M e Z.

Come sempre supponiamo di avere a che fare con un modello statistico(X,X , Pθ : θ ∈ Θ). In questo capitolo e nel successivo concentreremo la nos-tra attenzione a modelli un po’ particolare. Supporremo che la successionedelle osservazioni sia infinitamente proseguibile, ossia

ξ = (ξ1, . . . , ξn, . . . )

e che le osservazioni ξi siano indipendenti ed identicamente distribuite.

Per formalizzare quando detto supporremo dunque che

• X := (Rd)N e X e la σ-algebra dei boreliani di X.• Pθ : θ ∈ Θ e una famiglia di misure prodotto tale che ogni Pθ renda

indipendenti e identicamente distribuite le variabili aleatorie ξi. Inaltri termini Pθ := ⊗∞i=1pθ ove pθ e una misura di probabilita suiboreliani di Rd, ossia

Pθ(A1 × . . . An × (Rd)+∞) =

∫A1×...An

pθ(dx1) . . . pθ(dxn)

Ai ∈ B(Rd), i = 1 . . . n.

Un importante teorema, noto come teorema di Glivenko Cantelli, affer-ma che, se (ξ1, . . . , ξn, . . . ) e una successione di vettori aleatori indipendentied identicamente distribuiti con comune funzione di ripartizione F , allora

supx∈Rk

|Fn(x)− F (x)|

P−q.c.→ 0,

ossia

P limn→+∞

supx∈Rk

|Fn(x)− F (x)|

= 0 = 1.

1. Il metodo di sostituzione

In ambito frequentista, come gia ricordato, si suppone implicitamentel’esistenza di un parametro θ0 tale che la distribuzione ′′reale′′ di ξ sia Pθ0 .Sebbene non sappiamo quale sia questo parametro θ0 sappiamo che essoesiste.

79

Page 80: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

80 9. STIMATORI M E Z.

Indicheremo con Fθ la funzione di ripartizione in Rd relativa a pθ, percui pθ(dx) = dFθ(x), misura di Lebesgue-Stiltjes. Notiamo che in questocaso, supponendo che le osservazioni sono indipendenti ed identicamentedistribuite, la conoscenza di pθ conincide con la conoscenza di Pθ.

Abbiamo gia avuto modo di vedere che in molti casi non si e interessatia fare dell’inferenza direttamente sul parametro θ0 (ossia direttamente supθ0) ma, piuttosto, su un funzionale di pθ0 .

Indicato con F l’insieme delle funzioni di ripartizione su Rd, un funzionaledi pθ e semplicemente una funzione T : F0 → T, dove tipicamente T ⊂ Rk eF0 ⊂ F.

Ecco alcuni esempi importanti con d = 1.

Media p:

T (F ) = Meanp(F ) :=

∫RxpdF (x);

Varianza:

T (F ) = V ar(F ) :=

∫R

(x−∫RydF (y))2dF (x);

Quantile:

T (F ) = Qp(F ) := F−1(p) = infx : F (x) ≥ p;Skewness:

T (F ) = k(F ) =

∫R(x−

∫R ydF (y))3dF (x)

[∫R(x−

∫R ydF (y))2dF (x)]3/2

;

Funzione di ripartizione in x:

T (F ) = F (x).

Infine vediamo un esempio di funzionale definito su un sottoinsieme dellefunzioni di ripartizioni doppie, ossia per d = 2.

Correlazione:

T (F ) = ρ(F ) =

∫R2 [(x−

∫R tdF1(t))(y −

∫R tdF2(t))]dF (x, y)

([∫R(x−

∫R tdF1(t))2dF1(x)][

∫R(y −

∫R tdF2(t))2dF2(y)])1/2

,

dove F1(x) =∫

(−∞,x]×R dF (t, y) e F2(y) =∫R×(−∞,y] dF (x, t).

Spesso, data una certa τ , identificando Θ con il sottoinsieme di F definitoda Fθ : θ ∈ Θ possiamo pensare il problema di stima di τ(θ) come equiv-alente al problema di stimare una certa T (Fθ), per un’opportuna scelta diT .

Il metodo di sostituzione consiste nel considerare come stimatore di unfunzionale T (F ) il funzionale medesimo calcolato nella funzione di ripar-tizione empirica assocaita alle prime n osservazioni, i.e. T (Fn), a patto cheFn appartenga a F0.

Page 81: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

2. STIME M E Z 81

Il teorema di Glivenko-Cantelli, ricordato all’inizio del capitolo, giustificaeuristicamente il metodo di sostituzione, infatti ci si puo aspettare che, pern grande, T (Fn) sia vicino a T (F ), almeno se T e un funzionale in qualchesenso continuo.

2. Stime M e Z

Nei capitoli precedenti abbiamo visto che due buone proprieta di unostimatore sono che esso sia non distorto e che sia a varianza uniformementeminima. Tuttavia tali proprieta non sono le uniche significative, inoltre, nonsempre e possibile determinare agevolmente stimatori non distorti a varianzauniformemente minima. E’ per tanto interessante determinare strategie checonducano a costruire stime sensate, anche se magari non ottimali dal puntodi vista della varianza. Le stime di massima verosimiglianza constituisconoun primo ed importante esempio in questa direzione.

Un metodo per determinare classi abbastanza generali di stimatori equello di ottenere uno stimatore minimizzando (o massimizzando) oppor-tune funzioni del parametro e delle osservazioni. Descriviamo una classe distimatori ottenuti in questo modo. Si consideri una funzione

ρ : Rd ×Θ→ Rtale che per ogni θ ∈ Θ l’applicazione

x 7→ ρ(x, θ)

sia misurabile ed inoltre

−∞ < Eθ0ρ(ξ1, θ0) =

∫Rdρ(x, θ0)dFθ0(x) <

∫Rdρ(x, θ)dFθ0(x) = Eθ0ρ(ξ1, θ)

per ogni θ 6= θ0. Si definisca quindi

(22) M(θ) :=

∫Rdρ(x, θ)dFθ0(x).

Notiamo che M dipende da θ0 ma che

argminθ∈ΘM(θ) = θ0.

Se conoscessimo M , per determinare θ0 sarebbe quindi sufficiente minimiz-zare la suddetta funzione, tuttavia per conoscere M dovremmo conoscereθ0, il che e ovviamente tautologico. Si puo pero procedere sostituendo ad Muna sua approssimazione, diciamo Mn, che dipenda dal campione osservatoma non da θ0, e scegliere come stima di θ0 il minimo di Mn.

A questo punto, ragionando come nel paragrafo precedente, viene natu-rale scegliere

Mn(θ) :=

∫Rdρ(x, θ)dFn(x)

come approssimazione di M(θ).

Page 82: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

82 9. STIMATORI M E Z.

Osserviamo subito che

Mn,ξ(θ) =1

n

n∑k=1

ρ(ξk, θ)

e che ξ 7→ Mn,ξ(θ) e misurabile. Quindi come stima di θ0 si puo scegliere

(23) θn = argminθ∈ΘMn(θ).

Spesso invece di voler stimare direttamente il parametro θ si e inter-essati solo ad “una parte” di tale parametro, ossia ad una funzione τ(·)di θ. In questo caso un criterio per determinare una stima di τ(θ0), conτ : Θ → Y funzione a valori in uno spazio metrico (Y, d), puo essere quellodi minimizzare

h→ Mn(τ−1(h)),

ossia scegliere come stimatore di t(θ0)

(24) hn := argminh∈τ(Θ)Mn(τ−1(h)).

Qui occorre osservare che τ−1 in generale non e iniettiva e che per tantoh 7→ Mn(τ−1(h)) potrebbe non essere ben definita. Per questo motivo puoconvenire considerare semplicemente come nuovo spazio dei parametri τ(Θ),e su questo spazio costruire una funzione di discrepanza

M(h) :=

∫Rdρ∗(x, h)dFθ(x),

con ρ∗ definita su X × τ(Θ) in modo che

argminh∈τ(Θ)M(h) = τ(θ0).

Di conseguenza si puo scegliere

Mn(h) =1

n

n∑k=1

ρ∗(ξk, h)

e quindi

hn := argminh∈τ(Θ)Mn(h).

Osservazione. Naturalmente non e detto che i punti di massimo ominimo di cui si e discusso fin qui esistano. Inoltre, se anche viene garantital’esistenza di una successione di applicazioni da X in Θ che soddisfi (23) none affatto detto che gli elementi di tale successione siano variabili aleatorie,ossia siano misurabili.

Ovviamente quanto detto puo anche essere riletto dicendo che per ot-tenere una stima di θ0 si deve massimizzare

θ 7→Mn(θ) := −Mn(θ),

per questo motivo stimatori come quelli fin qui discussi sono spesso denom-inati stimatori M – dove M sta per “max”.

Page 83: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

3. MINIMA DISCREPANZA 83

Notiamo che se Θ = Rk e θ → M(θ) e una funzione sufficientementeregolare, allora θ0 e un punto di Rk dove si annulla

Z(θ) := ∇M(θ).

Pertanto si puo pensare di ottenere uno stimatore di θ0 cercando una soluzionedi

0 = ∇Mn(θ) =: Zn(θ).

Stimatori di questo tipo sono talvolta chiamati stimatori Z– dove Z staper “zero”. Va rilevato che vi sono stimatori ottenuti cercando le soluzionidi equazioni del tipo Zn(θ) = 0 dove tuttavia Zn non e necessariamente ilgradiente di una funzione.

In generale sia

ψ : Rd ×Θ→ (R)k

una funzione tale che per ogni θ ∈ Θ l’applicazione x 7→ ψ(x, θ) sia misura-bile ed inoltre tale che θ0 sia l’unica soluzione del sistema di equazioni inθ

(25)

∫Rdψi(x, θ)dFθ0(x) = 0, i = 1, . . . , k,

ossia ∫Rdψi(x, θ0)dFθ0(x) = 0 i = 1, . . . , k,

e

(

∫Rdψ1(x, θ)dFθ0(x), . . . ,

∫Rdψk(x, θ)dFθ0(x)) 6= (0, 0, . . . , 0)

per ogni θ 6= θ0.

Una successione di variabili aleatorie θn e detta successione di stimatoriZ per θ0 se

(26)1

n

n∑j=1

ψi(ξj , θn) = 0 i = 1, . . . , k,

Pθ0 quasi certamente per ogni n ≥ 1.

3. Minima discrepanza

I metodi M possono essere spesso visti come metodi di minima dis-crepaza. Nei metodi di minima discrepanza si considera una funzione didiscrepanza D fra funzioni di ripartizione (o fra misure), tale che sia defini-ta su D × D, con D sottoinsieme dello spazio delle funzioni di ripartizione(o delle misure) tale che Fθ : θ ∈ Θ ⊂ D. Per essere una discrepanza D

deve essere tale che che θ 7→ M(θ) := D(Fθ, Fθ0) sia una funzione con un

solo minimo in θ0. Ancora si puo sostituire ad M una sua approssimazione,diciamo Mn, che dipenda dal campione osservato ma non da θ0, e sceglierecome stima di θ0 il minimo di Mn. Per determinare un’approssimazione di

Page 84: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

84 9. STIMATORI M E Z.

M , in generale, si cerca di scegliere D in modo che contenga, per ogni n,la funzione di ripartizione empirica associata a (ξ1, . . . , ξn) per ogni real-izzazione di (ξ1, . . . , ξn). Si puo quindi scegliere come approssimazione di

M

θ 7→ D(Fθ, Fn) =: Mn(θ).

3.1. Le divergenze come esempio di discrepanze. Si assuma chep e q siano due misure di probabilita su (X,X ), e si ponga pa e ps per laparte assolutamente continua e la parte singolare di p rispetto a q, da cuip = pa + ps.

La cosiddetta g–divergenza fra p e q si definisce come

(27) Dg(p, q) =

∫X\X∗

g(l(x)

)q(dx) + gp(X∗),

dove

• g e una funzione convessa a valori in [0,+∞), con limx→+∞ x−1g(x) =

g e g(1) = 0;• l = dpa/dq e X∗ e un insieme di misura pa nulla tale che per ogni

insieme misurabile A, ps(A) = ps(A ∩X∗).

Se X e uno spazio discreto con cardinalita k e p = (p1, . . . , pk), q =(q1, . . . , qk) sono due vettori di probabilita allora

(28) Dg(p, q) =k∑j=1

[I(0,+1](qj) g(pjqj

)qj + I0(qj)gpj ].

E’ facile verificare che la scelta g(x) = |x − 1|/2 implica che Dg(p , q)coincida con la distanza in variazione fra p e q, ossia

dTV (p, q) =1

2

∫X|fp(x)− fq(x)|µ(dx)

= supA∈X|q(A)− p(A)|

dove fp e fq sono densita di p e q rispetto ad una misura σ–finita µ. Si puoscegliere µ = p+ q.

Ecco altre forme importanti di g–divergenze.

Divergenza di Kullback–Leibler:

dKL(p, q) :=

∫X log(fp(x)/fq(x))fp(x)µ(dx) se p e assolutamente continua rispetto a q

+∞ altrimenti.

distanza χ2:

dχ2(p, q) :=

∫X(fq(x)− fp(x))2fq(x)−1µ(dx) se p e assolutamente continua rispetto a q

+∞ altrimenti.

Page 85: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

4. ESEMPI 85

distanza di Hellinger (al quadrato):

d2H(p, q) :=

∫X

(√fp(x)−

√fq(x)

)2µ(dx).

Questi indici possono essere ottenuti da Dg scegliendo g(x) = x log x,g(x) = (x− 1)2 e g(x) = (

√x− 1)2.

4. Esempi

Esempio 39 (Media). Si supponga di disporre di un campione di variabilialeatorie reali (ξ1, . . . , ξn) delle quali si sia interessati a stimare la media

τ(θ) = Eθ(ξ1).

Si puo notare che

τ(θ0) = argminm∈RM(m)

con

M(m) = Eθ0 |ξ1 −m|2.Applicando il principio di sostituzione otteniamo

Mn(m) =1

n

n∑i=1

|ξi −m|2

e quindi abbiamo che una stima M di τ(θ) e data dalla media empirica

1

n

n∑i=1

ξi.

Esempio 40 (Mediana). Nelle ipotesi dell’esempio precedente si suppon-ga di voler stimare una mediana di Pθ0 (per semplicita supponiamo che talemediana sia unica). Ancora si puo notare che

τ(θ0) := Med(Pθ0) = argminm∈RM(m)

con

Eθ0 |ξ1 −m|.Applicando il principio di sostituzione otteniamo

Mn(m) =1

n

n∑i=1

|ξi −m|

e quindi abbiamo che una stima di τ(θ) e data dalla mediana empirica, chenel caso di un campione di dimensione dispari e data da ξ(m), con m =(n− 1)/2 + 1.

Page 86: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

86 9. STIMATORI M E Z.

Esempio 41. Un esempio di funzione di discrepanza fra funzioni diripartizione e dato da

M(θ) =

∫R|Fθ(x)− Fθ0(x)|2dFθ0(x).

In questo caso

Mn(θ) =1

n

n∑i=1

|Fθ(ξi)−1

n|2.

Esempio 42 (Metodo dei momenti). Si supponga che il modello statisticopossa essere parametrizzato da un parametro θ tale che

θ = (θ1, . . . , θd) = (Eθ(g1(ξ1)), . . . , Eθ(gd(ξ1))).

Classicamente gi(x) = xi. Il metodo dei momenti, visto come metodo Z,consiste nel considerare

ψ(ξ1, θ)i =

∫gi(x)dFθ(x)− gi(ξ1)

e quindi determinare θn come soluzione di∫gj(x)dFθn(x) =

1

n

n∑k=1

gj(ξk) j = 1, . . . , d.

5. Stimatori di Massima Verosimiglianza come stimatori M

Nel quadro generale degli stimatori M rientra una classe importantissimadi stimatori, gli Stimatori di Massima Verosimiglianza.

Supponiamo il modello statistico in esame sia dominato da una misuraσ-finita µ, inoltre poniamo fθ := dpθ

dµ .

Proposizione 9.1. Se µ(fθ > 04fθ0 > 0

)= 0, allora

(29) maxθ∈Θ

∫Rd

log(fθ(x))dFθ0(x) =

∫Rd

log(fθ0(x))dFθ0(x).

Scegliendo ρ(x, θ) := − log(fθ(x)), si ha che una scelta ammissibile didiscrepanza e

M(θ) = −∫Rd

log(fθ(x))dFθ0(x).

Quindi per stimare θ0, occorre minimizzare

Mn(θ) := − 1

n

n∑i=1

log(fθ(ξ)

)= − 1

nlog(

n∏i=1

fθ(ξi)).

Il che equivale a massimizzare la cosiddetta funzione di verosimiglianza delcampione n-dimensionale θ 7→

∏ni=1 fθ(ξi), ove

∏ni=1 fθ(ξi) e la densita n-

dimensionale di P θ.

Page 87: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

5. STIMATORI DI MASSIMA VEROSIMIGLIANZA COME STIMATORI M 87

Dimostrazione della Prop. 9.1.

Sfruttando la disuguaglianza

x > log(1 + x) x 6= 0,

si ha ∫R

(log fθ0(x)− log fθ(x)

)fθ0(x)µ(dx) =

=

∫x:fθ0 (x)>0,fθ(x)>0

− log( fθ(x)

fθ0(x)

)fθ0(x)µ(dx) =

=

∫x:fθ0 (x)>0,fθ(x)>0

− log(

1 +fθ(x)

fθ0(x)− 1)fθ0(x)µ(dx) =

≥−∫x:fθ0 (x)>0,fθ(x)>0

( fθ(x)

fθ0(x)− 1)fθ0(x)µ(dx).

(30)

La disuguaglianza e stretta se Pθ0fθfθ0−1 6= 0 > 0, ossia si ha l’uguaglian-

za solo se Pθ0fθ = fθ0 = 1.

Page 88: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi
Page 89: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

CAPITOLO 10

Modello lineare: il minimo indispensabile

Questo capitolo e ancora piu schematico degli altri. In questo caso edavvero d’obbligo leggere il Capitolo 6 di [2] e parte delle dispense messe inrete sul modello lineare.

Nel seguito I indichera la matrice identita metre At indichera il traspostodella matrice A. Ricordiamo che se

X = [Xi,j ]1≤i≤n,1≤j≤m

e una matrice aleatoria si usa indicare con E[X] la matrice la cui componente(i, j) e E[Xi,j ]. Inoltre se U e V sono due vettori aleatori scriviamo

Cov(U, V ) = E(

(U − E[U ])(V − E[V ])t)

= [Cov(Ui, Vj)]i,j .

Ricordiamo anche alcune semplici (ma utili) proprieta. Siano A e B duematrici deterministiche, a e b due vettori deterministici e U e V due vettorialeatori, allora

• E[AU +BV ] = AE[U ] +BE[V ]• Cov(AU + a,BV + b) = ACov(U, V )Bt.

In particolare, posto

V ar(U) = Cov(U,U) = [Cov(Ui, Uj)]i,j ,

si haV ar(AU + a) = AV ar(U)At.

1. Definizioni

Nel modello lineare si assume di avere a che fare con un vettore diosservazioni

Y = (Y1, . . . , Yn)t

la cui legge di probabilita e data da

Y = Zβ + ε

dove

• Z e una matrice n× p di rango r ≤ p ≤ n (nota), detta matrice didisegno;• β e un parametro che varia in Rp (o in un suo sottoinsieme);

89

Page 90: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

90 10. MODELLO LINEARE: IL MINIMO INDISPENSABILE

• εt = (ε1, . . . , εn) un vettore aleaorio.

Nel seguito faremo tre differenti assunzioni:

• (LSM) Least square models: la legge di ε e nota, il parametro eθ = β e Θ = Rp;• (GM) Gauss-Markov moldes: ε e tale che E[ε] = 0 e Cov(ε) = σ2I,

il parametro e θ = (σ2, β) e Θ = R+ × Rp;• (GLM) Gaussian Linear models: ε ∼ N (0, σ2I), il parametro eθ = (σ2, β) e Θ = R+ × Rp.

Nessuno dei modelli precedenti, senza fare ulteriori ipotesi su Z, e iden-tificabile. Ad esempio

Yi = a+ bi + εi (i = 1, 2)

con εi i.i.d N (0, σ2) puo essere scritto come modello linerare scegliendo

Z =

(1 1 01 0 1

)β =

ab1b2

ma chiaramente la legge di (Y1, Y2) quando β = (1, 0, 0) e uguale alla leggedi (Y1, Y2) quando β = (0, 1, 0).

2. Esempi

2.1. Regressione lineare.

2.1.1. Regressione lineare semplice. Qui

Yi = α1zi + α0 + εi

per i = 1, . . . , n con εi i.i.d. In questo caso

Z =

1 z1

. . . . . .1 zn

e

βt = (α0, α1).

2.1.2. Regressione lineare multipla. Qui

Yi = α0 + α1z1i + · · ·+ αkzki + εi

per i = 1, . . . , n e

Z =

1 z11 z21 . . .. . . . . . . . . . . .1 z1n z2n . . .

e

βt = (α0, α1, α2, . . . , αn).

Page 91: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

3. LS MODELS 91

In questi casi, α0 e un parametro libero dalle covariate, mentre αk sonoparametri che regolano Yi a partire dalla covariata k-iesima, i.e. zi,k.

2.2. ANOVA ad una e due vie. Nel caso dell’ANOVA (analisi dellavarianza), si suppone che le osservazioni appartengano a m gruppi distinti,ciascuno con cardinalita ni. L’osservazione j-esiama del gruppo i si indicacon Yij . Nel caso dell’ANOVA ad una via si pone

Yik = µ+ αi + εik i = 1, . . . ,m, k = 1, . . . , ni.

dove εik sono i.i.d. (la legge degli errori non dipende ne da i n’e da k),µ e il fattore comune a tutti e αi e il fattore proprio del gruppo i. Nelcaso dell’ANOVA a due vie ha a che fare con il caso in cui ogni singolaosservazione e classificata da due caratteri, i e j che possono variare fra da1 a m1 e da 1 a m2 rispettivamente. La k-esima osservazione del blocco (ij)si indica con Yijk. In questo caso si pone

Yijk = µ+ αi + βj + εijk i = 1, . . . ,m1, j = 1, . . . ,m2, k = 1, . . . , nij .

Ancora εijk sono i.i.d, µ e il fattore comune, αi il fattore proprio del caratterei e βj quello del carattere j.

3. LS models

Definizione 10.1. Una funzione lineare di β, τ(β) = λtβ e detta (lin-earmente) stimabile se esiste una statistica T lineare tale che

Eβ[T (Y )] = λtβ

per ogni β in Rp.

Teorema 10.2. λtβ e linearmente stimabile se e solo se λt = atZ.

Dimostrazione. (⇐) Si consideri T (Y ) = atY . Allora Eβ[atY ] = atZβ =λtβ.

(⇒) Sia T (Y ) = c+atY , se Eβ[c+atY ] = λtβ per ogni β allora c+atZβ =λtβ per ogni β. Allora scegliendo β = 0 si ha subito c = 0 e per β = ei (conei i-esimo versore) si ottiene λt = atZ.

Definiamo

Q(β) = Q(β, Y ) =n∑j=1

(Yj − (Zβ)j)2 = (Y − Zβ)t(Y − Zβ).

Definizione 10.3. Lo stimatore ai minimi quadrati di β, indicato conβLS, e

βLS ∈ argminβQ(β, Y )

Page 92: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

92 10. MODELLO LINEARE: IL MINIMO INDISPENSABILE

Ricordando che data una matrice A simmetrica,

∇β(βtAβ) = 2Aβ

si ottiene che

∇βQ(β) = ∇β(Y tY + βtZtZβ − 2Y tZβ)

= 2(ZtZβ − ZtY ).

Dunque i punti stazionari di Q sono le soluzioni dell’equazione (detta nor-male)

(31) ZtZβ = ZtY.

Di conseguenza ogni βLS sara soluzione dell’equazione (31).

Sia ora C(Z) = z ∈ Rn : z = Zy, y ∈ Rn, ossia il sottospazio generato

da Z. Indichiamo con Y la proiezione di Y su C(Z). Esistera una matricedi proiezione PZ tale che

Y = PZY

Il successivo risultato e ovvio.

Lemma 10.4. β ∈ argminβQ(β, Y ) se e solo se Zβ = Y

Si noti in particolare che se βi ∈ argminβQ(β, Y ) per i = 1, 2 alloraZβ1 = Zβ2.

Lemma 10.5. β ∈ argminβQ(β, Y ) se e solo se β e soluzione di (31).

Dimostrazione. In un verso e ovvio per derivazione. Supponiamo orache β sia soluzione di (31). Allora

Q(β) = (Y − Zβ)t(Y − Zβ)

(Y − Zβ)t(Y − Zβ) + (Zβ − Zβ)t(Zβ − Zβ) + 2(Zβ − Zβ)t(Y − Zβ)

con

(Zβ − Zβ)t(Y − Zβ) = Y tZβ − βZtZβ − Y tZβ − βtZtZβ.

Usando (31) ne segue che

(Zβ − Zβ)t(Y − Zβ) = 0

e quindi

Q(β) = Q(β) +RtR ≥ Q(β)

con R = Z(β − β).

Osserviamo ora che se r = rank(Z) = p allora ZtZ e invertibile e (31)fornisce

βLS = (ZtZ)−1ZtY.

In generale se r < p la soluzione dell’equazione (31) esiste ma non e unica.

Page 93: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

4. STIMATORI BLUE 93

Proposizione 10.6. Esiste una matrice (ZtZ)− (non necessariamenteunica!) tale che

βLS = (ZtZ)−ZtY

ed inoltrePZ = Z(ZtZ)−Zt.

Inoltre ogni matrice Q tale che ZtZQZtZ = ZtZ puo essere usata come(ZtZ)−.

La dimostrazione della precedente dimostrazione si basa sul fatto che seun sistema lineare

Ax = b

con A non invertibile e tale che esiste almeno un x0 tale che b = Ax0 (ossiail sistema ammette almeno una soluzione), allora se A− e una matrice taleche AA−A = A ne segue che x = A−b e una soluzione. Infatti

Ax = AA−b = AA−Ax0 = Ax0 = b.

Quinidi la proposizione segue se si dimostra che ZtY appartiene allo spaziogenerato da ZtZ. Omettiamo questa verifica. La dimostrazione di questosemplice fatto la trovate sulle dispense di Tebbs a pagina 15.

Il vettore Y = ZβLS e detto fitted values mentre il vettore e = Y −ZβLSe detto vettore dei residui. Immediata conseguenza del fatto che e e Y sonoortogonali e il fatto che

‖Y ‖2 = Y tY = Y tY + ete.

4. Stimatori BLUE

In questo paragrafo assumiamo che valgano le ipotesi GM e che σ2 sianoto.

Definizione 10.7. Uno stimatore T lineare di τ(β) e detto BLUE (BestLinear Unbiased Estimator) se e non distorto, lineare (in ξ) e a varianzauniformemente minima nella classe degli stimatori lineari non distorti di τ .

Proposizione 10.8. Se λtβ e linearmente stimabile allora λtβLS e unostimatore BLUE.

Dimostrazione. Sia θ = atY uno stimatore lineare non distorto di λtβ.Allora

λtβ = Eβ[atY ] = atZβ

per ogni β e quindiλt = atZ.

Scrivendo θ = λtβLS + (θ − λtβLS) si ha

V arβ(θ) = V arβ(λtβLS) + V arβ(θ − λtβLS) + 2Covβ(θ − λtβLS , λtβLS)

≥ V arβ(λtβLS) + 2Covβ(θ − λtβLS , λtβLS).

Page 94: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

94 10. MODELLO LINEARE: IL MINIMO INDISPENSABILE

Ora

Covβ(θ − λtβLS , λtβLS) = Covβ(atY − atZβLS , atZβLS)

= Covβ(at(I − PZ)Y, atPZY ) = at(I − PZ)σ2I(atPZ)t

= σ2at(I − PZ)(PZ)ta = 0

poiche (I − PZ)(PZ)tx = 0 per qualunque x. Quindi

V arβ(θ) ≥ V arβ(λtβLS).

Chiaramente nella precedente disuguaglianza si ha l’uguale se e solo seV arβ(θ − λtβLS) = 0, ossia se e solo se θ = λtβLS q.c. .

5. Stimatore non distorto di σ2 per GM

Supponiamo che valgano le ipotesi GM.

Proposizione 10.9. Sia Y un vettore aleatorio con V ar(Y ) = Σ eE[Y ] = µ. Allora, se A e una matrice deterministica

E[Y tAY ] = µtAµ+ tr(AΣ)

Dimostrazione. Osserviamo prima di tutto che Y tAY e uno scalare,quindi tr(Y tAY ) = Y tAY . Inoltre dal momento che sia E che tr sonolineari e che tr(Y tAY ) = tr(AY Y t)

E[Y tAY ] = tr(AE[Y Y t]) = tr(A(Σ + µµt)) = tr(AΣ) + tr(µAµt).

In GM si ha

Eβ[Y ] = Zβ

quindi posto A = I − PZ usando la proposizione precedente otteniamo

Eβ[Y t(I − PZ)Y ] = β)tZt(I − PZ)Zβ + tr((I − PZ)σ2I),

ma (I − PZ)Zβ = 0 e tr((I − PZ)) = n− r, quindi

Eβ[1

n− rY t(I − PZ)Y ] = σ2.

In altri termini

σ2 :=1

n− rY t(I − PZ)Y

e uno stimatore non distorto di σ2. Osserviamo che

Y t(I − PZ)Y = Y t(Y − Y ) = (Y − Y )t(Y − Y ) + Y (Y − Y )

ma Y (Y − Y ) = 0 poiche Y e (Y − Y ) sono ortogonali. In altri termini

σ2 :=1

n− r‖Y − Y ‖2 =

1

n− r‖e‖2

Page 95: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

6. MODELLO LINEARE GAUSSIANO 95

6. Modello lineare Gaussiano

Se vale GLM allora, indicato con θ = (β, σ2) e con fθ(y) la densita diY , si ha immediamente che

fθ(y) = exp−n2

log(2πσ2)− 1

2σ2(y − Zβ)t(y − Zβ).

Quindi

ΛY (β, σ2) = log(fθ(Y )) = − 1

2σ2Q(β, Y )− n

2log(2πσ2).

Come prima conseguenza notiamo che se σ2 e noto lo stimatore di massimaverosimiglianza di β e esattamente βLS . Nel caso piu generale (σ2 non noto),

ricordando che Y = ZβLS osserviamo che

−ΛY (β, σ2) =1

2σ2(Y − Y )t(Y − Y ) +

n

2log(2πσ2) +

1

2σ2(βLS − β)tZtZ(βLS − β)

≥ 1

2σ2(Y − Y )t(Y − Y ) +

n

2log(2πσ2) = −ΛY (βLS , σ

2)

per ogni β. Nella prima uguaglianza abbiamo usato che (Y − Y ) e (ZβLS −Zβ) sono ortogonali.

Come conseguenza dei precedenti conti si ottiene il seguente risultato:

Proposizione 10.10. Sotto le ipotesi GLM, lo stimatore di massimaverosimiglianza (βMLE , σ

2MLE) risulta essere

(βLS ,1

2n‖e‖2).

Notiamo ora che

fθ(y) = exp−n2

log(2πσ2)− 1

2σ2(Zβ)tZβ +

1

σ2yty − Zytβ

= exp−ψ(θ) + (T (y), η(θ))

dove

ψ(θ) =n

2log(2πσ2) +

1

2σ2(Zβ)tZβ

T (y) = (yty, Zty)

η(θ) = (−1/2σ2, β/σ2).

In altri termini fθ e una famiglia esponenziale di dimensione 1 + p. Si notiche in forma canonica lo spazio dei parametri di questa famiglia esponenzialee

H = R− × Rp.Chiaramente se r < p, fθ non e una riparametrizzazione della forma canon-ica. Mentre se r = p fθ e una riparametrizzazione della forma canonica. Inquesto caso T (Y ) e quindi una statistica sufficiente e completa anche per fθ.

Page 96: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

96 10. MODELLO LINEARE: IL MINIMO INDISPENSABILE

Osserviamo ora che

βLS = (ZtZ)−ZtY

e una funzione di ZtY e quindi di T (Y ), analogamente

σ2 =1

n− r[Y tY − Y tZβLS ] =

1

n− r[Y tY − (ZtY )tβLS ]

e funzione di T (y) = (ZtY, Y tY ). Quindi quando r = p, e dunque (ZtZ)− =(ZtZ)−1, (βLS)i e σ2 sono tutti stimatori UMVUE. Analogo discorso vale

per λtβLS come stimatore di λtβ.

Quando r < p si possono comunque dire alcune cose interessanti sulmodello. Prima di tutto ricordiamo che in questo caso θ = (σ2, β) non eidentificabile. Tuttavia possiamo riparametrizzare fθ usando

µ(β) = Zβ.

Con questa scelta il modello risulta identificabile. Si noti che chiaramente ilnuovo parametro (σ, µ) vive in R+ × C(Z). dove

C(Z) = µ : µ = Zβ : β ∈ Rp.

Indicato con C(Z)⊥ l’ortogonale di C(Z) scegliamo una base ortonormalev1, . . . , vn tale che

C(Z) = µ =

r∑i=1

λivi

C(Z)⊥ = µ =

n∑i=r+1

λivi.

Indicata con V la matrice che ha come righe i vettori vi, poniamo

U := V Y

ossia Ui = vtiY . Chiaramente

Y =r∑i=1

(vtiY )vi =r∑i=1

Uivi

e

ε = Y − Y =

n∑i=r+1

(vtiY )vi =

n∑i=r+1

Uivi.

Ricordando che Eβ[Y ] = βZ ∈ C(Z), si ottiene subito che

Eβ[Y ] = βZ

Eβ[e] = 0.

Dal momento che una trasformazione lineare di un vettore gaussiano e unvettore gaussiano si ha che U = AY e un vettore gaussiano. Inoltre

V arβ(U) = V arβ(AY ) = AV arβ(Y )At = Aσ2IAt = σ2I.

Page 97: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

6. MODELLO LINEARE GAUSSIANO 97

Inoltre

Eβ[Ui] = Eβ[vtiY ] = vtiZβ = vtiµ(β).

In particolare, per i > r Eβ[Ui] = 0. Ricordando ora che un vettore gaus-siano con matrice di covarianza diagonale ha componenti indipendenti ab-biamo dimostrato che il vettore U = (U1, . . . , Un) e un vettore di variabili

aleatorie gaussiane indipendenti. Infine osserviamo che Y =∑r

i=1 Uivi =

PZY e e =∑n

i=r+1 Uivi = (1−PZ)Y implica che anche Y e e siano variabilialeatorie Gaussiane indipendenti e, inoltre,

V arβ(Y ) = PZσ2IP tZ = σ2PZ

e

V arβ(e) = (I − PZ)σ2I(I − PZ)t = σ2(I − PZ).

Riassumendo abbiamo dimostrato la seguente proposizione.

Proposizione 10.11. Il vettore U = (U1, . . . , Un) e un vettore di vari-abili aleatorie gaussiane indipendenti, in particolare Ui ∼ N (µ(β), σ2) per

i = 1, . . . , r e Ui ∼ N (0, σ2) per i = r + 1, . . . , n. Inoltre Y e e sono in-

dipendenti e Y ∼ N (βZ, σ2PZ) e e ∼ N (0, σ2(I − PZ)). Quindi, se r = p,βLS ∼ N (β, σ2(ZtZ)−1).

Poniamo ηi = vtiµ. Si noti che la densita di U = (U1, . . . , Un) e

fµ,σ2(u) = exp−n2

log(2πσ2)− 1

2σ2(r∑i=1

(ui − ηi)2 +n∑

i=r+1

u2i )

= exp−n2

log(2πσ2)− 1

2σ2

r∑i=1

η2i −

1

2σ2

n∑i=1

u2i +

1

2σ2

r∑i=1

ηiui

= exp(T (u), η(µ, σ))− ψ(µ, σ)con

ψ(µ, σ) =n

2log(2πσ2) +

1

2σ2

r∑i=1

mu2i

T (u) = (

n∑i=1

u2i , u1, . . . , ur)

η(µ, σ) = (− 1

2σ2, η1/σ

2, . . . , ηr/σ2).

Quindi fµ,σ : (µ, σ) ∈ Rr × R+ e una famiglia esponeziale di dimensioner+1, inoltre, questa volta, η(µ, σ) e una riparametrizzazione. Quindi T (U) =(∑n

i=1 U2i , U1, . . . , Ur) e una statsitica sufficiente e completa.

Proposizione 10.12. Siano (c1, . . . , cr) numeri reali. Allorar∑i=1

ciUi =r∑i=1

ci(vtiY )

Page 98: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

98 10. MODELLO LINEARE: IL MINIMO INDISPENSABILE

e uno stimatore UMVUE dir∑i=1

civtiZβ.

Inoltre σ2 e uno stimatore UMVUE di σ2.

Dimostrazione. Dal momento che T (U) e una statistica sufficiente ecompleta per (U1, . . . , Un) la prima parte della tesi segue immediatamentedal fatto che

Eβ[r∑i=1

ci(vtiY )] =

r∑i=1

civtiZβ.

Per quanto riguarda la seconda parte gia sappiamo che σ2 e stimatore nondistorto di σ2, inoltre

σ2 =1

n− r

n∑i=r+1

U2i .

Page 99: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

CAPITOLO 11

Proprieta asintotiche: cenni

1. Stimatori consistenti

In questo caso si suppone di avere a disposizione una successione (teorica-mente infinita) di osservazioni, ossia X = ×i≥1Xi, e si richiede che al diverg-ere della dimensione del campione il metodo di stima considerato forniscauna risposta esatta.

Una successione di stimatori Tn(ξ)n di τ(θ) e detta successione de-bolmente consistente per τ(θ) se converge in probabilita Pθ a τ(θ), ossia

limn→∞

Pθ‖Tn(ξ)− τ(θ)‖ > ε = 0 ∀ε > 0.

Una successione di stimatori Tn(ξ)n di τ(θ) e detta successione forte-mente consistente per τ(θ) se converge Pθ-q.c. a τ(θ), ossia

Pθ limn→∞

Tn(ξ) = τ(θ) = 1.

2. Normalita asintotica

Consideriamo una successione (θn)n≥1 di stimatori Z, ossia una succes-

sione (θn)n≥1 tale che

(32)1

n

n∑i=1

ψ(ξi, θn) = 0.

Per semplificare la trattazione supponiamo inizialmente che Θ ⊂ R.

Supponiamo, inoltre, cha valgano le seguenti ipotesi:

(i) ψ sia tale che

(33) Eθ0ψ(ξ1, θ0) = 0

con Eθ0 |ψ(ξ1, θ0)|2 < +∞;

99

Page 100: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

100 11. PROPRIETA ASINTOTICHE: CENNI

(ii) θ 7→ ψ(x, θ) sia una funzione differenziabile con continuita in unintorno di θ0 per ogni x in Rd e che

Eθ0 |ψ(ξ1, θ0)| < +∞

Eθ0ψ(ξ1, θ0) 6= 0;(34)

Se sviluppiamo con Taylor θ 7→ 1n

∑ni=1 ψ(ξi, θ) in un intorno di θ0 da

(35) ricaviamo

0 =1

n

n∑i=1

ψ(ξi, θn) =1

n

n∑i=1

ψ(ξi, θ0) +1

n

n∑i=1

ψ(ξi, θ0)(θn− θ0) +Rn(θn− θ0)

dove

Rn =1

n

n∑i=1

[ψ(ξi, θ∗n)− ψ(ξi, θ0)]

e un termine di resto e θ∗n = θ∗n(ξ1, . . . , ξn) e tale che |θ∗n − θ0| ≤ |θn − θ0|.Per tanto

√n(θn − θ0) =

1√n

∑ni=1 ψ(ξi, θ0)

1n

∑ni=1 ψ(ξi, θ0) +Rn

dove stiamo supponendo non nullo

1

n

n∑i=1

ψ(ξi, θ0) +Rn.

Ora il teorema centrale del limite implica che la convergenza in legge di1√n

∑ni=1 ψ(ξi, θ0) ad una gaussiana di media nulla e varianza

σ2 := Eθ0 [ψ2(ξ1, θ0)],

mentre la legge dei grandi numeri implica che 1n

∑ni=1 ψ(ξi, θ0) converge in

probabilita a Eθ0 [ψ(ξ1, θ0)]. Se Rn converge in probabilita a zero, applicando

il teorema di Slutski, si ha che√n(θn−θ0) converge in legge ad una gaussiana

di media nulla e varianza

σ20 :=

σ2

[Eθ0(ψ(ξ1, θ0))]2.

Questa e in essenza la dimostrazione della successiva proposizione in cui:Θ ⊂ Rk, ψ(x, θ) indica lo Jacobiano di θ 7→ ψ(x, θ), | · | indica la normaeuclidea in Rk o la nomra di matrice e Eθ(Y ), dove Y = [Yi,j ] e una ma-trice, indica la matrice delle speranze componente per componente, ossia lamatrice [Eθ(Yi, j))]ij .

Proposizione 11.1. Supponiamo che valgano le seguenti ipotesi

(i) ψ sia tale che

(35) Eθ0ψ(ξ1, θ0) = 0

con Eθ0 |ψ(ξ1, θ0)|2 < +∞;

Page 101: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

2. NORMALITA ASINTOTICA 101

(ii) θ 7→ ψ(x, θ) sia una funzione differenziabile con continuita in unintorno di θ0 per ogni x in Rd e che

Eθ0 |ψ(ξ1, θ0)| < +∞

det(Eθ0ψ(ξ1, θ0)) 6= 0;(36)

(iii) θn sia una successione di stimatori Z che soddisfa (35) e tale che

θn converge in Pθ0-probabilita a θ0 (consistenza);

(iv)

sup| 1n

n∑i=1

[ψ(ξi, θ)− ψ(ξi, θ0)]|; θ : |θ − θ0| ≤ εn

converge a zero in Pθ0-probabilita per ogni successione εn convergente a zeroin Pθ0-probabilita.

Allora√n(θn − θ0) converge in legge (rispetto a Pθ0) ad una variabile

aleatoria gaussiana di media nulla e matrice di covarianza

σ20 = [Eθ0(ψ(ξ1, θ0))]−1Eθ0 [ψ(ξ1, θ0)ψ(ξ1, θ0)T ][Eθ0(ψ(ξ1, θ0))T ]−1

= [Eθ0(ψ(ξ1, θ0))]−1V arθ0(ψ(ξ1, θ0))[Eθ0(ψ(ξ1, θ0))T ]−1

Dimostrazione. [traccia] Lo sviluppo di Taylor implica che

0 =1

n

n∑i=1

ψ(ξi, θn) =1

n

n∑i=1

ψ(ξi, θ0)+1

n

n∑i=1

ψ(ξi, θ0)·(θn−θ0)+Rn ·(θn−θ0)

con

Rn =1

n

n∑i=1

[ψ(ξi, θ∗n)− ψ(ξi, θ0)]

dove |θ∗n − θ0| ≤ |θn − θ0|. Definiamo ora la matrice stocastica Mn

Mn :=1

n

n∑i=1

ψ(ξi, θ0)

e osserviamo che la legge forte dei grandi numeri e (ii) implica che Mn

converge fortemente alla matrice (non aleatoria) non singolare Eθ0ψ(ξi, θ0).Da (iii) e (iv) segue che Rn tende alla matrice zero in probabilita. Infine ilteroema centrale del limite multidimensionale, unitamente alla (i), implicache il vettore

Zn = [1√n

n∑i=1

ψ(ξi, θ0)]

converge in legge ad una variabile aleatoria Z con legge gaussiana di vettoremedia nullo e di matrice varianza covarianza

V arθ0(ψ(ξ1, θ0)) = Eθ0 [ψ(ξ1, θ0)ψ(ξ1, θ0)T ].

Page 102: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

102 11. PROPRIETA ASINTOTICHE: CENNI

A questo punto osserviamo che

[1

n

n∑i=1

ψ(ξi, θ0) +Rn]√n(θn − θ0) = [

1√n

n∑i=1

ψ(ξi, θ0)].

ossia(An +Mn)

√n(θn − θ0) = Zn.

La dimostrazione si conclude applicando il seguente risultato, che non di-mostreremo.

Sia zn una successione di vettori aleatori di lunghezza k, sia Bn unasuccessione di matrici aleatorie k×k, e xn una successione di vettori aleatoridi lunghezza k tale che per ogni n ≥ 1 valga

Bnxn = zn.

Se zn converge in legge ad una vettore z e Bn converge in probabilita aduna matrice non aleatoria B con det(B) 6= 0, allora xn converge in legge alvettore aleatorio B−1z.

Si noti che se ad esempio θ 7→ ψ(x, θ) e lipshitziana per ogni x concostante di Lipshitz L(x) e se Eθ0 |L(ξ1)| la (iv) e vera (dimostrarlo peresercizio).

3. Normalita asintotica degli MLE

Un caso particolarmente interessante e quello in cui

ψ(x, θ) = ∂θ log(fθ(x)),

ossia quello degli stimatori di massima verosimiglianza. Si noti che proce-dendo formalmente, supponendo per semplicita Θ ⊂ R,

ψ(x, θ) = ∂2θ log(fθ(x)) =

(∂2θfθ(x))fθ(x)− (∂θfθ(x))2

f2θ (x)

.

Se il modello e regolare (si veda Capitolo 6), e se∫X+

1

∂2θfθ0(x)µ(dx) = 0

si avraEθ0(ψ(ξ1, θ0)) = −I(θ0).

Resta pertanto dimostrata la seguente

Proposizione 11.2. Sia (θn)n≥1 una successione di stimatori di massi-ma verosimiglianza debolmente consistente. Supponiamo che il modello siaregolare e che inoltre ∫

X+1

∂2θfθ0(x)µ(dx) = 0.

Page 103: Bibliogra a - unipvbassetti/didattica/statmat/stat2012...2 Bibliogra a NOTA IMPORTANTE. Questi appunti nascono dalla giustapposizione di vario materiale che nel corso degli ultimi

3. NORMALITA ASINTOTICA DEGLI MLE 103

Se

sup| 1n

n∑i=1

[R(ξi, θ)−R(ξi, θ0)]|; θ : |θ − θ0| ≤ εn,

dove R(x, θ) = ∂2θ log(fθ(x)), converge a zero in probabilita per ogni succes-

sione εn convergente a zero in probabilita e I(θ0) 6= 0, allora√n(θn − θ0)

converge in legge ad una variabile aleatoria gaussiana di media nulla e divarianza

I−1(θ0).