03statistica errore standard_56
-
Upload
angelo-barbato -
Category
Documents
-
view
220 -
download
0
Transcript of 03statistica errore standard_56
Totale diapositive 56
Totale diapositive 56
Totale diapositive 56
ALTRI VALORI DI CORRISPONDENZA TRA Z E LA DENSITA’ DI PROBABILITA’
0,500 = P{ z < 0 }0,500 = P{ z > 0 }0,900 = P{- 1,65 < z < +1,65 }0,950 = P{- 1,96 < z < +1,96 } 0,955 = P{- 2 < z < + 2 } 0,990 = P{- 2,58 < z < + 2,58 } 0,997 = P{ - 3 < z < + 3 }
Totale diapositive 56
QUALSIASI DISTRIBUZIONE CONTINUA PUO’ ESSERE STANDARDIZZATA
Una distribuzione standardizzata ha media uguale a 0 e deviazione standard (o varianza) uguale a 1.
Totale diapositive 56
Il fatto che ci rivolgiamo ad un campione, che è solo una parte della popolazione, comporta che le “misure” che effettuiamo sul campione sono in qualche modo sbagliate.
Più correttamente, le STIME che effettuiamo sul campione hanno un certo grado di INCERTEZZA.
Totale diapositive 56
Quando parliamo di valori tipici della popolazione, parliamo di PARAMETRI
Quando parliamo di valori tipici di un campione, parliamo di STATISTICHE.
Quando facciamo inferenza, attribuiamo conclusioni fatte sul campione alla popolazione, parliamo allora di STIME DI
PARAMETRI, e relativi INTERVALLI DI CONFIDENZA (o di intervalli di credibilità nella statistica bayesiana)
Si usano le lettere latine per il campione (S, X, Y..) quelle greche per la popolazione (μ, σ , …)
Totale diapositive 56
Teorema del limite centrale
Se tutti i possibili campioni casuali di numerosità n vengono estratti da una data popolazione avente media mu e varianza sigma-quadro,
all’aumentare di n le medie di questi campioni approssimeranno una distribuzione normale, con media mu e varianza sigma-quadro/N.
Indipendentemente dalla forma della distribuzione !
Media della popolazione Varianza della
popolazione
Media delle medie
campionarieVarianza
delle medie campionarie
Totale diapositive 56
universo
Media, varianza
Media, varianza
campioni
………………
Distribuzione delle medie campionarie
Media, varianzaMedia, varianzaMedia, varianza
Totale diapositive 56
Teorema del limite centrale
La varianza delle medie campionarie diminuisce all’aumentare della grandezza del campione (n). Si parla di ERRORE STANDARD.
Più grandi sono i campioni, minore è l’errore standard e più precisa è la media campionaria nello stimare la media della popolazione.
Totale diapositive 56
Teorema del limite centrale
Distribuendosi le medie campionarie secondo una curva normale, possiamo conoscere la probabilità che le medie campionarie siano
comprese in un dato intervallo.
Totale diapositive 56
Teorema del limite centrale
UNIVERSO 100000 CASI
Campione 1 Campione 2 Campione 3 Campione 4 Campione t. . .100 100 100 100 100
. . .
Media=173 Media=174 Media=176 Media=172 Media=175
Le medie campionarie (sotto) approssimano la media della popolazione (174) a meno di un certo margine di incertezza
(che dipende dall’errore standard).
Media= 174 Dev.std.=15
Totale diapositive 56
Teorema del limite centrale
UNIVERSO 100000 CASI
Campione 1 Campione 2 Campione 3 Campione 4 Campione t. . .100 100 100 100 100
. . .
Media=173 Media=174 Media=176 Media=172 Media=175
Media= 174 Dev.std.=15
n campionario uguale a 100
Totale diapositive 56
Z
0,950,025 0,025
Il 95% di tutte le medie campionarie sono comprese nell’intervallo:
p(Z)
Totale diapositive 56
Sappiamo che Z ritaglia un’area di 0,95 con valori corrispondenti a più/meno 1,96.
Se consideriamo il primo campione estratto abbiamo che l’incertezza della stima del valore medio di questo campione riguarda l’intervallo:
Totale diapositive 56
Se stiamo lavorando sul primo campione estratto abbiamo che l’incertezza della stima del valore medio
dell’altezza nella popolazione riguarda l’intervallo:
Estratti un numero molto elevato di campioni di numerosità 100, l’altezza è nel 95% dei casi
compresa tra 170,1 e 176,9
Totale diapositive 56
0,950,025 0,025
173 176,9170,1
Totale diapositive 56
0,95
0,025 0,025
Prendendo un campione più ampio… n=1000
174 174,9173,1
Totale diapositive 56
170 175,4164,6
0,95
0,025 0,025
Prendendo un campione più piccolo … n=30
Totale diapositive 56
Incertezza e numerosità campionaria
n=1000
n=100
n=50L’e.s. è funzione di n
Totale diapositive 56
Esempio tratto da M.Pisati, “Analisi dei dati”
Totale diapositive 56
Quando la deviazione standard della popolazione non è nota, e la numerosità del campione è elevata, è
possibile stimare l’errore standard usando la deviazione standard del campione.
IN TAL CASO PERO’ SI USA LA DISTRIBUZIONE t di Student, una distribuzione che approssima la curva
normale, ma che ha errori standard più ampi (le code sono più lunghe) ed è funzione anche della
dimensione del campione.Se n è molto grande T e Z convergono.
Totale diapositive 56
VALORI DI CORRISPONDENZA TRA T E LA DENSITA’ DI PROBABILITA’:
0,500 = P{ t < 0 }0,500 = P{ t > 0 }0,900 = P{- 1,66 < t < +1,66 }0,950 = P{- 1,98 < t < +1,98 } 0,990 = P{- 2,62 < t < + 2,62 }
0,500 = P{ t < 0 }0,500 = P{ t > 0 }0,900 = P{- 1,65 < t < +1,65 }0,950 = P{- 1,96 < t < +1,96 } 0,990 = P{- 2,57 < t < + 2,57 }
PER n=100
PER n molto grande(convergono con Z)
Totale diapositive 56
Test di significatività
Se testiamo un’ipotesi su un campione, quanto la risposta che diamo a questa ipotesi è “vera” anche nella
popolazione?
Totale diapositive 56
μ è la differenza prima-dopo attesa nella popolazione
Ho: μ = 0
H1: μ ≠ 0
Più la stima nel campione è lontana da 0 e più è verosimile che Ho sia falsa
Test di ipotesi
Totale diapositive 56
▪Usualmente rappresenta l’ipotesi “no associazione” o “no differenza”
L’ipotesi nulla: Ho
Totale diapositive 56
▪Tipicamente rappresenta quello che si sta cercando di provare
L’ipotesi alternativa: H1 (HA)
Totale diapositive 56
▪Noi valutiamo entrambe le ipotesi allo stesso tempo (si rifiuta Ho, non si rifiuta Ho)
▪Si assume che l’ipotesi nulla sia vera e si calcola la probabilità che il campione sia stato estratto dalla popolazione definita dall’ipotesi nulla
Test di ipotesi
Totale diapositive 56
▪La differenza media della pressione arteriosa prima-dopo uso dei contraccettivi è pari a
4,8 mm/Hg
▪Forse Ho è vera e noi abbiamo soltanto estratto per caso un campione inusuale
▪Noi dobbiamo misurare quanto sia probabile aver estratto il nostro campione se l’ipotesi nulla è vera
Test di ipotesiesempio
Totale diapositive 56
▪Qual è la probabilità di aver estratto un campione che ha una differenza media di 4,8 mm/Hg se fosse vera l’ipotesi nulla (cioè nessuna reale differenza)?
▪Questa probabilità è il p-value
▪Se p è molto piccolo, ci suggerisce che il risultato osservato non può essere facilmente spiegato dal caso
Test di ipotesivalore p (p-value)
Totale diapositive 56
▪Come si calcola il p-value?
Test di ipotesivalore p (p-value)
▪Con la distribuzione campionaria!!
Totale diapositive 56 Totale diapositive 168
▪Se vale Ho …
Calcolo valore p (p-value)
μo
Distribuzione campionaria di tutte le medie campionarie per campioni di dimensione n
Totale diapositive 56 Totale diapositive 168
▪Per calcolare il p-value si prende la media campionaria ottenuta e valutiamo quanto sia inusuale dato Ho
Calcolo valore p (p-value)
μo
Totale diapositive 56
▪Torniamo al problema:
n=10; = -4,8; DS =4,6
▪Quanto la nostra media campionaria è lontana da μo=0 in “termini statistici”?
▪Dobbiamo perciò misurare quanti errori standard è –4,8 lontano da 0
Calcolo valore p (p-value)
Totale diapositive 56
Utilizzazione del p-value per prendere un
decisione
P-value = 0,01
E’ questa probabilità piccola abbastanza per ritenere che l’ipotesi nulla μ = 0 sia falsa?
Definizione del cut-offSotto quale valore soglia riteniamo che un p-value suggerisca di rifiutare l’ipotesi nulla?
Totale diapositive 56
Utilizzazione del p-value per prendere un
decisione
Definizione di un cut-off
Standard cut-off: 0,05 (scelta arbitraria)
p<0,05 è detto statisticamente significativo
Totale diapositive 56
Utilizzazione del p-value per prendere un
decisione
Definizione di un cut-off
Standard cut-off: 0,05 (scelta arbitraria)
p<0,05 è detto statisticamente significativo
Totale diapositive 56
Test di livello di significatività α=5%
Definiamo con α la probabilità dell’errore di I tipo. Questo valore, detto livello di significatività di un test per H0=innocente
α=P(rifiutare Ipotesi nulla: H0 quando essa è “vera”)
non si possono diminuire entrambi gli errori…
Prima di fare un test si decide il valore di α=0,05 (5%), α=0,01 (1%)
α varia a seconda dei contesti (vedi es. casa farmaceutica)
Totale diapositive 56
Test di verifica dell’Ipotesisignificato interpretativo
• Un Test accetta o rifiuta H0, non dimostra mai che è H0 vera o falsa.
• H1 è corroborata (sostenuta) o meno dai dati, mai accettata o rifiutata e tanto “vera” o “falsa”
• Si dice “test di significatività al 5%”, ma …ho due tipi di errore… (ma abbiamo deciso di costruire il test per Ho, che vogliamo tenere “sotto controllo”).
❖ α = 5% = P(rifiutare H0 quando H0 è vera)=P(err I° tipo)❖ β =P(accettare H0 quando H0 non è vera)=P(err. II° tipo)
Totale diapositive 56
Test di verifica dell’Ipotesipraticamente…
• Il test è una formula che mi danno gli statistici (+/- complessa e con +/- senza senso logico/intuitivo)
• premesso che ai dati si possa applicare certi modelli matematici, gli statistici mi dicono che:❖ se l’ipotesi H0 è vera, il test deve assumere certi
valori (regione di accettazione) con una certa prob.❖ se H0 è falsa deve assumerne altri (regione di rifiuto).
• Ergo: calcolo il test con i miei dati e …decido!.
Totale diapositive 56
Test di verifica dell’Ipotesi – Valore p
Quando comunico l’esito di un test ad altri:❖ dico solo significativo/non significativo (accetto/rifiuto)❖ o posso dire di più?
meglio riportare il:valore p= livello di significatività osservato
ovvero: il più alto valore di α che mi farebbe rifiutare H0
❖ Se p<0,01 rifiuto H0 ❖ Se 0,01<p<0,05 si tende a rifiutare❖ p>0,05 accetto H0
• E’ un indicatore della plausibilità dell’ipotesi H0
Totale diapositive 56
p-values
p-values sono probabilità (numeri tra 0 ed 1)
Valori che si avvicinano a 0 indicano che i risultati campionari ottenuti sono inverosimili quando l’ipotesi nulla è vera
Il p-value NON è la probabilità che l’ipotesi nulla sia vera!
Il p-value per se non dà informazione sulla qualità scientifica di uno studio
Totale diapositive 56
Test di ipotesi e intervallo di confidenza
Intervallo di confidenza e p-value sono complementari
0 1,53 1,87[ ]
Se 0 non è contenuto nell’intervallo di confidenza al 95%, allora noi potremmo rifiutare Ho al livello α = 0,05 (cioè p<0,05)
Totale diapositive 56
Alcune considerazioni sull’inferenza statistica
Significatività statistica non implica la causalità
Significatività statistica non va interpretato come significatività scientifica
Totale diapositive 56
Alcune considerazioni sull’inferenza statistica
Esempio:N=100.000, x=0,03 mmHg; s=4,57; p-value=0,04
Grandi dimensioni campionarie possono produrre piccoli p-values anche quando l’effetto del fenomeno studiato è molto piccolo (non significativo dal punto di vista scientifico)
Totale diapositive 56
Alcune considerazioni sull’inferenza statistica
Esempio:N=5, x=5,00 mmHg; s=4,57; p-value=0,07(non si può rifiutare Ho al livello α=0,05)
Questo risultato realmente ci dice che non ci sia una relazione tra pressione arteriosa ed uso di contraccettivi orali?
E se prendessimo un campione più grande?
Totale diapositive 56
RIASSUMENDO
Totale diapositive 56
Indici di tendenza centrale per distribuzioni simmetriche e deformate
Riportando in un sistema di assi cartesiani i risultati di misurazioni di caratteri biologici (es. numero di eritrociti/mm3, età al primo parto, durata della gestazione ecc.) effettuati su una serie di individui diversi, si ottiene spesso una curva particolare con una forma a campana,
Totale diapositive 56
Questo tipo di curva, che ha un solo 'picco' (classe di massima frequenza o moda: curva unimodale), viene detta «gaussiana» o «Normale»; essa è simmetrica, nel senso che si può dividere in due parti, specularmente uguali, tracciando una linea verticale in corrispondenza del valore di massima frequenza. In ogni distribuzione di tipo simmetrico MODA, MEDIA e MEDIANA coincidono
Totale diapositive 56
importante notare che, nelle distribuzioni asimmetriche, moda, media e mediana non coincidono, ma assumono la disposizione indicata nel grafico 1 dove, come si vede, la media è l'indice che più viene influenzato dall'esistenza di dati estremi.
Totale diapositive 56
Variabilità biologica: indici di variazione (o di dispersione)
Intervallo di variazione
L'intervallo di variazione si ottiene semplicemente calcolando la differenza fra il dato più alto e quello più basso, oppure specificando il valore del dato più alto e quello del dato più basso (campo di variazione o range). L'intervallo di variazione non considera la variabilità delle osservazioni fra i due estremi ed ha lo svantaggio di dipendere strettamente dal numero di osservazioni e di aumentare con l'aumentare di esse.
Esempio. La misurazione dell'altezza al garrese di 8 bracchi italiani ha fornito i seguenti valori (in cm):54, 57, 57, 58, 59, 60, 60, 61, 66. L'intervallo di variazione è di 66-54 = 12 cm.
Totale diapositive 56
Deviazione standard
Molto spesso, negli studi bio-medici, i dati vengono riassunti attraverso il più comune indice di tendenza centrale: la media. In questo caso, per descrivere compiutamente la popolazione, è sempre necessario dichiarare anche, come indice di variazione, il valore della deviazione standard.
La deviazione standard (o scarto quadratico medio) rappresenta la distanza media dei dati dalla loro media. La deviazione standard è un ottimo indice di variazione dei dati quando essi sono distribuiti normalmente e rappresenta probabilmente l'indice di variazione usato più comunemente. Tuttavia è bene ripetere ancora una volta che esso deve essere utilizzato soltanto quando i dati hanno una distribuzione normale.
Totale diapositive 56
Per riassumere:volendo descrivere dati a distribuzione normale, conviene specificare media e deviazione standard; volendo descrivere dati a distribuzione deformata, conviene specificare mediana e percentili. dati a distribuzione simmetrica ..... usare media e deviazione standard dati a distribuzione non simmetrica ..... usare mediana e percentili
Calcolo della deviazione standard
La formula serve a calcolare la deviazione standard di una serie di misure. La «devianza» è la somma dei quadrati delle deviazioni dei valori individuali dalla loro media aritmetica (m), mentre i «gradi di libertà» sono il numero di osservazioni (n) di cui è composto il campione, meno 1 (cioè: gradi libertà = n-1).
Totale diapositive 56
Indici di variazione: caratteristiche
Totale diapositive 56
Il range o intervallo di variazione è rappresentato dalla distanza fra il dato con il valore minimo e quello con il valore massimo. Presenta l'inconveniente di essere influenzato dai valori estremi; in effetti, basta un solo valore eccezionalmente al di sopra (o al di sotto) degli altri dati per far aumentare il range. Inoltre, esso non è agevolmente utilizzabile nel calcolo statistico.
La deviazione standard è adatta a manipolazioni matematiche, ma dovrebbe essere utilizzata soltanto se i dati di origine hanno distribuzione Normale.
I percentili sono validi sia per distribuzioni normali (si ricorda che, in tal caso, il 50° percentile è uguale alla media) che non normali. In ogni caso, al fine di fornire un'idea della variabilità dei dati, è bene indicare sempre non soltanto la mediana ma anche - ed almeno - il 25° ed il 75° percentile.
Totale diapositive 56
Variabilità biologica, deviazione standard e normalità
É già stato detto che fonti di variazione sono presenti in ogni misurazione di un carattere biologico. Tale variabilità non è tuttavia del tutto imprevedibile: infatti, molti fenomeni naturali seguono un modello teorico definito «curva di distribuzione Normale» o «gaussiana».
Questo modello è particolarmente utile, in quanto possiamo impiegarlo conoscendo soltanto la media e la deviazione standard. Infatti, in una gaussiana il 95% dei dati cade nell'intervallo media ± 2 volte la deviazione standard.
Più precisamente, si può dimostrare che l'intervallo (media ± deviazione standard) comprende il 68% circa dei dati; l'intervallo (media ± 2 deviazioni standard) ne comprende il 95% e l'intervallo (media ± 3 deviazioni standard) comprende pressoché tutti i dati (99.7%).
Totale diapositive 56
una delle domande più frequenti che sorgono immediatamente quando si viene a conoscenza di un valore di una misura biologica eseguita su un individuo è:«si tratta di un valore «normale»?ESEMPI. Sono stati ottenuti i seguenti valori. Possono essere considerati "normali"? - 240 pulsazioni cardiache/minuto in un pappagallino ondulato; - 150.000 linfociti per mm cubo nel sangue di un bovino; - 45 atti respiratori/minuto in un cane boxer adulto.