Analisi statistica di dati biomedici

37
Analisi statistica di dati biomedici Analysis of biological signals Master in Ingegneria Clinica – LM Neuroscienze 2013-2014 e segg. I Parte – Inferenza statistica Agostino Accardo ([email protected])

description

Inferenza statistica

Transcript of Analisi statistica di dati biomedici

Analisi statistica di dati biomedici

Analysis of biological signals

Master in Ingegneria Clinica – LM Neuroscienze

2013-2014 e segg.

I Parte – Inferenza statistica

Agostino Accardo ([email protected])

Altman – Practical statistics for medical research

Steel & Torrie – Principles and procedures of statistics

Di Orio – Statistica medica

slide in: www.units.it/accardo

- Strumenti statistici: caratteri, modalità, rango, frequenza

- Parametri statistici: media, varianza, mediana, momenti, ecc.

- Richiami sulle principali distribuzioni di probabilità

- Test di normalità

- Inferenza statistica, stimatori corretti ed efficienti, intervallo

di confidenza

- Dimensione ottima del campione

- Verifica delle ipotesi

- Test parametrici e non parametrici

- Test su una media: z-test, t-test, test binomiale, test del segno

e di Wilcoxon, χ2 -test, Kolmogorov

- Test su due campioni: z-test, t-test, Fisher, Mann-Whitney,

tabelle di contingenza RxC

- Test su più campioni: ANOVA, Bartlett, Kruskal-Wallis

CONTENUTI DEL CORSO

STATISTICA MEDICA: offre metodologia per

analizzare quantitativamente fenomeni inerenti la

medicina

2 APPROCCI:

- POPOLAZIONE => EPIDEMIOLOGICO

- DIAGNOSI/PROGNOSI/TERAPIA => CLINICO-

SPERIMENTALE

MOMENTI ESSENZIALI:

- SCELTA DELLA/E VARIABILE/I

- DETERMINAZIONE DELLA POPOLAZIONE DI

RIFERIMENTO E DEL CAMPIONE DA CUI INFERIRE

- SCELTA DELLA DIMENSIONE DEL CAMPIONE E

SUA ESTRAZIONE

STATISTICA DESCRITTIVA:

insieme dei metodi che riguardano raccolta, presentazione e

sintesi di un insieme di dati per descriverne le caratteristiche

essenziali

STATISTICA INFERENZIALE:

insieme dei metodi con cui si possono elaborare i dati dei

campioni per dedurne omogeneità o differenze nelle

caratteristiche analizzate

PROCEDURA CORRETTA:

PRIMA DI PROGETTARE UNA RICERCA ANALIZZARE

QUALE METODOLOGIA STATISTICA UTILIZZARE E

QUINDI RACCOGLIERE I DATI

NO PRIMA I DATI E POI SCEGLIERE IL METODO

STATISTICO

-- SINGOLO, DOPPIO O TRIPLO CIECO

---------------------

STUDI DI:

- COORTE (LONGITUDINALI) => NEL TEMPO SUGLI

STESSI SOGGETTI (prospettico o retrospettivo)

- CROSS-SECTIONAL (TRASVERSALI) => 1 MISURA PER

SOGGETTO DI UNA POPOLAZ. IN UN DET. MOMENTO

- CASI-CONTROLLO (LONGITUDINALI) => 1 FATTORE

SU 2 GRUPPI

STRUMENTI STATISTICI

CARATTERE = VARIABILE

MODALITA’ = VALORE

CARATTERE QUALITATIVO QUANTITATIVO

(=> CONTEGGI)

NOMINALE NON ORDINATO

ORDINALE ORDINATO O ORDINABILE*

A INTERVALLI NUMERABILE**

* RANGO: POSIZIONE OCCUPATA IN UN INSIEME

ORDINATO

** DISCRETI / CONTINUI

RILEVAZIONI:

- SALTUARIE / CONTINUE

- PUBBLICHE / PRIVATE

- PARZIALI (CAMPIONI) / TOTALI (POPOLAZIONE)

RICHIEDONO:

- PERIODO DI RACCOLTA DATI

- GRADO DI PRECISIONE

- SCHEDE/QUESTIONARI X COSTRUIRE TABELLE

- IPOTESI STATISTICHE

- ………..

PRODUCONO DATI STATISTICI DIVISI IN CLASSI O

TABELLE DI CLASSI DI MEDESIMA O DIFFERENTE

AMPIEZZA (MAX 10-20 CLASSI NON SOVRAPPOSTE)

ESPRESSIONE DEL DATO STATISTICO

FREQUENZA DI UNA MODALITA’ :

RELATIVA= ni/N ASSOLUTA=ni DENSITA’=ni/αi

αi = Ampiezza della classe

INTENSITA’ = VALORE

L’INSIEME DELLE FREQUENZE O INTENSITA’ =

DISTRIBUZIONE DI FREQUENZE/INTENSITA’

CLASSI DI X CLASSI DI Y TOTALI

Y1 Y2 ….. Yk

X1 n11 n12 ... n1k n10

X2 n21 …..

…. ….. …..

Xh nh1 nh2 …. nhk nh0

TOTALE n01 n02 …. n0k N

nij = frequenze; n0j e ni0 = frequenze marginali

DISTRIBUZIONE DI FREQUENZE/INTENSITA’

�� �� ... ... ... �� Totale

�� ��� ��� … … … ��� ���

�� ��� ��� … ��� ���

. … … … .

. … … � … .

. … … … .

�� ��� ��� … … … ��� ���

Totale ��� ��� … … … ��� N

��, …, �� possibili valori di x (o classi)

��, …, �� possibili valori di y (o classi)

�� frequenze (o intensità)

�� e ��� frequenze marginali (tengono conto di una sola variabile)

Le variabili continue sono caratterizzate dalla funzione densità

Le variabili discrete sono caratterizzate dalla funzione di frequenza

�������:Conteggio del numero di foglie (variabile discreta) nate su 45 rami di uguale lunghezza

di una pianta in un dato intervallo di tempo :

5 6 3 4 7 2 3 2 3 2 6 4 3 9 3 2 0 3 3 4 6 5 4 2 3 6 7 3 4 2 5 1 3 4 3 7 0 2 1 3 1 5 0 4 5

Distribuzione di frequenze assolute e relative delle foglie:

classe (xi) 0 1 2 3 4 5 6 7 8 9

freq. assol. (ni) 3 3 7 12 7 5 4 3 0 1

freq. rel. (fi) 0,07 0,07 0,15 0,27 0,15 0,11 0,09 0,07 0,0 0,02

freq.cumulata 0,07 0,14 0,29 0,56 0,71 0,82 0,91 0,98 0,98 1

Quante classi di frequenza costruire?

- da un minimo di 4-5 ad un massimo di 15-20 in funzione del numero di osservazioni

Infatti:

- se il numero di classi è troppo basso: perdita d’informazione sulle caratteristiche della

distribuzione rendendola non significativa

- se il numero di classi è troppo alto: dispersione dei valori e perdita della forma della

distribuzione

Non è necessario costruire intervalli uguali; ma la loro rappresentazione grafica ed il

calcolo dei parametri fondamentali esigono alcune avvertenze non sempre intuitive

�������2:Raggruppamento in classi di una variabile continua: altezza (cm) di 40 piante:

107 83 100 128 143 127 117 125 64 119 98 111 119 130 170 143 156 126 113 127

130 120 108 95 192 124 129 143 198 131 163 152 104 119 161 178 135 146 158 176

Distribuzione di frequenze assolute e relative (%) dell'altezza delle 40 piante :

classe (xi) 60-79 80-99 100-119 120-139 140-159 160-179 180-199

freq. ass. (ni) 1 3 10 12 7 5 2

freq. rel. ( fi) 2,5 7,5 25 30 17,5 12,5 5

freq. cumul. 2,5 10 35 65 82,5 95 100

Nota: la classe iniziale e terminale non devono essere aperte (es.: < 80 quella iniziale;

>180 quella finale), poiché si perderebbe l'informazione del loro valore minimo e

massimo e quindi del valore centrale (indispensabili per calcolare la media e gli altri

parametri da essa derivati) Curva frequenza cumulata

60 80 100 120 140 160 180 2000

2

4

6

8

10

12

50 100 150 2000

20

40

60

80

100

RAPPRESENTAZIONI

- ANALITICHE ESPRIMONO LEGAMI FUNZIONALI/MODELLI INTEPRETATIVI

- GRAFICHE DI DATI QUANTITATIVI, FORNISCONO:

• una sintesi visiva delle caratteristiche fondamentali delle distribuzioni

• impressioni percepite con maggiore facilità

• meno particolari

• una descrizione espressa mediante una interpretazione soggettiva

ISTOGRAMMI, POLIGONI E TORTE SCATTER DIAGRAM (GRAFICO A

PUNTI, PER 2 VARIABILI)

.

-5 0 5-6

-4

-2

0

2

4

6

8

variabile X

vari

abile

Y

Scatter diagram

-5 0 5 100

2

4

6

8

10

12

14

16

SINTESI DEI DATI

Valor Medio (Sample Mean): N

xx

N

ii∑

== 1

Media Ponderata (Pesata):

=

== k

ii

k

iii

n

nxx

1

1 dove �� è la frequenza di ripetizione di ��

Proprietà della Media: ∑=

=−N

ii xx

1

0)( e ∑=

−N

ii xx

1

2)( è MINIMO rispeAo ad ogni altro k≠�̅

Media Geometrica: N

N

iig xM ∏

=

=1

ponderata: N

k

i

nipondg

ixM ∏=

=1

,

OSS: ∑=

=k

iiig xn

NM

1

log1

log si applica per fenomeni che seguono leggi esponenziali. a

Mediana: divide in 2 aree uguali la distribuzione:

per distribuzioni DISCRETE:

� Se N dispari

2

1+= NxMe

� Se N pari 2

2

1

2

++=

NN xx

Me

Per distribuzioni CONTINUE (a classi): cf

NN

bMei

⋅−

+= 2

dove b è il valore della

classe precedente al valore

cumulativo pari a metà del

totale. ESEMPIO.

Classi Valore Classe N° elementi classe

o frequenza

Frequenza

cumulativa

1 700 12 12

2 900 21 33

3 1100 52 85

4 1300 70 155

5 1500 68 223

6 1700 36 259

7 1900 16 275

8 2100 11 286

9 2300 9 295

10 2500 5 300

Totale - 300 -

La classe 4 contiene la MEDIANA, in quanto

si supera il valore 150 (metà del totale

300). Da questo sappiamo quindi:

b= 1100

c=1300-1100=200

N=300

f=70

��= 85

In definitiva avremo:

Me=1100 + 150−85

70200 = 1285.7

f=155-85=70

(Me-b):(N/2-Ni)=c:f

La mediana serve nelle distribuzioni asimmetriche (non Normali)

Proprietà della Mediana:

� ∑=

−N

ii Mex

1

= min rispeAo ad ogni k≠Me;

� Non è sensibile ai valori estremi;

� può essere usata anche per variabili non numeriche.

Quantili: indicano una determinata posizione nella distribuzione della variabile.

Quartili: divisione della distribuzione in 4 parti (aree) uguali � 2° quantile ≜ Mediana

Percentili: divisione in percentuale

Moda: il valore che presenta la massima frequenza (ovvero il max). Si possono avere più massimi (bimodale,

trimodale, ecc. Serve per quei fenomeni che presentano tante unità con tendenza a presentarsi (≡più massimi). Si usa per variabili qualitative.

Campo di variazione: R=�"#� − �"��

Scarto quadratico medio: σ = deviazione standard � indice di variabilità di una popolazione, indica la

dispersione dei dati intorno al valore atteso.

Varianza: $2 = 21

2

1

2

)1(

)(x

N

nx

N

nxxk

iiii

k

ii

−⋅

=−

⋅− ∑∑==

NB: La correzione (-1) serve nei casi in cui N sia molto piccolo.

Varianza in dati raggruppati in classi => correzione di Sheppard (o ‘di continuità’):

σ�=σ� - '(

)(con h= ampiezza delle classi

Coefficiente di variazione: xCV σ= mette in rilievo la variabilità di un fenomeno. (è un numero puro, ottimo

per variabili eterogenee o con medie molto diverse)

Skewness (asimmetria): 2

3

2

1

1

3

1

)(

)(

−⋅=

=

=

n

ii

n

ii

xx

xxnb rapporto tra momento di ordine 3 e mom. di ordine 2 alla 3 2+ .

Kurtosis (curtosi): 2

2

1

1

4

2

)(

)(

−⋅=

=

=

n

ii

n

ii

xx

xxnb

fornisce una misura della forma, appiattita o

allungata rispetto alla distribuzione Normale.

Altri Indici di Asimmetria:

SKEWNESS DI PEARSON (sk)

E’ la differenza (d) tra media e moda divisa per la deviazione standard (s)

sk=d/s

Proprietà :

- sk può essere nullo, positivo o negativo secondo la forma della distribuzione

- è un rapporto adimensionale: si può utilizzare per il confronto tra due o più distribuzioni

INDICE ϒ1 DI FISHER

E’ il momento standardizzato di terz’ordine: ϒ1 =,-

.-

INDICE β1 DI FISHER

E’ il quadrato dell’indice di Fisher: β1 =ϒ12

MOMENTI DI

ORDINE K

rispetto ad un

punto c

CONCETTO DI PROBABILITA’ MATEMATICA

A PRIORI:

Basata sul concetto che la probabilità di un evento è il rapporto

tra il numero di casi favorevoli ed il numero di casi possibili,

purchè tutti i casi siano egualmente probabili!

=> limitazioni per la ricerca sperimentale poichè questa è basata

su un approccio non teorico ma empirico: per valutare una

probabilità sarebbe necessario conoscere preventivamente le

diverse probabilità dei vari eventi

A POSTERIORI (Frequentista o Statistica) :

• se in un insieme di prove la frequenza di un evento è all'incirca

costante, questo valore di frequenza è assunto come probabilità

• si basa sul principio di von Mises (formulato nel 1920) : la

probabilità di un evento, in una serie di prove condotte nelle

stesse condizioni, è il limite a cui essa tende al crescere del

numero delle osservazioni

• si applica in tutti quei casi in cui non sono note a priori le leggi

dei fenomeni studiati, ma possono essere determinate a

posteriori; ovvero per calcolare la probabilità attesa di trovare un

numero stabilito di individui in un conteggio, deve essere nota la

percentuale di presenza rilevata attraverso una precedente serie

di osservazioni. Infatti, l’unico modo per rispondere ai quesiti

empirici è condurre una serie di osservazioni od esperimenti, in

condizioni controllate statisticamente, per rilevare la frequenza

relativa del fenomeno

-

-1-2-3 +3+2+1µ=0

95%=1.96σ

99%=2.58σ

-

=> Gaussiana per n=>∞

=> Gaussiana per λ>>0

• t-Student: simile alla Gaussiana, è possibile variare il numero dei gradi di libertà. La si usa ogni qual volta si

lavora su un campione piuttosto che su una popolazione, per tener conto di n e si ha solamente una stima di

$. Si definisce il parametro grado di libertà, legato alla numerosità del campione. Per gdl>100 la

distribuzione è assimilabile ad una Gaussiana.

• /0 (chi quadrato): somma di tante gaussiane al quadrato. Con gdl=1, avrò il quadrato di 1 sola Gaussiana.

/0 = ∑ 203

=4 con 2 = 5(7,4). Se : > 25, la distribuzione avrà forma Gaussiana.

• F(di Fisher): viene sfruttata per valutare rapporti di varianze.

k

STATISTICA INFERENZIALELa conduzione dell’indagine (o ESPERIMENTO) è un percorso di ricerca scientifica

articolabile in quattro fasi:

1 - disegno sperimentale

• osservazioni in natura e ripetizioni in laboratorio non raccolte ed attuate a caso,

ma scelte e programmate in funzione della ricerca e delle ipotesi esplicative

• chiarire a priori la formulazione dell'IPOTESI ESPLICATIVA (alternativa

all'IPOTESI NULLA)

Le eventuali differenze riscontrate dovranno essere imputate a

FATTORI CAUSALI SPECIFICI ?

oppure solamente a FATTORI CASUALI IGNOTI ?

attribuibili alla naturale variabilità di misure e materiale utilizzato

2 - campionamento

- raccogliere i dati in funzione dello scopo della ricerca

- rispettare le caratteristiche della popolazione

Numero limitato di dati –> conclusioni generali –> tutta la popolazione (UNIVERSO)

STATISTICA INFERENZIALE3 - descrizione dei dati raccolti per verificare l'adeguatezza di:

- disegno sperimentale

- campionamento

- analisi condotte

- risultati conseguiti

4 - utilizzo dei tests (programmati nel disegno sperimentale e in funzione dei

quali viene effettuato il campionamento)

processo logico-matematico che, mediante il calcolo di probabilità, porta

alla conclusione di non poter respingere oppure di dover respingere

l'ipotesi nulla

Soltanto con una corretta applicazione del campionamento e dei test di confronto statistico è possibile rispondere alla DOMANDA INFERENZIALE di verifica dell'ipotesi nulla:

LE DIFFERENZE FRA LE OSSERVAZIONI EMPIRICHE SONO DOVUTE A FATTORI PURAMENTE CASUALI ?

STATISTICA INFERENZIALE

Quale è la probabilità che, fra le alternative possibili, si presenti proprio la

situazione descritta dai dati raccolti?

- probabilità alta (convenzionalmente => 5%) –––> fattori casuali

- probabilità bassa (convenzionalmente < 5%) –––> fattori non casuali

cioé rientranti tra i criteri con cui i dati sono stati raggruppati

Analisi e conclusioni sono rese complesse fondamentalmente da tre aspetti:

- errori nelle misurazioni generati da strumenti e da differenti abilità degli

sperimentatori

- utilizzo di campioni: i dati utilizzati in una ricerca non sono mai identici a

quelli rilevati nelle altre

- fattori contingenti di disturbo: possono incidere in modo differente sul

fenomeno indagato (es.: tempo, luogo, …)

INFERENZA STATISTICA

Per effettuare uno studio non utilizzo tutta la popolazione d’interesse, ma limito

lo studio ad un solo sottoinsieme, un CAMPIONE, per poi estendere i risultati a

tutta la popolazione => INFERENZA

Immaginiamo di avere a disposizione TUTTA la popolazione (di media < e

deviazione standard =)

Estraendo dei campioni lo si può fare con 2 modalità: Esaustiva e Bernoulliana:

Esaustiva: estraggo un campione di n soggetti, in modo casuale, misurando

media "� e deviazione standard >� e non considero più i soggetti scelti

Bernoulliana: estraggo ugualmente un campione di n soggetti casualmente,

misuro media e dev. std, ma poi i soggetti possono essere riestratti nel

successivo campione.

OSS: Nel nostro caso utilizzeremo SEMPRE l’estrazione Bernoulliana!

La distribuzione delle medie campionarie, in entrambe le estrazioni, "� è

GAUSSIANA, con

media pari a ? (stimatore CORRETTO)

varianza uguale a .(

�per la Bernoulliana e

.(

�∗ AB�

AB�per l’esaustiva (stimatore

NON CORRETTO, in quanto ha bisogno di un fattore correttivo)

con n = numerosità del campione. Per n << N le due varianze coincidono.

Se si considerasse la media delle mediane campionarie (ovvero dei singoli

campioni), anche essa sarebbe pari a ? (anche la mediana è uno stimatore

CORRETTO) mentre la varianza sarebbe maggiore per cui la mediaCrappresenta uno stimatore di? più EFFICIENTE della mediana

Considereremo l’estrazione Bernoulliana

STIMA PUNTUALE DELLA MEDIA (della popolazione)

La eseguo tramite la media sul campione inserendo un errore della stima:

<E =mi±σ�

Stima CONSISTENTE, perché al crescere di n l’errore tende a 0

Se σ (dev.standard della popolazione) è ignota allora useremo la dev. st. del

campione, si, per stimarla:

σG = si� − 4

Le stime puntuali sono affette da errore per cui spesso si usa stimare un

intervallo entro il quale, con un prefissato livello di probabilità, cadrà il valore

del parametro => INTERVALLO DI CONFIDENZA

STIMA DELLA MEDIA (della popolazione) PER INTERVALLI

- INTERVALLO DI CONFIDENZA

Dato α = probabilità che il valore vero cada fuori dell’intervallo individuato allora

P = 1 – α = prob. che cada dentro = livello di confidenza (o p-value)

Poiché la variabile campionaria è distribuita come una gaussiana la si può

normalizzare:

2 =C − <=

�+

e si può scrivere:

Prob (−2I0⁄≤

CB<=

�+≤2I

0⁄) = 1 – α

da cui si ricava l’INTERVALLO DI CONFIDENZA:

<E = C ± 2I 0⁄·=

nel quale la media µ è compresa con prob. pari a 1-α

1-α 2I0+

0.68 1

0.8 1.28

0.9 1.64

0.95 1.96

0.9544 2

0.99 2.58

0.9973 3

Se σ è ignota o n è ‘piccolo’ (<≈100) al suo

posto utilizzerò Si (dev. st. del campione) e al

posto della Gaussiana utilizzerò la t-Student

(tα/2,n-1) per tener conto dell’ulteriore

incertezza introdotta:

<E = C ± tα/2,n−1 ·M�

±2I0⁄·=

�rappresenta l’incertezza

della stima = l’errore! da minimizzare:

- Aumentando n

- Selezionando α opportuna

- Selezionando un’altra variabile ……

Un discorso analogo

vale se si utilizza una

coda e non due

Nel caso di frequenze campionarie, l’intervallo si trasforma

in:

NE = O ± tα/2,n−1 ·O.(4BO)

in quanto σ2 = p*q

Esempio: epidemia di influenza, su 100 soggetti il 70% è affetto da

influenza => f=0.7.

Valutare la bontà della stima della vera % nella popolazione.

Scelgo 1-α=0.9545 => Z α/2=2

=> p=0.7±2*√(0.7)(1-0.7)/100 = 0.7±0.09 p1=0.61, p2=0.79

Con probabilità 1-α la vera p di cittadini affetti da influenza è

compresa tra 61% e 79%

DIMENSIONE OTTIMA DEL CAMPIONE n

Esistono diversi metodi per ottenere l’n che porti alla significatività

dello studio statistico.

A partire dall’intervallo di confidenza si definisce l’errore come:

� = QR�+·$

�Fissato E (errore tollerato, espresso in termini percentuali, 2-3%), si

avrà come sola incognita n, la numerosità del campione, ovvero:

� =2I

0+0 · =0

S0

NB: Se $ non è disponibile (come succede nella maggior parte dei

casi) estraggo un piccolo campione (~10) e cerco una sovrastima

della deviazione standard in maniera molto approssimativa

mediante la formula: $G =,UVB,��

W

Se distribuzione BINOMIALE, essendo $� = X · Y, si avrà:

� =Z[

(+( ·\·]

^(

Se non noto, il valore di p si può stimarlo nel peggiore dei casi,

ovvero quando X = Y = 0.5.

ESEMPIO: Determinare la dimensione campionaria sufficiente per condurre una

ricerca con questionario sulle caratteristiche dei medici di base in Italia.

Fissando:

1 − _ = 95.46% ⇒ QR�+= 2

e � = 3% , X = Y = 0.5 (non noti a priori)

Avremo che � =W·e.f·e.f

e.eg(= 1111 cioè con 1111 risposte prese a caso nella

popolazione dei medici di base vi saranno 95% di prob che i risultati del

campione siano validi con un margine di errore del 3%.

E’ importante notare che questo dato non è vincolato dalla popolazione totale,

quindi se si fosse effettuato uno studio più limitato a livello geografico (Regione

o Provincia,) il numero del campione sarebbe stato sempre di 1111 medici, alla

stregua dello studio Nazionale.

VIA NOMOGRAMMA