Matematicka statistika testy Matematick´a...

Post on 06-Nov-2019

7 views 0 download

Transcript of Matematicka statistika testy Matematick´a...

Matematickastatistika

Neparametricketesty

ParovyWilcoxonuv test

DvouvyberovyWilcoxonuv test

Analyzarozptylu

Matematicka statistika

Sarka Hudecova

Katedra pravdepodobnosti a matematicke statistikyMatematicko-fyzikalnı fakulta Univerzity Karlovy

letnı semestr 2012

Matematickastatistika

Neparametricketesty

ParovyWilcoxonuv test

DvouvyberovyWilcoxonuv test

Analyzarozptylu

Opakovanı

t-testy vs. neparametricke testy

Wilcoxonuv jednovyberovy test

Matematickastatistika

Neparametricketesty

ParovyWilcoxonuv test

DvouvyberovyWilcoxonuv test

Analyzarozptylu

Opakovanı

t-testy vs. neparametricke testy

Wilcoxonuv jednovyberovy test

Wilcoxonuv jednovyberovy test:

Situace: X1, . . .Xn vyber ze spojiteho symetrickeho rozdelenı

H0 : mX = m0, proti H1 : mX 6= m0

normalnı rozdelenı → jednovyberovy t-test

porusenı normality → jednovyberovy Wilcoxonuv test

Matematickastatistika

Neparametricketesty

ParovyWilcoxonuv test

DvouvyberovyWilcoxonuv test

Analyzarozptylu

Opakovanı – Wilcoxonuv jednovyberovy test

test sleduje vzdalenosti (resp. jejich poradı) pozorovanıX1, . . . ,Xn od bodu m0

Postup

vyloucıme prıpady Xi = m0 (a dle toho upravıme n)

Yi = Xi −m0 → usporadame |Yi | dle velikosti sledujeme R+

i poradı |Yi |

za H0 by soucty R+i pro kladna a zaporna Yi mely byt

srovnatelne

vezmeme W soucet poradı R+i pro Yi > 0

→ presny test→ asymptoticky test zalozeny na statistice Z

→ asymptoticky test s korekcı pro spojitost

Matematickastatistika

Neparametricketesty

ParovyWilcoxonuv test

DvouvyberovyWilcoxonuv test

Analyzarozptylu

Parovy Wilcoxonuv test

Situace: Parova pozorovanı (X1,Y1), . . . , (Xn,Yn), zajıma nas,zda jsou veliciny X a Y co do polohy stejne

na kazdem subjektu merıme dve veliciny! jejichporovnanı

prıklady: vek rodicu, sıla stisku leve a prave ruky,hmotnost pred a po diete, . . .

Matematickastatistika

Neparametricketesty

ParovyWilcoxonuv test

DvouvyberovyWilcoxonuv test

Analyzarozptylu

Parovy Wilcoxonuv test

Situace: Parova pozorovanı (X1,Y1), . . . , (Xn,Yn), zajıma nas,zda jsou veliciny X a Y co do polohy stejne

na kazdem subjektu merıme dve veliciny! jejichporovnanı

prıklady: vek rodicu, sıla stisku leve a prave ruky,hmotnost pred a po diete, . . .

Postup

zavedeme Zi = Xi − Yi

budeme chtıt testovat, zda Zi kolısajı kolem nuly, tj. zdamZ = 0 → problem preveden na jednovyberovy prıpad

Matematickastatistika

Neparametricketesty

ParovyWilcoxonuv test

DvouvyberovyWilcoxonuv test

Analyzarozptylu

Parovy Wilcoxonuv test

majı-li Z1, . . . ,Zn normalnı rozdelenı t-test

porusenı normality jednovyberovy Wilcoxonuv testpredpoklad: Z1, . . . ,Zn spojite symetricke rozdelenı

Postup:

→ vyloucıme prıpady Zi = 0

→ urcıme poradı R+i absolutnıch hodnot |Zi |

→ W soucet poradı R+i , kde Zi > 0

→ testova statistika

Z =W − n(n+1)

4√n(n+1)(2n+1)

24

za H0 ma Z priblizne N(0, 1) rozdelenı

Matematickastatistika

Neparametricketesty

ParovyWilcoxonuv test

DvouvyberovyWilcoxonuv test

Analyzarozptylu

Prıklad – porovnanı dvou metod ucenı nazpamet’

Prıklad

Porovnanı dvou metod ucenı (poslouchanı vs. ctenı).

studie zahrnujıcı 9 osob pozorovanı (Xi ,Yi )

chceme vedet, zda je mezi obema zpusoby rozdıl

i 1 2 3 4 5 6 7 8 9

Xi 90 86 72 65 44 52 46 38 43Yi 85 87 70 62 44 53 42 35 46

H0 : rozdelenı X a Y je stejne

Matematickastatistika

Neparametricketesty

ParovyWilcoxonuv test

DvouvyberovyWilcoxonuv test

Analyzarozptylu

Prıklad – pokrac.

zavedeme rozdıly Zi = Xi − Yi predpoklad symetrie

H0 : mZ = 0

i 1 2 3 4 5 6 7 8 9

Zi 5 -1 2 3 0 -1 4 3 -3|Zi | 5 1 2 3 − 1 4 3 3R+i 8 1.5 3 5 − 1.5 7 5 5

W = 8 + 3 + 5 + 7 + 5 = 28

Z =W − n(n+1)

4√n(n+1)(2n+1)

24

=28− 8·9

4√8·9·1724

= 1.4

test: |Z | < z0.975 = 1.96 nelze zamıtnout H0

program R: oprava na spojitost, bere ohled na shodyp-hodnota 0.18

Matematickastatistika

Neparametricketesty

ParovyWilcoxonuv test

DvouvyberovyWilcoxonuv test

Analyzarozptylu

Dvouvyberovy Wilcoxonuv test

Situace: dva nezavisle nahodne vybery X1, . . . ,Xn aY1, . . . ,Ym, oba ze spojiteho rozdelenı, chceme testovat

H0 : rozdelenı X a Y jsou stejna

(tj. i mediany se rovnajı)

Matematickastatistika

Neparametricketesty

ParovyWilcoxonuv test

DvouvyberovyWilcoxonuv test

Analyzarozptylu

Dvouvyberovy Wilcoxonuv test

Situace: dva nezavisle nahodne vybery X1, . . . ,Xn aY1, . . . ,Ym, oba ze spojiteho rozdelenı, chceme testovat

H0 : rozdelenı X a Y jsou stejna

(tj. i mediany se rovnajı)

Postup

udelame spolecny (tzv. sdruzeny) vyberX1, . . . ,Xn,Y1, . . . ,Ym a usporadame jej podle velikosti

za H0 jsou vybery X a Y”dobre promıchane“

urcıme poradı v ramci spojeneho vyberuza H0 by se prumerna poradı X a Y nemela velmi lisit

Matematickastatistika

Neparametricketesty

ParovyWilcoxonuv test

DvouvyberovyWilcoxonuv test

Analyzarozptylu

Dvouvyberovy Wilcoxonuv test

vezmeme W soucet poradı X1, . . . ,Xn

proti H0 svedcı velmi velke a velmi male hodnoty W

testova statistika:

Z =W − n(n+m+1)

2√nm(n+m+1)

12

ma za H0 priblizne N(0, 1) rozdelenı

Test:

hypotezu H0 o shode rozdelenı zamıtneme, pokud|Z | > z1−α/2

lze uvazovat i jednostranne alternativy

Matematickastatistika

Neparametricketesty

ParovyWilcoxonuv test

DvouvyberovyWilcoxonuv test

Analyzarozptylu

Poznamky

test se nekdy nazyva Mannuv-Whitneyuv test

obecne formulovana hypoteza:test citlivy zejmena vuci posunutı, mene citlivy na nestejnyrozptyl

pri vetsım poctu shod Xi a Yi korekce ve jmenovateli Z

existujı i presne postupy (bez pouzitı aproximacı)

Matematickastatistika

Neparametricketesty

ParovyWilcoxonuv test

DvouvyberovyWilcoxonuv test

Analyzarozptylu

Prıklad — vynos psenice

Prıklad

Vliv noveho zpusobu hnojenı na vynos psenice:

13 polı stejne kvality 8 novy zpusob, 5 osetrenostandardne

mereny vynosy v tunach na hektar

Xi novy zpusob: 5.7, 5.5, 4.3, 5.9, 5.2, 5.6, 5.8, 5.1

Yi standardnı hnojivo: 5.0, 4.5, 4.2, 5.4, 4.4

Chceme testovat:

H0 : zpusob hnojenı nema vliv na vynos psenice

Matematickastatistika

Neparametricketesty

ParovyWilcoxonuv test

DvouvyberovyWilcoxonuv test

Analyzarozptylu

Prıklad – graficke znazornenı dat

novy tradicni

4.5

5.0

5.5

Zpusob

Vyn

os p

seni

ce [t

/ha]

Matematickastatistika

Neparametricketesty

ParovyWilcoxonuv test

DvouvyberovyWilcoxonuv test

Analyzarozptylu

Prıklad – resenı

Pouzijeme popsany postup:

4.20 4.30 4.40 4.50 5.00 5.10 5.20 5.40 5.50 5.60 5.70 5.80 5.901 2 3 4 5 6 7 8 9 10 11 12 13

W = 2 + 6 + 7 + 9 + 10 + 11 + 12 + 13 = 70

testova statistika

Z =70− 8(5+8+1)

2√5·8·(5+8+1)

12

= 2.050

|Z | > z0.975 = 1.960 zamıtame H0

Matematickastatistika

Neparametricketesty

ParovyWilcoxonuv test

DvouvyberovyWilcoxonuv test

Analyzarozptylu

Resenı v programu R

R pocıta W poradı Y , zde W = 21

uvadı Mannovu-Whitneyovu statistiku

U = mn +1

2n(n+ 1)− W

pak U udava pocet prıpadu, kdy Xi > Yj

> wilcox.test(x,y,correct=F,exact=F)

Wilcoxon rank sum test

data: x and y

W = 34, p-value = 0.04042

alternative hypothesis: true location shift is not

equal to 0

Matematickastatistika

Neparametricketesty

ParovyWilcoxonuv test

DvouvyberovyWilcoxonuv test

Analyzarozptylu

Shrnutı

normalnı rozdelenı spojite rozdelenı

jeden vyber jednovyberovyt-test

jednovyberovy Wilcoxon

parova pozo-rovanı

parovy t-test parovy Wilcoxon

dva nezavislevybery

dvouvyberovy t-test dvouvyberovy Wilcoxon

Dale: Testy v binomickem rozdelenı

jednovyberova situace

dvouvyberova situace

Nynı: srovnanı strednıch hodnot v k vyberech

Matematickastatistika

Neparametricketesty

ParovyWilcoxonuv test

DvouvyberovyWilcoxonuv test

Analyzarozptylu

Motivacnı prıklad – znecistenı reky

pet ruznych mıst na rece vyloveno vzdy 7 ryb

zjist’ovana koncentrace medi v jatrech

lisı se znecistenı reky na zkoumanych mıstech?

A B C D E

1.0

1.5

2.0

2.5

Misto

Cu

A B C D E

−0.

50.

00.

5

Misto

Log(

Cu)

Matematickastatistika

Neparametricketesty

ParovyWilcoxonuv test

DvouvyberovyWilcoxonuv test

Analyzarozptylu

Motivacnı prıklad – znecistenı reky

MıstoCu A B C D E

prumer 1.84 1.68 1.71 0.97 1.40smer.odch. 0.53 0.46 0.51 0.26 0.20

Mıstolog Cu A B C D E

prumer 0.57 0.48 0.50 -0.06 0.33smer.odch. 0.31 0.28 0.32 0.29 0.14

porovnanı strednıch hodnot 5 nahodnych vyberu

zobecnenı dvouvyberoveho t-testu

analyza rozptylu (ANOVA)

Matematickastatistika

Neparametricketesty

ParovyWilcoxonuv test

DvouvyberovyWilcoxonuv test

Analyzarozptylu

Analyza rozptylu jednoducheho trıdenı

Situace:

k nezavislych nahodnych vyberu z normalnıch rozdelenı seshodnymi rozptyly

Y11, . . . ,Y1n1 vyber z N(µ1, σ2)

Y21, . . . ,Y2n2 vyber z N(µ2, σ2)

...Yk1, . . . ,Yknk vyber z N(µk , σ

2)

Chceme testovat na hladine α

H0 : µ1 = µ2 = · · · = µk

proti H1 : neplatı H0.

Matematickastatistika

Neparametricketesty

ParovyWilcoxonuv test

DvouvyberovyWilcoxonuv test

Analyzarozptylu

Znacenı

Oznacıme

Y 1• vyberovy prumer v 1. vyberuY2• vyberovy prumer v 2. vyberu. . .Yk• vyberovy prumer v k . vyberu

Y •• celkovy (spolecny) vyberovy prumer

n = n1 + · · ·+ nkmodel nazveme vyvazeny, pokud n1 = n2 = · · · = nk

Matematickastatistika

Neparametricketesty

ParovyWilcoxonuv test

DvouvyberovyWilcoxonuv test

Analyzarozptylu

Celkovy soucet ctvercu

Celkova variabilita v datech:

ST =

k∑

i=1

ni∑

j=1

(Yij − Y ••)2

(celkovy soucet ctvercu)

−0.

50.

00.

51.

0

Mista

log(

Cu)

A B C D E

Matematickastatistika

Neparametricketesty

ParovyWilcoxonuv test

DvouvyberovyWilcoxonuv test

Analyzarozptylu

Rozklad souctu ctvercu

Idea: rozklad celkoveho souctu ctvercu

k∑

i=1

ni∑

j=1

(Yij − Y ••)2

︸ ︷︷ ︸ST

=

k∑

i=1

ni(Y i• − Y ••)2

︸ ︷︷ ︸SA

+

k∑

i=1

ni∑

j=1

(Yij − Y i•)2

︸ ︷︷ ︸Se

ST = SA + Se

(celkova variabilita) = (variabilita mezi) + (variabilita uvnitr)

Matematickastatistika

Neparametricketesty

ParovyWilcoxonuv test

DvouvyberovyWilcoxonuv test

Analyzarozptylu

Rozklad souctu ctvercu

Idea: rozklad celkoveho souctu ctvercu

k∑

i=1

ni∑

j=1

(Yij − Y ••)2

︸ ︷︷ ︸ST

=

k∑

i=1

ni(Y i• − Y ••)2

︸ ︷︷ ︸SA

+

k∑

i=1

ni∑

j=1

(Yij − Y i•)2

︸ ︷︷ ︸Se

ST = SA + Se

(celkova variabilita) = (variabilita mezi) + (variabilita uvnitr)

za H0 pochazı vsechny vybery z jednoho stejneho rozdelenı variabilita mezi by mela byt mensı nez variabilita uvnitr

do uvahy je treba brat tzv. stupne volnosti

fT = fA + fe

(n − 1) = (k − 1) + (n − k)

Matematickastatistika

Neparametricketesty

ParovyWilcoxonuv test

DvouvyberovyWilcoxonuv test

Analyzarozptylu

Rozklad souctu ctvercu – pokrac.

(celkova variabilita) = (variabilita mezi) + (variabilita uvnitr)

k∑

i=1

ni∑

j=1

(Yij − Y ••)2 =

k∑

i=1

ni(Y i• − Y ••)2 +

k∑

i=1

ni∑

j=1

(Yij − Y i•)2

−0.

50.

00.

51.

0

Mista

log(

Cu)

A B C D E

Matematickastatistika

Neparametricketesty

ParovyWilcoxonuv test

DvouvyberovyWilcoxonuv test

Analyzarozptylu

Testova statistika

Mame rovnostST = SA + Se

Testova statistika

FA =

SAfASefe

proti H0 svedcı velke hodnoty FA

za H0 ma FA tzv. F -rozdelenı s fA = k − 1 a fe = n− k

stupni volnosti

H0 zamıtneme, pokud FA ≥ Fk−1,n−k(1− α), kdeFk−1,n−k(1− α) je 1− α kvantil Fk−1,n−k rozdelenı

Matematickastatistika

Neparametricketesty

ParovyWilcoxonuv test

DvouvyberovyWilcoxonuv test

Analyzarozptylu

F -rozdelenı

Fisherovo-Snedecorovo rozdelenıdva parametry m, n: Fm,n rozdelenırozdelenı na kladnych cıslech

0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

1.0

1.2

x

f

F(30,30)F(10,5)F(10,20)F(5,10)F(3,10)

Matematickastatistika

Neparametricketesty

ParovyWilcoxonuv test

DvouvyberovyWilcoxonuv test

Analyzarozptylu

Tabulka analyzy rozptylu

variabilita f S S/f F p-hodnota

vybery fA = k − 1 SA SA/fA FA p

rezidualnı fe = n− k Se Se/fecelkova fT = n − 1 ST

S – soucty ctvercu

f – pocet stupnu volnosti

S/f – prumerne ctverce

p-hodnota odpovıdajıcı testu H0 : µ1 = · · · = µk

Matematickastatistika

Neparametricketesty

ParovyWilcoxonuv test

DvouvyberovyWilcoxonuv test

Analyzarozptylu

Prıklad – znecistenı

variabilita f S S/f F p-hodnota

mısto 4 1.80 0.45 5.90 0.0013rezidualnı 30 2.28 0.08

celkova 34 4.08

vyslo FA = 5.9 > F4,30 = 2.69

na hladine vyznamnosti 5 % zamıtame H0, tj. prokazalijsme vyznamny rozdıl ve znecistenı

Matematickastatistika

Neparametricketesty

ParovyWilcoxonuv test

DvouvyberovyWilcoxonuv test

Analyzarozptylu

Predpoklady metody

1 nezavislost vyberu

melo by byt zajisteno provedenım (planem) pokusupredpoklad nelze nahradit

2 normalita dat

nutne overit, zda Yij − Y i• majı normalnı rozdelenıN(0, σ2) pro vsechna i , j ! standardnı postupy prooverenı normalityvyvazeny model nenı velmi citlivy na porusenıpri vyraznem porusenı existujı neparametricke postupy

3 shoda rozptylu

neformalnı posouzenı smerodatnych odchylektesty: Levenuv, Bartlettuvvyvazeny model nenı velmi citlivy na porusenı

Matematickastatistika

Neparametricketesty

ParovyWilcoxonuv test

DvouvyberovyWilcoxonuv test

Analyzarozptylu

Prıklad – znecistenı

normalita: Shapiruv-Wilkuv test: p-hodnota 0.068

−2 −1 0 1 2

−0.

40.

00.

20.

4Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

shoda rozptylu: Levenuv test p-hodnota 0.648, Bartlettuvtest p-hodnota 0.453

Matematickastatistika

Neparametricketesty

ParovyWilcoxonuv test

DvouvyberovyWilcoxonuv test

Analyzarozptylu

Mnohonasobna porovnanı

Prıklad znecistenı:

prokazali jsme, ze je statisticky vyznamny rozdıl veznecistenı jednotlivych mıst

zatım ale nevıme, ktera mısta se od sebe navzajemvyznamne lisı metody mnohonasobneho porovnanı

Matematickastatistika

Neparametricketesty

ParovyWilcoxonuv test

DvouvyberovyWilcoxonuv test

Analyzarozptylu

Mnohonasobna porovnanı

Prıklad znecistenı:

prokazali jsme, ze je statisticky vyznamny rozdıl veznecistenı jednotlivych mıst

zatım ale nevıme, ktera mısta se od sebe navzajemvyznamne lisı metody mnohonasobneho porovnanı

Tukeyho metoda

ktere dvojice µi , µj se od sebe lisı?

posouzenı rozdılu Y i• a Y j•:

|Y i• − Y j•| ≥ qk,n−k(α)

√Se

2fe

(1

ni+

1

nj

),

kde qk,n−k(α) je tabelovana kriticka hodnota.

Matematickastatistika

Neparametricketesty

ParovyWilcoxonuv test

DvouvyberovyWilcoxonuv test

Analyzarozptylu

Prıklad – znecistenı

Mısto A B C D E

pocet (ni) 7 7 7 7 7

prumer (Y i•) 0.568 0.484 0.495 −0.063 0.329

q5,30(α) = 4.102 , Se/fe = 0.076

kriticka mez:

qk,n−k (α)

√Se

2fe

(1

ni+

1

nj

)= 4.102 ·

√0.076

2·2

7= 0.428

nejnizsı prumer mısto D-0.063+0.428=0.365 na hladine 5 % se od mısta D lisıvsechna dalsı mısta s prumerem alespon 0.365

mısto D se tedy vyznamne lisı od A, B a C

Matematickastatistika

Neparametricketesty

ParovyWilcoxonuv test

DvouvyberovyWilcoxonuv test

Analyzarozptylu

Prıklad – obrazek

Graficke znazornenı Tukeyho porovnanı:

−1.

0

−0.

5

0.0

0.5

E−DE−CD−CE−BD−BC−BE−AD−AC−AB−A

95% family−wise confidence level

Differences in mean levels of Misto

Matematickastatistika

Neparametricketesty

ParovyWilcoxonuv test

DvouvyberovyWilcoxonuv test

Analyzarozptylu

Poznamky

lze slozitejsı modely analyzy rozptyluvliv vıce faktoru analyza dvojneho trıdenı, trojnehoptrıdenı, . . .

existujı i dalsı metody mnohonasobneho porovnanı

existujı neparametricke postupy, ktere lze pouzıt priporusenı predpokladu ANOVA