Regresn í a korela ční analýza - cvut.cz · 2012-04-08 · 1 Regresn í a korela ční analýza...
Transcript of Regresn í a korela ční analýza - cvut.cz · 2012-04-08 · 1 Regresn í a korela ční analýza...
1
RegresnRegresníí a korelaa korelaččnníí analýzaanalýza
Závislost příčinná (kauzální).Závislostí pevnou se označuje případ, kdy výskytu jednoho jevu nutněodpovídá výskyt druhé jevu (a často i naopak). Z pravděpodobnostního hlediska jde o vztah, který se projeví s jistotou. Průběh závislosti (v určitém intervalu) lze přesně charakterizovat určitou matematickou funkcí.
Volná závislost je závislost, při níž jeden jev podmiňuje jev jiný jen s
určitou pravděpodobností a v různé intenzitě. Určité hodnotě jedné veličiny
odpovídá celá řada různých hodnot druhé veličiny. U této závislosti lze
charakterizovat teoretický průběh závislosti a její těsnost.
Regresní analýza se zabývá jednostrannými závislostmi. Jedná se o situaci, kdy
proti sobě stojí vysvětlující (nezávisle) proměnná v úloze „příčin“ a vysvětlovaná
(závisle) proměnná v úloze „následků“.
Korelační analýza se zabývá vzájemnými (většinou lineárními) závislostmi, kdy
se klade důraz především na intenzitu (sílu) vzájemného vztahu než na zkoumání
veličin ve směru příčina – následek.
2
DvourozmDvourozměěrnrnéé rozdrozděělenleníí ččetnostietnosti
x
-6 -4 -2 0 2 4 6
y
-6
-4
-2
0
2
4
6
Dvourozměrné rozdělení četnostíPři zkoumání závislosti mezi dvěma statistickými znaky X a Y je možno podle
zásad třídění sestavit tabulku dvourozměrného rozdělení četností. Tato tabulka
se označuje jako korelační (kontingenční).
Y
X y1 y2 … yj … ym ni.
x1 n11 n12 … n1j … n1m n1.
x2 n21 n22 … n2j … n2m n2.
.
.
.
… … … … … .
.
. xi ni1 ni2 … nij … nim ni.
.
.
.
… … … … … .
.
. xk nk1 nk2 … nkj … nkm nk.
n.j n.1 n.2 … n.j … n.m n..
3
• Řádek korelační tabulky obsahuje rozdělení četností znaku Y za
podmínky, že znak X nabyl určité konkrétní hodnoty (příp. hodnot určitého
intervalu). - podmíněné rozdělení četností znaku Y.
Součtový řádek – nepodmíněné rozdělení četností znaku Y.
•Sloupec korelační tabulky obsahuje rozdělení četností znaku X za
podmínky, že znak Y nabyl určité konkrétní hodnoty (hodnot z určitého
intervalu), - podmíněné rozdělení četností znaku X.
•Součtový sloupec – nepodmíněné rozdělení četností znaku X.
Četnosti v součtovém řádku a součtovém sloupci nazýváme okrajovými
(marginálními) četnostmi.
KontingenKontingenččnníí tabulkatabulka
KontingenKontingenččnníí tabulka v tabulka v ExceluExcelu
4
Uspořádání četností v pásu kolem hlavní úhlopříčky tabulky (obr)
nasvědčuje přímé závislosti (růst X vyvolává růst Y či navzájem)
Uspořádání četnosti kolem vedlejší úhlopříčky (od nejvyšších hodnot X k
nejvyšším hodnotám Y) nasvědčuje nepřímé závislosti (růst X vyvolává
pokles Y či navzájem).
KontingenKontingenččnníí tabulkatabulka
99
87
87
98
44
11
22
76
32
11
10
87
32
21
76
54
44
11
65
65
Y
X 170 – 174,9 175 – 179,9 180 – 184,9 185 – 189,9 190 a více ni.
164 – 168,9 2 1 3
169 – 173,9 2 2 3 1 8
174 – 178,9 2 3 8 1 1 15
179 – 183,9 3 6 9
184 – 188,9 3 5 8
189 a více 1 1 2
n.j 6 6 11 14 8 45
Při sledování tělesné výšky chlapců byl vysloven předpoklad, že výška dítěte je
do značné míry ovlivněna výškou rodičů. Následné šetření bylo provedeno
celkem u 45 chlapců a jejich otců. Z výsledků šetření byla sestavena korelační
tabulka pro znaky „výška otce v cm (X)“ a „výška syna v cm (Y)“:
PPřřííklad 1klad 1
5
Bodový korelační graf pro znázornění závislosti mezi
výškou otce a výškou syna
160
165
170
175
180
185
190
195
200
205
160 165 170 175 180 185 190 195
Výška otce (cm)
Vý
ška
syn
a (c
m)
PPřřííklad 1klad 1
6
Podmíněná rozdělení četností jsou jednorozměrná rozdělení četností, které lze popsat známými statistickými charakteristikami- podmíněné charakteristiky.
Podmíněný průměr znaku Y, který odpovídá i-té hodnotě znaku X
.i
m
1j
ijj
in
ny
y
∑=
=
Podmíněný rozptyl znaku Y, který odpovídá i-té hodnotě znaku X
,n
n)yy(
si
m
1j
ij
2
ij
2
i
•
=
∑ ⋅−
=
xi ni. iy 2
is
166,5 3 174,167 5,4394443
171,5 8 181,875 52,734375
176,5 15 181,167 24,768111
181,5 9 185,833 5,6794443
186,5 8 190,625 5,8593750
191,5 2 190,000 6,2500000
Výsledky ukazují, že vyšší výška otce má za následek vyšší výšku syna – při zvyšujících se hodnotách nezávisle proměnné, rostou podmíněné průměry závisle
proměnné (volná závislost se projevuje tak, že se mění podmíněné průměry
závisle proměnné).
PPřřííklad 1klad 1
7
Nejjednodušším způsobem vystižení průběhu korelační závislosti je čára podmíněných průměrů (empirická regrese), která ukazuje tendenci závislosti.
Emprirická regresní čára pro závislost výšky syna na
výšce otce
165
170
175
180
185
190
195
166,5 171,5 176,5 181,5 186,5 191,5
Výška otce (cm)
Po
dm
íněn
é p
růměr
y v
ýšk
y
syn
a (c
m)
Hlavním úkolem regresní analýzy je vystihnout pomocí regresní funkce průběh závislosti
mezi proměnnými, což nám umožní provádět odhad hodnot závisle proměnné na základězvolených hodnot nezávisle proměnné.
Postup při stanovení nejvhodnější funkcelogické posouzení daného vztahu – které proměnné a funkce přicházejí v
úvahu, využití zkušeností z podobných analýz apod.
vytvoření bodového korelačního grafu (scatter plot)
jako nejvhodnější zvolíme tu funkci, která má nejvyšší hodnotu
koeficienty determinace, příp. lze využít dalších matematicko-
statistických kritérií (F test).
8
Empirickou regresní funkci můžeme považovat za odhad teoretickéregresní funkce.
Základní model regresní závislosti s jednou nezávisle proměnnou X vyjadřuje libovolnou hodnotu závisle proměnné Y jako:
,e)x(fy iii +=′
kde f(xi) je tzv. regresní funkce a ei je náhodná (reziduální) odchylka i-téhopozorování proměnné Y.
Náhodné chyby ei – jde o nezávislé náhodné veličiny, které mají normální
rozdělení N(0; σ2).
Parametry regresnParametry regresníí funkcefunkce
160
165
170
175
180
185
190
195
200
205
160 165 170 175 180 185 190
Parametry funkce hledáme tak, aby součet čtverců chyb ei byl minimální.
Pro danou regresní funkci tento součet nazýváme reziduální součet čtverců.
min.=′−== ∑∑==
2
11
2)(
n
i
ii
n
i
irez yyeS
LineLineáárnrníí regreseregrese
Metoda nejmenMetoda nejmenšíších ch ččtverctvercůů
ii bxay +=′
ie
[ ]ii yx ,
[ ]ii yx ′,
9
Jednostranná závislost – proměnná X je nezávisle proměnná a Y pak závisle proměnná.
Oboustranná závislost – nelze přesně rozhodnout, která proměnná je závislá a která nezávislá.
ixyxyi
iyxyxi
ybax
xbay
⋅+=′
⋅+=′
V tomto případě se hovoří o sdružených regresních přímkách.
)var(
),cov(
1
2
1
2
1 1 1
y
yx
yyn
yxyxn
bn
i
n
i
ii
n
i
n
i
n
i
iiii
xy =
−
−
=
∑ ∑
∑ ∑ ∑
= =
= = =
ybxa xy ⋅−=
LineLineáárnrníí regreseregreseZ podmínky minimálnosti čtverců jsou vyvozeny normální rovnice, ze kterých se jejich řešením vypočtou neznámé parametry a a b.
573047442,0534895538830
54705348976275302
=−⋅
⋅−⋅=yxb
17807535,80266667,178573047442,033,182a yx =⋅−=
Regresní přímka pro závislost výšky syna na výšce otce má tvar:
y´ = 80,178 + 0,573 xi
Podle regresního koeficientu byx lze v případě zvýšení výšky otce o 1 cm
očekávat zvýšení výšky syna o 0,573 cm.
Stanovené funkce se používají také k odhadům.
Pokud otec bude mít výšku 182 cm, tak podle regresní funkce bude mít syn
výšku 184,5 cm.
y´i = 80,178 + 0,573 · 182 = 184,5
10
Korelační pole pro závislost výšky syna na výšce otce
y = 0,573x + 80,178
160
165
170
175
180
185
190
195
200
160 165 170 175 180 185 190 195 200 205
Výška otce (cm)
Vý
ška
syn
a (c
m)
=LINREGR
ESE
11
NelineNelineáárnrníí regreseregrese
Funkci hledám v předepsaném tvaru (exponenciální, polynomiální,…)
parametry nalezneme metodou nejmenších čtverců
Koeficient determinace – popisná míra vhodnosti použití regresní
rovnice pro predikování. Hodnoty blízké nule naznačují, že zvolená
funkce není vhodná. Naopak, hodnoty blízké 1 naznačují, že rovnice je
velmi vhodná pro extrapolaci.
Malá hodnota ale nemusí znamenat nízký stupeň závislosti mezi
proměnnými, ale může signalizovat špatně zvolenou regresní funkce
( )
( )∑
∑
=
=′
−
′−′
==N
i
i
N
i
i
y
y
yy
yy
s
sr
1
2
1
2
2
2
NelineNelineáárnrníí regreseregrese
12
NelineNelineáárnrníí regrese v regrese v ExceluExcelu
Graf > přidat spojnici trendu
koeficient spolehlivosti R2 je
koeficient determinace
NelineNelineáárnrníí regrese v regrese v ExceluExcelu
Graf > přidat spojnici trendu
koeficient spolehlivosti R2 je
koeficient determinace
yy
reg
S
SR =2
13
Testy korelaTesty korelaččnníí analýzyanalýzy
Kontingenční tabulky umožňují testování různých statistických
hypotéz:
– hypotéza o nezávislosti znaků - oba znaky se vzájemněneovlivňují (výška rodičů nemá vliv na výšku dětí)
– hypotéza o shodnosti struktury (homogenitě) - očekávané
četnosti jsou v políčcích každého řádku ve stejném vzájemném
poměru bez ohledu na konkrétní volbu řádku (rozložení výšky je
stejné u otců i u synů)
Klasický test nezávislosti nebo homogenity je založen na testu dobré
shody, tedy porovnání očekávaných četností v jednotlivých políčcích
tabulky za předpokladu, že hodnoty obou sledovaných znaků na soběnezávisí, a skutečných četností
ChChíí--kvadrkvadráát test v t test v ExceluExcelu
H0 – náhodné výběry pocházejí ze stejného rozdělené
CHITEST(aktuální;očekávané)
aktuální četnosti – získáné použitím funkce
četnosti(data, hodnoty).
očekávané jak by četnosti vypadaly pro teoretické rozdělení – sestejným
počtem pozorování a stejnými hodnotami.
funkce CHITEST vrací p-hodnotu. Pro p<α zamítáme hypotézu, že jsou
rozdělení stejná
ChChíí--kvadrkvadráát test v t test v MatlabuMatlabu (procedury I.(procedury I.NagyNagy))
chisquare_test.m
chisquare_test_h.m H0:obě rozdělení jsou shodná
chisquare_test_i.m H0:rozdělení jsou nezávislá
14
TestovTestováánníí linelineáárnrníí regreseregrese
T test korelačního koeficientu (Pearsonův test)
H0: data nejsou vhodná k lineární regresi
F test poměru vysvětleného a nevysvětleného rozptylu
H0: data nejsou vhodná k lineární regresi
t_test_reg.m
f_test_reg.m
=LINREGRESE(pole_y;pole_x;PRAVDA;PRAVDA)
=INTERCEPT(pole_y;pole_x) absolutní člen q
=SLOPE(pole_y;pole_x) směrnice k
qkxy +=
x
-6 -4 -2 0 2 4 6
y
-6
-4
-2
0
2
4
6
Korelace náhodných proměnných
ρ(x,y) = 0.0
x
-6 -4 -2 0 2 4 6
y
-6
-4
-2
0
2
4
6
ρ(x,y) = 0.7
N = 10000
15
Korelace náhodných proměnných
ρ(x,y) = -0.7 ρ(x,y) = 0.96
x
-6 -4 -2 0 2 4 6
y
-6
-4
-2
0
2
4
6
x
-6 -4 -2 0 2 4 6
y
-6
-4
-2
0
2
4
6
N = 10000
Korelace náhodných proměnných
16
Odhad kovariance a korelace
– výběrový lineární korelační koeficient
náhodné proměnné x, y
• naměříme x1, x2,… xN; y1, y2,… yN
[ ] [ ] [ ]yExExyEyx −=),cov(
( )( )
( )( )∑=
−−−
=
−=n
i
ii yyxxn
yxyxyx
11
1
),(vco)
=PEARSON(dat
a1;data2)
=CORREL(data
1;data2)
ReziduReziduáálnlníí a regresna regresníí sousouččet et ččtverctvercůů
Reziduální součet čtverců odchylek od predikcí
Regresní součet čtverců odchylek predikcí od průměru
Celkový součet = součet čtverců odchylek dat od průměru
2
11
2)(∑∑
==
′−==n
i
ii
n
i
irez yyeS
2
1
)(∑=
−′=n
i
ireg yyS
2
1
)(∑=
−=n
i
iyy yyS
rezregyy SSS +=Regresní identita
Koeficient determinaceyy
reg
S
SR =2
17
Kvadratická regrese
y = 1,9733x2 - 0,0103x + 0,5794
R2 = 0,9898
0
1
2
3
4
5
6
7
8
9
10
-2 -2 -1 -1 0 1 1 2 2
x
y
Koeficient determinaceKoeficient determinace
´=PEARSON(data_x;data_y)-0,2146-0,214597Pearsonův korel. Koeficient R
`=R^2=Sreg/(Srez+Sreg)0,046050,989762Koeficient determinace R2
=Srez/(n-2)0,075357Reziduální rozptyl Se
`=VAR(y)*n=Srez+Sreg353,292353,3079Celkový součet čtverců Syy
`=VAR(x)*n56,75074Sxx
2,8292,829průměr y
`=VAR(f(x))*n349,6751Sreg
3,617Srez
F test pomF test poměěru vysvru vysvěětlentlenéého a nevysvho a nevysvěětlentlenéého ho
rozptylurozptylu
H0: Data nejsou vhodná pro regresi
pravostranný test
)2,1()2(
−≈−
= nFSrez
SregnF
( )0hodnotap FFP ≥=
1320,7061126,6159regresni a rezidualni součet čtverců
Sreg, Srez
4840,945939F statistika, df
5,2454470,4603464Koef. Determinace R2,st. Chyba odhadu y
0,7494960,4244274st.chyba koeficientů
7,5346892,7158689směrnice k, q
LINREGRESE y=kx+q=LINREGR
ESE
18
Interval spolehlivosti pro predikciInterval spolehlivosti pro predikci
PPáás spolehlivostis spolehlivosti
Lineární regrese y=2x y = 2,0072x + 2,3778
R2 = 0,6973
-6
-4
-2
0
2
4
6
8
10
-2 -2 -1 -1 0 1 1 2 2
x
y
KorelaKorelaččnníí analýza ordinanalýza ordináálnlníích velich veliččinin
Je důležité odlišit případy, kdy je ordinálního charakteru pouze jedna
proměnná a kdy obě.
V případech, kdy jsou obě sledované proměnné ordinálního
charakteru, můžeme použít testování, založené na pořadí.
– Wilcoxonův test
– Mann-Whitney test
– Kendallův korelační koeficient τk - tau k
– Goodman-Kruskalův koeficient γ je variantou kendallova τk
Pokud je ordinální jen jedna, pak:
– Kruskal-Wallisův test