Statistik II 1. Lektion
Anvendt StatistikLektion 7Simpel Liner Regression1Er der en sammenhng?Plot af mordraten (y) mod fattigdomsraten (x):
Afhnger mordraten af fattigdomsraten?
Scatterplot2ScatterplotEt scatterplot er et plot af to variable:x : forklarende variabel (fattigdomsraten)y : respons-variabel (mordraten)For den ite observation har vixi (fattigdomsraten for ite stat)yi (mordraten for ite stat)Data:(x1,y1), (x2,y2),, (xn,yn)
xYxiyi(xi,yi)3Forventet respons: En ret linjeDen rette linje a + bx beskriver den forventede (dvs. middel) respons:E[y] = a + bxEksempel:E[y] = 210 + 25xFortolkning:Antag x = 4 (fattigdomsraten), s er det forventede mordrate 210 + 254 = 310.Hvis x ges med 1, s ges den forventede vrdi af y med 25.
xybE[y] = a + bxaHvis x = 0 , s er den forventede vrdi af y = 210. UK: Expected14FejlleddetDe enkelte datapunkter (xi,yi) ligger typisk ikke prcist p regressionslinjen.Afvigelsen mellem punkt og linjen betegnes fejlleddet ei.
Regressionsmodel:yi = a + bxi+ ei
Bemrk: n fejlled e1, e2, ..., en. xyxiyi(xi,yi)eiFlere detaljer og antagelser p nste slide
a + bx5Simpel liner regressionsmodelY- afhngige/respons variabel.X- uafhngige/forklarende variabel faste tala- skringspunkt med y-aksenb- det grske bogstav betab1- hldningskoefficientiid- UK: independent, identically distributed= uafhngig, identisk fordeltee- det grske bogstav epsilonei- fejlled - det eneste stokastiske element i modellen6
Liner regressionsmodel: FigurModel:yi = a + bxi+ ei
Om fejlledene ei antager vi:NormalfordeltMiddelvrdi nulKonstant standard-afvigelse s
Dvs. punkterne ligger usystematisk spredt omkring en ret linje, hvor variationen er konstant.XYiid normalfordelte fejlledFordelingen af yi omkring regressionslinjen.x1x3x2x4x5
Kontinuert forklarende variabel x77Forudstninger for SLR (1/3)Der er en liner sammenhng mellem X og Y.Indledende tjek: Scatter plot af (x,y) ser punkterne ud til at ligge langs en ret linje?
x
y
yyy8Forudstninger for SLR (2/3)Vrdierne af de uafhngige variable x antages at vre faste dvs. ikke stokastiske. Mao. Antages x at vre kendt eller mlt uden stj/mlefejlIndledende tjek: Logisk sans.
9Forudstninger for SLR (3/3)Fejledene ei antages vre uafhngige og normalfordelte med middelvrdi 0 og konstant standardafvigelse s.Indledende tjek: Se efter indlysende problemer i scatter plot af (x,y).
x
y
yyy1011
Er der en sammenhng?Graphs Chart builder Scatter/Dot Simple Scatter
Er antagelserne opfyldt?
Scatterplot12
OutlierSamme plot uden outliereren
En tilnrmet linjeEn estimeret regressionslinje er givet ved:
Her era et estimat af ab et estimat af by hat er estimat af E(y)
Afstanden fra punktet til den estimerede regressionslinje kaldes residualet ei = yi - .xyxiyi(xi,yi)E[y] = a + bx = a + bx
ei = a + bx
1313Mindste kvadraters metodeSummen af de kvadrede residualer betegnes:
UK: Sum of Squared Errors.
SSE kan skrives som
xyxiyi(xi,yi)E[y] = a + bx = a + bx
ei
Vi vlger a og b, s SSE er mindst mulig.Dette kaldes mindste kvadraters metode. 1414Estimater af a , b og sMindste kvadraters metode giver flgende estimaterEstimatet for b er
Estimatet for a er
Estimat for s er
15Mere om liner regressionPrdiktion:For en ny vrdi x kan vi prdiktere vrdien af y:
Skring i middel:Regressionslinjen skrer i :
Summen af residualer:Summen af alle residualer er nul:xyx = a + bx
1616Simpel liner regression i SPSSAnazyze Regression Linear
yx17Den estimerede regressionslinje er alts:
FortolkningHver gang fattigdomsraten stiger et point stiger den forventede mordrate med 1,323 mord pr 100.000.Hvis der er nul procent fattige, s er den forventede mordrate -10,136 Hvis procent fattige er 16.2, s er den prdikterede mordrate: -10.136 + 1.32316.2 = 11.30.
SPSS: Resultat
ab = -10,136 + 1,323 x
18Regressionslinje i SPSSGraphs Chart builder Scatter/Dot Simple Scatter
Efterflgende dobbelt-klik p plottet og vlg: Elements Fit line at total
Outlier19Estimat af sSimpel liner regression i SPSS giver ogs flgende resultater:
Estimat af s :
Dvs. vi forventer at ca. 95% af punkterne ligger hjst 28.9 enheder fra regressionslinjen.
SSEn--2SSE/(n-2)
20Hypotesetest af bNul-hypoteser:H0: b = 0Alternativ-hypoteser:Ha: b 0Ha: b > 0Ha: b < 0
Teststrrelse
hvor se er standardfejlen:
,hvorHvis H0 er sand, s flger t en t-fordeling med df = n-2 frihedsgrader21Fortolkning af H0: = 0Er der en liner sammenhng mellem X og Y?
H0: = 0 ingen liner sammenhngHa: 0 liner sammenhng
Flgende er eksempler, hvor H0 accepteres.YXYXYXKonstant YUsystematisk variationIkke-liner sammenhng22H0: b = 0vs Ha: b 0
Iflge SPSS er P-vrdien < 0.0005Dvs. vi afviser H0.Dvs. er er en liner sammenhng ml. fattigdoms- og mordraten.Hypotesetest i SPSS
P-vrdi4.804-4.804t-fordeling med df = n-22323
Konfidensintervaller for bKonfidensintervallet for b flger det sdvanlige mnster:b tn-2,a/2 se Standardfejlen se udregnes som fr, og udregnes i praksis af SPSS.
I dialogboksen for liner regression tilvlges konfidensintervaller under statistics
95% konf. int.: 1.323 2.01 0.275 = [ 0.770 ; 1.876 ] t49,0.025 = 2.0124Korrelationen rGraden af liner sammenhng mellem x og y kan mles ved korrelation r .
Korrelationen kan udregnes som
Hvor sx og sy standardafvigelserne for hhv. x og y:
og
25Korrelationen: EgenskaberEgenskaber ved korrelationen:-1 r 1r har samme fortegn som br = 0 : ingen liner sammenhngr = 1 : perfekt liner sammenhngJo strre absolut vrdi, jo strkere liner sammenhng
26Illustration af korrelationYXr = 0YXr = -.8YXr = .8YXr = 0YXr = -1YXr = 127Korrelation i SPSSSom en del af outputet for liner regression fr man bl.a. flgende kasse:
Korrelationen er her r = 0.565, dvs. en middel liner sammenhng.
Korrelationen r28Forklaret og uforklaret afvigelseYis afvigelse fra kan opdeles i to:Yx
Forklaret afvigelseTotale afvigelseUforklaret afvigelse
KvadratsummerSums of squares:Total sum of squares:TSS er den totale variation i yierne.
Sum of squared errors: SSE er den uforklarede del af variationen i yierne.
SSE TSS
TSS SSE 0 den forklarede variation.
30Total og uforklaret variation - illustration
Den totale variation ses nr vi kigger langs x-aksen.Den uforklarede variation ses nr vi kigger langs regressionslinjen. TSSSSE3131Determinationskoefficienten r 2TSS Den totale variationTSS SSE Den forklarede variation
Determinationskoefficienten
Fortolkningr2 er andelen af den totale variation i yierne der er forklaret af xierne.Fx: Hvis r2 = 0.62, s er 62% af variation i y forklaret af x.
32Determinationskoefficienten i SPSSSom en del af outputet for liner regression fr man bl.a. flgende kasse:
Determinationskoefficienten er her r2 = 0.320, dvs. 32% af variationen i mordraten er forklaret af fattigdomsraten.
Determinationskoefficienten r233Determinationskoefficienten i SPSSGraphs Chart builder Scatter/Dot Simple Scatter
r234