Statistik 1 – Lektion 3

30
Statistik 1 – Lektion 3 By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen

description

Statistik 1 – Lektion 3. By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen. Sidste kursusgang. Stikprøver. Vægtning. Konfidensintervaller. Spredningsdiagrammer. Korrelation. Signifikans. Ekstreme værdier. Denne kursusgang. Mindste kvadraters metode. Spredningsdiagrammer. - PowerPoint PPT Presentation

Transcript of Statistik 1 – Lektion 3

Page 1: Statistik 1 – Lektion 3

Statistik 1 – Lektion 3

By, energi & miljø, forår 2010v. Morten Skou Nicolaisen

Page 2: Statistik 1 – Lektion 3

Sidste kursusgang

o Stikprøver.o Vægtning.o Konfidensintervaller.o Spredningsdiagrammer.o Korrelation.o Signifikans.o Ekstreme værdier.

Page 3: Statistik 1 – Lektion 3

Denne kursusgang

o Mindste kvadraters metode.o Spredningsdiagrammer.o Lineær regression.o Outliers.o Regressionskoefficienter.o Signifikans.o Transformation for at opnå linearitet.

Page 4: Statistik 1 – Lektion 3

Mindste kvadraters metode

o Metode til at finde den linje, hvor forskellen mellem forventede og observerede værdier er så lille som mulig (dvs. hvor fejlleddet er mindst).

o Anvender residualernes (fejlleddenes) kvadrater (deraf navnet), bl.a. for at undgå, at fejlled med forskellige fortegn udligner hinanden.

Page 5: Statistik 1 – Lektion 3

Mindste kvadraters metode

Forventet værdi (model):ŷi=axi+b

Observation:yi=axi+b+ei

Vi ønsker altså at minimere summen af de kvadrede fejl.

Page 6: Statistik 1 – Lektion 3

Fejl vs. afvigelse

Page 7: Statistik 1 – Lektion 3

Lineær regressionslinie

Page 8: Statistik 1 – Lektion 3

Forudsætninger til lineær regression

o Sammenhængen er lineær.o Homoskedasticitet.o Fejlled skal være indbyrdes ukorrolerede.o Uafhængig variabel ukorroleret med fejlleddet.o Fejlleddet skal være normalfordelt.o Lineær regression er dog ret robust overfor

variable, hvor ikke alle forudsætninger er overholdt.

Page 9: Statistik 1 – Lektion 3

Determinationskoefficiento Determinationskoefficienten (R2) angiver graden af forklaring

som modellen giver for sammenhængen mellem den afhængige og uafhængige variabel.

o Ved bivariat lineær regression vil den være det samme som den kvadrerede korrelationskoefficient (angivet ved Pearsons r), så der gælder at R2=r2.

o Determinationskoefficienten kan derfor kun antage værdier mellem 0 og 1, og kan betragtes som en procentvis angivelse af modellens forklaringsevne.

Page 10: Statistik 1 – Lektion 3

Tolkning af regressionsresultatero Interessante variable:

• R: multipel korrelationskoefficient.• R2: Determinationskoefficient (inkl. tilpasset).• B: Regressionskoefficient (inkl. Beta).• Sig: Signifikans.

Coefficientsa

955,203 727,709 1,313 ,19278,002 5,915 ,753 13,188 ,000

(Constant)boligareal

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: boligenergia.

Model Summary

,753a ,567 ,563 3725,97266Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), boligareala.

Page 11: Statistik 1 – Lektion 3

Tolkning af regressionsresultater

Page 12: Statistik 1 – Lektion 3

KonstantleddetCoefficientsa

33,630 19,518 1,723 ,08518,974 1,324 ,329 14,334 ,000

(Constant)skoleaar

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: persind2a.

Årstall

20202000198019601940192019001880

Gje

nnom

snitt

lig k

ropp

shø

yde

for

20-å

rige

men

n

184

182

180

178

176

174

172

170

Årstall

2200200018001600140012001000

Gje

nnom

snitt

lig k

ropp

shø

yde

for

20-å

rige

men

n

200

180

160

140

120

100

80

60

40

20

0

Undgå generelt at ekstrapolere til x-værdier, der ligger udenfor datasættet.

Page 13: Statistik 1 – Lektion 3

Hvornår bruges hvad

Page 14: Statistik 1 – Lektion 3

Hvornår bruges hvad

Afhængig variabel Dikotom (med kun 2 værdier)

Med flere end 2 værdier Nominal-niveau

Ordinal-niveau

Interval- og forholdstalsniveau

Uaf-hæn- gig varia-bel

Dikotom (med kun 2 værdier)

Binær logistisk regression

Multinominal logistisk regression

Lineær regression

Med flere end 2 værdier

Nominalniveau

Binær logistisk regression med dummy-variabler

Multinominal logistisk regression

Lineær regression med dummy-variabler

Ordinalniveau

Binær logistisk regression med dummy-variabler

Multinominal logistisk regression

Lineær regression med dummy-variabler

Interval- og forholdstals-niveau

Binær logistisk regression

Multinominal logistisk regression

Lineær regression

Oversigt over muligheder til at benytte regressionsanalyse ved forskellige måleniveauer på den uafhængige og den afhængige variabel.

Page 15: Statistik 1 – Lektion 3

Eksempel 1o Datafilen ”Hovedstadsomraadet …” benyttes.o Vi vil først lave et spredningsdiagram, der viser hvordan den

årlige personlige indtægt (persind2) varierer i forhold til hvor mange uddannelsesår respondenterne har gennemført (skoleaar).

o Vi vil derefter ved hjælp af SPSS indtegne regressionslinien for denne sammenhæng i spredningsdiagrammet, og bearbejde diagrammets tekstfelter og layout, så det bagefter kan præsenteres i en rapport.

o Til sidst vil vi lave en lineær regressionsanalyse af sammenhængen mellem uddannelsens længde og indtægten.

Page 16: Statistik 1 – Lektion 3

Outliers

Page 17: Statistik 1 – Lektion 3

Opgave 1o Datafilen ”Hovedstadsomraadet …” benyttes.o Respondenter med ekstreme rejselængder med bil skal udelades fra analysen. Brug

f. eks. descriptive/explore og undermenuen statistics/percentiles til at identificere respondenter med rejselængder, som er mere end tre kvartildifferencer over den øverste kvartil, og benyt select cases til at fravælge disse respondenter.

o Lav et spredningsdiagram, der viser hvordan respondenternes rejselængde med bil i løbet af undersøgelsesugens fem hverdage, målt i km (bilhverd) varierer med boligens afstand fra Københavns centrum, målt i km (centafs). Brug SPSS til at indtegne regressionslinien for denne sammenhæng i spredningsdiagrammet, og bearbejd diagrammets tekstfelter og layout, så det bagefter kan præsenteres i en rapport.

o Lav en lineær regressionsanalyse af denne sammenhæng. Hvor meget stiger den gennemsnitlige rejselængde med bil, når boligens afstand fra Københavns centrum forøges med 1 km?

o Hvor godt vil i sige, at den retlinjede regressionslinie passer til det observerede mønster af rejselængder og boliglokaliseringer?

Page 18: Statistik 1 – Lektion 3

Lavt signifikans- eller forklaringsniveau

o Mulige forklaringer på lav signifikans el. R2:• Ingen sammenhæng mellem variable• Komplekse fænomener med mange variable• For få observationer• For lille variation• Specifikationsfejl i modellen.• Type 2 fejl: falsk negativ (excessive skepticism).

o Indenfor psykologi og samfundsvidenskab (planlægning) er forholdsvis lave R2 værdier ikke unormale, da enkelte faktorer normalt vil have en begrænset forklaringseffekt på folks handlemønstre.

Page 19: Statistik 1 – Lektion 3

Eksempel 2

o Alder og indtægt sammenlignes.o Ser ikke ud til at være lineær.o Betyder resultatet, at der ikke er nogen

sammenhæng mellem variablene?

Coefficientsa

301,211 17,514 17,198 ,000,001 ,348 ,000 ,002 ,999

(Constant)alder

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: persind2a.

Page 20: Statistik 1 – Lektion 3

Eksempel 2 (fortsat)

o En kurve passer bedre.o Nedenfor er analysen lavet med en ny variabel,

der afhænger af hvor tæt respondentens alder er på 50 år: alder3 = (2500-(50-alder)2).

Coefficientsa

-255,787 42,194 -6,062 ,000,247 ,019 ,302 13,300 ,000

(Constant)alder3

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: persind2a.

Page 21: Statistik 1 – Lektion 3

Opgave 2o Datafilen ”Hovedstadsomraadet …” benyttes.o Vi så i den forrige opgave, at sammenhængen mellem rejselængder

og boliglokaliseringer snarere synes at være kurveformet end lineær.

o Så længe boligens afstand fra Københavns centrum er forholdsvis moderat, stiger rejselængden med bil ret markant, jo længere væk fra centrum man bor. Men blandt dem, der bor langt væk fra centrum, ser en yderligere forøgelse af centrumsafstanden ikke ud til at hænge sammen med forøget rejselængde med bil – snarere tvært imod.

o Lav separate regressionsanalyser for de respondenter, der bor indtil 30 km fra Københavns centrum, og dem, der bor mere perifert. Respondenter med ekstreme rejselængder skal fortsat holdes uden for analysen. Hvad fortæller disse resultater?

Page 22: Statistik 1 – Lektion 3

Transformation for at opnå linearitet

o Transformation ved logaritmiske funktioner tillægger generelt værdier i en ende af skalaen mere vægt end i den anden ende.

o Dette kunne evt. være en mulig justering i forrige opgave, da indflydelsen ikke synes at være så stor for respondenter, der bor langt væk fra centrum.

Avstand fra Oslo sentrum (km)

20100

Gj.s

n. b

ebyg

gels

espr

osen

t i lo

kalo

mrå

det

2,5

2,0

1,5

1,0

,5

0,0 Rsq = 0,5442

Avstand fra Oslo sentrum (km)

2010

86

42

1,8

,6,4

,2

Gj.s

n. b

ebyg

gels

espr

osen

t i lo

kalo

mrå

det

2,5

2,0

1,5

1,0

,5

0,0 Rsq = 0,7413

Logaritmen til avstanden i km til sentrum

1,51,0,50,0-,5-1,0G

j.sn.

beb

ygge

lses

pros

ent i

loka

lom

råde

t

2,5

2,0

1,5

1,0

,5

0,0 Rsq = 0,7413

Page 23: Statistik 1 – Lektion 3

Eksempel 3o For at tage højde for, at sammenhængen mellem boligens centrumsafstand og

rejselængden med bil ikke er lineær, vil vi transformere rejselængderne ved hjælp af en ikke-lineær funktion.

o Vi prøver først at lave en ny variabel med 10-tals logaritmen af rejselængden med bil på hverdage. Benyt transform/compute variable til dette. Vi kalder den nye variabel lgbilrejs.

o Vi laver nu et nyt spredningsdiagram med lgbilrejs langs den vertikale akse og centafs langs den horisontale akse, og bruger SPSS til at indtegne regressionslinien. Respondenter med ekstreme rejselængder skal fortsat være udeladt. Vi udfører også en ny regressionsanalyse med lgbilrejs som den afhængige variabel og centafs som den uafhængige variabel. Er der ændringer i modellens forklaringskraft (R2) og i den standardiserede regressionskoefficient?

o Vi undersøger hvad der sker, hvis vi i stedet transformerer den uafhængige variabel (boligens afstand fra centrum). Vi laver en ny variabel lgcentafs, som er den briggske logaritme til centafs, og udfører tilsvarende analyser som i forrige eksempel, men med ordinært målte rejselængder.

Page 24: Statistik 1 – Lektion 3

Opgave 3o I studiet i Hovedstadsområdet blev også respondenternes samlede

rejselængde med alle typer af transportmidler i løbet af ugens hverdage undersøgt. Denne variabel blev benævnt hverdtot.

o Brug desciptive/explore til at identificere respondenter med ekstremt lange samlede rejselængder i løbet af hverdagene, og fravælg disse respondenter.

o Lav et spredningsdiagram for sammenhængen mellem centafs og hverdtot, og derefter et tilsvarende diagram for sammenhængen mellem lgcentafs og hverdtot. Brug i begge tilfælde SPSS til at indtegne regressionslinien.

o Udfør regressionsanalyser af sammenhængene mellem centafs og hverdtot, og mellem lgcentafs og hverdtot. Er R2-koefficienten og den standardiserede regressionskoefficient blevet forhøjet, sammenlignet med analyserne baseret på ordinært målte centrumsafstande?

o Hvad kan evt. forskelle forklares ved?

Page 25: Statistik 1 – Lektion 3

Eksempel 4o Baseret på teoretiske overvejelser såvel som foreløbige analyser af det

empiriske datamateriale, fandt forskerne, at sammenhængen mellem boligens afstand fra Københavns centrum og rejselængderne bedst kunne beskrives, hvis centrumsafstanden transformeredes ved hjælp af en funktion sammensat af en hyperbolsk tangensfunktion og en kvadratisk funktion. Lav en sådan ny, transformeret centrumsafstandvariabel, afstfun2, baseret på den følgende funktion: afstfun2 = (Exp(centafs*0.18 – 2.85) - Exp( -(centafs*0.18 – 2.85))) / (Exp(centafs*0.18 – 2.85) + Exp( - (centafs*0.18 – 2.85))) – (0.00068*( centafs – 42)*(centafs – 42) – 2.8).

o Lav et spredningsdiagram for sammenhængen mellem afstfun2 og hverdtot, og brug SPSS til at indtegne regressionslinien. Respondenter med ekstreme rejselængder skal fortsat være udeladt.

o Udfør en regressionsanalyse af sammenhængen mellem afstfun2 og hverdtot. Er R2-koefficienten og den standardiserede regressionskoefficient blevet forhøjet, sammenlignet med analyserne baseret på ordinært målte og logaritmisk målte centrumsafstande?

Page 26: Statistik 1 – Lektion 3

Multipel lineær regressionsanalyse

Model: y=a1x1+a2x2+…+anxn+b

Alder

Uddannelse

Indtægt

Page 27: Statistik 1 – Lektion 3

Multipel lineær regressionsanalyseCoefficientsa

-255,787 42,194 -6,062 ,000,247 ,019 ,302 13,300 ,000

(Constant)alder3

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: persind2a.

Coefficientsa

33,630 19,518 1,723 ,08518,974 1,324 ,329 14,334 ,000

(Constant)skoleaar

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: persind2a.

Coefficientsa

-474,678 44,266 -10,723 ,000,231 ,018 ,278 12,622 ,000

17,993 1,269 ,312 14,180 ,000

(Constant)alder3skoleaar

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: persind2a.

Page 28: Statistik 1 – Lektion 3

Multipel lineær regressionsanalyse

Model Summary

,302a ,091 ,090 215,40723Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), alder3a.

Model Summary

,329a ,109 ,108 211,88025Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), skoleaara.

Model Summary

,432a ,187 ,186 202,42646Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), skoleaar, alder3a.

Med flere variable stiger R2 som regel, men ikke nødvendigvis den tilpassede R2.

Hvis antallet af variable er ligeså stort som antallet af observationer, så vil R2 altid være lige med 1, og man bør derfor se på den tilpassede R2 ved mange observationer.

Page 29: Statistik 1 – Lektion 3

Opgave 4o Udfør en multipel regressionsanalyse af følgende uafhængige variablers

effekter på den samlede rejselængde i løbet af ugens hverdage (hverdtot):o Boligens ikke-lineært målte beliggenhed i forhold til Københavns centrum (aftstfun2).o Uddannelseslængde (skoleaar).o Personlig årsindtægt (persind2).o Hvorvidt respondenten er erhvervsaktiv (erhvakt).o Hvorvidt tjenesterejser indgår som en del af den rapporterede rejselængde (erhvrejs).o Alder, målt som den transformerede variabel, der angiver hvor tæt på 50 år

respondenten er (alder3) .o Respondenter med ekstreme rejselængder skal udelades fra analysen.o Hvilke variable har de stærkeste sammenhænge med rejselængden i løbet

af ugens hverdage?o Udfør samme analyse igen, men denne gang på hhv. mænd og kvinder.o Hvilke kønsspecifikke forskelle kan vi se ud fra resultaterne?

Page 30: Statistik 1 – Lektion 3

Modelsøgningo Enter:

• Manuel modelsøgning. Giver god kontrol over modellen, men kræver indsigt og overblik. Tager også længere tid.

o Forward:• Starter med en tom model og inkluderer herefter variable

baseret på deres partielle korrelationer.o Backward:

• Starter med en mættet model og ekskluderer herefter variable baseret på deres signifikansniveau.

o Stepwise:• Som forward, men undersøger løbende om der er ikke-

signifikante variable i modellen og ekskluderer dem.