Statistik 1 – Lektion 3
description
Transcript of Statistik 1 – Lektion 3
Statistik 1 – Lektion 3
By, energi & miljø, forår 2010v. Morten Skou Nicolaisen
Sidste kursusgang
o Stikprøver.o Vægtning.o Konfidensintervaller.o Spredningsdiagrammer.o Korrelation.o Signifikans.o Ekstreme værdier.
Denne kursusgang
o Mindste kvadraters metode.o Spredningsdiagrammer.o Lineær regression.o Outliers.o Regressionskoefficienter.o Signifikans.o Transformation for at opnå linearitet.
Mindste kvadraters metode
o Metode til at finde den linje, hvor forskellen mellem forventede og observerede værdier er så lille som mulig (dvs. hvor fejlleddet er mindst).
o Anvender residualernes (fejlleddenes) kvadrater (deraf navnet), bl.a. for at undgå, at fejlled med forskellige fortegn udligner hinanden.
Mindste kvadraters metode
Forventet værdi (model):ŷi=axi+b
Observation:yi=axi+b+ei
Vi ønsker altså at minimere summen af de kvadrede fejl.
Fejl vs. afvigelse
Lineær regressionslinie
Forudsætninger til lineær regression
o Sammenhængen er lineær.o Homoskedasticitet.o Fejlled skal være indbyrdes ukorrolerede.o Uafhængig variabel ukorroleret med fejlleddet.o Fejlleddet skal være normalfordelt.o Lineær regression er dog ret robust overfor
variable, hvor ikke alle forudsætninger er overholdt.
Determinationskoefficiento Determinationskoefficienten (R2) angiver graden af forklaring
som modellen giver for sammenhængen mellem den afhængige og uafhængige variabel.
o Ved bivariat lineær regression vil den være det samme som den kvadrerede korrelationskoefficient (angivet ved Pearsons r), så der gælder at R2=r2.
o Determinationskoefficienten kan derfor kun antage værdier mellem 0 og 1, og kan betragtes som en procentvis angivelse af modellens forklaringsevne.
Tolkning af regressionsresultatero Interessante variable:
• R: multipel korrelationskoefficient.• R2: Determinationskoefficient (inkl. tilpasset).• B: Regressionskoefficient (inkl. Beta).• Sig: Signifikans.
Coefficientsa
955,203 727,709 1,313 ,19278,002 5,915 ,753 13,188 ,000
(Constant)boligareal
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: boligenergia.
Model Summary
,753a ,567 ,563 3725,97266Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), boligareala.
Tolkning af regressionsresultater
KonstantleddetCoefficientsa
33,630 19,518 1,723 ,08518,974 1,324 ,329 14,334 ,000
(Constant)skoleaar
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: persind2a.
Årstall
20202000198019601940192019001880
Gje
nnom
snitt
lig k
ropp
shø
yde
for
20-å
rige
men
n
184
182
180
178
176
174
172
170
Årstall
2200200018001600140012001000
Gje
nnom
snitt
lig k
ropp
shø
yde
for
20-å
rige
men
n
200
180
160
140
120
100
80
60
40
20
0
Undgå generelt at ekstrapolere til x-værdier, der ligger udenfor datasættet.
Hvornår bruges hvad
Hvornår bruges hvad
Afhængig variabel Dikotom (med kun 2 værdier)
Med flere end 2 værdier Nominal-niveau
Ordinal-niveau
Interval- og forholdstalsniveau
Uaf-hæn- gig varia-bel
Dikotom (med kun 2 værdier)
Binær logistisk regression
Multinominal logistisk regression
Lineær regression
Med flere end 2 værdier
Nominalniveau
Binær logistisk regression med dummy-variabler
Multinominal logistisk regression
Lineær regression med dummy-variabler
Ordinalniveau
Binær logistisk regression med dummy-variabler
Multinominal logistisk regression
Lineær regression med dummy-variabler
Interval- og forholdstals-niveau
Binær logistisk regression
Multinominal logistisk regression
Lineær regression
Oversigt over muligheder til at benytte regressionsanalyse ved forskellige måleniveauer på den uafhængige og den afhængige variabel.
Eksempel 1o Datafilen ”Hovedstadsomraadet …” benyttes.o Vi vil først lave et spredningsdiagram, der viser hvordan den
årlige personlige indtægt (persind2) varierer i forhold til hvor mange uddannelsesår respondenterne har gennemført (skoleaar).
o Vi vil derefter ved hjælp af SPSS indtegne regressionslinien for denne sammenhæng i spredningsdiagrammet, og bearbejde diagrammets tekstfelter og layout, så det bagefter kan præsenteres i en rapport.
o Til sidst vil vi lave en lineær regressionsanalyse af sammenhængen mellem uddannelsens længde og indtægten.
Outliers
Opgave 1o Datafilen ”Hovedstadsomraadet …” benyttes.o Respondenter med ekstreme rejselængder med bil skal udelades fra analysen. Brug
f. eks. descriptive/explore og undermenuen statistics/percentiles til at identificere respondenter med rejselængder, som er mere end tre kvartildifferencer over den øverste kvartil, og benyt select cases til at fravælge disse respondenter.
o Lav et spredningsdiagram, der viser hvordan respondenternes rejselængde med bil i løbet af undersøgelsesugens fem hverdage, målt i km (bilhverd) varierer med boligens afstand fra Københavns centrum, målt i km (centafs). Brug SPSS til at indtegne regressionslinien for denne sammenhæng i spredningsdiagrammet, og bearbejd diagrammets tekstfelter og layout, så det bagefter kan præsenteres i en rapport.
o Lav en lineær regressionsanalyse af denne sammenhæng. Hvor meget stiger den gennemsnitlige rejselængde med bil, når boligens afstand fra Københavns centrum forøges med 1 km?
o Hvor godt vil i sige, at den retlinjede regressionslinie passer til det observerede mønster af rejselængder og boliglokaliseringer?
Lavt signifikans- eller forklaringsniveau
o Mulige forklaringer på lav signifikans el. R2:• Ingen sammenhæng mellem variable• Komplekse fænomener med mange variable• For få observationer• For lille variation• Specifikationsfejl i modellen.• Type 2 fejl: falsk negativ (excessive skepticism).
o Indenfor psykologi og samfundsvidenskab (planlægning) er forholdsvis lave R2 værdier ikke unormale, da enkelte faktorer normalt vil have en begrænset forklaringseffekt på folks handlemønstre.
Eksempel 2
o Alder og indtægt sammenlignes.o Ser ikke ud til at være lineær.o Betyder resultatet, at der ikke er nogen
sammenhæng mellem variablene?
Coefficientsa
301,211 17,514 17,198 ,000,001 ,348 ,000 ,002 ,999
(Constant)alder
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: persind2a.
Eksempel 2 (fortsat)
o En kurve passer bedre.o Nedenfor er analysen lavet med en ny variabel,
der afhænger af hvor tæt respondentens alder er på 50 år: alder3 = (2500-(50-alder)2).
Coefficientsa
-255,787 42,194 -6,062 ,000,247 ,019 ,302 13,300 ,000
(Constant)alder3
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: persind2a.
Opgave 2o Datafilen ”Hovedstadsomraadet …” benyttes.o Vi så i den forrige opgave, at sammenhængen mellem rejselængder
og boliglokaliseringer snarere synes at være kurveformet end lineær.
o Så længe boligens afstand fra Københavns centrum er forholdsvis moderat, stiger rejselængden med bil ret markant, jo længere væk fra centrum man bor. Men blandt dem, der bor langt væk fra centrum, ser en yderligere forøgelse af centrumsafstanden ikke ud til at hænge sammen med forøget rejselængde med bil – snarere tvært imod.
o Lav separate regressionsanalyser for de respondenter, der bor indtil 30 km fra Københavns centrum, og dem, der bor mere perifert. Respondenter med ekstreme rejselængder skal fortsat holdes uden for analysen. Hvad fortæller disse resultater?
Transformation for at opnå linearitet
o Transformation ved logaritmiske funktioner tillægger generelt værdier i en ende af skalaen mere vægt end i den anden ende.
o Dette kunne evt. være en mulig justering i forrige opgave, da indflydelsen ikke synes at være så stor for respondenter, der bor langt væk fra centrum.
Avstand fra Oslo sentrum (km)
20100
Gj.s
n. b
ebyg
gels
espr
osen
t i lo
kalo
mrå
det
2,5
2,0
1,5
1,0
,5
0,0 Rsq = 0,5442
Avstand fra Oslo sentrum (km)
2010
86
42
1,8
,6,4
,2
Gj.s
n. b
ebyg
gels
espr
osen
t i lo
kalo
mrå
det
2,5
2,0
1,5
1,0
,5
0,0 Rsq = 0,7413
Logaritmen til avstanden i km til sentrum
1,51,0,50,0-,5-1,0G
j.sn.
beb
ygge
lses
pros
ent i
loka
lom
råde
t
2,5
2,0
1,5
1,0
,5
0,0 Rsq = 0,7413
Eksempel 3o For at tage højde for, at sammenhængen mellem boligens centrumsafstand og
rejselængden med bil ikke er lineær, vil vi transformere rejselængderne ved hjælp af en ikke-lineær funktion.
o Vi prøver først at lave en ny variabel med 10-tals logaritmen af rejselængden med bil på hverdage. Benyt transform/compute variable til dette. Vi kalder den nye variabel lgbilrejs.
o Vi laver nu et nyt spredningsdiagram med lgbilrejs langs den vertikale akse og centafs langs den horisontale akse, og bruger SPSS til at indtegne regressionslinien. Respondenter med ekstreme rejselængder skal fortsat være udeladt. Vi udfører også en ny regressionsanalyse med lgbilrejs som den afhængige variabel og centafs som den uafhængige variabel. Er der ændringer i modellens forklaringskraft (R2) og i den standardiserede regressionskoefficient?
o Vi undersøger hvad der sker, hvis vi i stedet transformerer den uafhængige variabel (boligens afstand fra centrum). Vi laver en ny variabel lgcentafs, som er den briggske logaritme til centafs, og udfører tilsvarende analyser som i forrige eksempel, men med ordinært målte rejselængder.
Opgave 3o I studiet i Hovedstadsområdet blev også respondenternes samlede
rejselængde med alle typer af transportmidler i løbet af ugens hverdage undersøgt. Denne variabel blev benævnt hverdtot.
o Brug desciptive/explore til at identificere respondenter med ekstremt lange samlede rejselængder i løbet af hverdagene, og fravælg disse respondenter.
o Lav et spredningsdiagram for sammenhængen mellem centafs og hverdtot, og derefter et tilsvarende diagram for sammenhængen mellem lgcentafs og hverdtot. Brug i begge tilfælde SPSS til at indtegne regressionslinien.
o Udfør regressionsanalyser af sammenhængene mellem centafs og hverdtot, og mellem lgcentafs og hverdtot. Er R2-koefficienten og den standardiserede regressionskoefficient blevet forhøjet, sammenlignet med analyserne baseret på ordinært målte centrumsafstande?
o Hvad kan evt. forskelle forklares ved?
Eksempel 4o Baseret på teoretiske overvejelser såvel som foreløbige analyser af det
empiriske datamateriale, fandt forskerne, at sammenhængen mellem boligens afstand fra Københavns centrum og rejselængderne bedst kunne beskrives, hvis centrumsafstanden transformeredes ved hjælp af en funktion sammensat af en hyperbolsk tangensfunktion og en kvadratisk funktion. Lav en sådan ny, transformeret centrumsafstandvariabel, afstfun2, baseret på den følgende funktion: afstfun2 = (Exp(centafs*0.18 – 2.85) - Exp( -(centafs*0.18 – 2.85))) / (Exp(centafs*0.18 – 2.85) + Exp( - (centafs*0.18 – 2.85))) – (0.00068*( centafs – 42)*(centafs – 42) – 2.8).
o Lav et spredningsdiagram for sammenhængen mellem afstfun2 og hverdtot, og brug SPSS til at indtegne regressionslinien. Respondenter med ekstreme rejselængder skal fortsat være udeladt.
o Udfør en regressionsanalyse af sammenhængen mellem afstfun2 og hverdtot. Er R2-koefficienten og den standardiserede regressionskoefficient blevet forhøjet, sammenlignet med analyserne baseret på ordinært målte og logaritmisk målte centrumsafstande?
Multipel lineær regressionsanalyse
Model: y=a1x1+a2x2+…+anxn+b
Alder
Uddannelse
Indtægt
Multipel lineær regressionsanalyseCoefficientsa
-255,787 42,194 -6,062 ,000,247 ,019 ,302 13,300 ,000
(Constant)alder3
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: persind2a.
Coefficientsa
33,630 19,518 1,723 ,08518,974 1,324 ,329 14,334 ,000
(Constant)skoleaar
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: persind2a.
Coefficientsa
-474,678 44,266 -10,723 ,000,231 ,018 ,278 12,622 ,000
17,993 1,269 ,312 14,180 ,000
(Constant)alder3skoleaar
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: persind2a.
Multipel lineær regressionsanalyse
Model Summary
,302a ,091 ,090 215,40723Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), alder3a.
Model Summary
,329a ,109 ,108 211,88025Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), skoleaara.
Model Summary
,432a ,187 ,186 202,42646Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), skoleaar, alder3a.
Med flere variable stiger R2 som regel, men ikke nødvendigvis den tilpassede R2.
Hvis antallet af variable er ligeså stort som antallet af observationer, så vil R2 altid være lige med 1, og man bør derfor se på den tilpassede R2 ved mange observationer.
Opgave 4o Udfør en multipel regressionsanalyse af følgende uafhængige variablers
effekter på den samlede rejselængde i løbet af ugens hverdage (hverdtot):o Boligens ikke-lineært målte beliggenhed i forhold til Københavns centrum (aftstfun2).o Uddannelseslængde (skoleaar).o Personlig årsindtægt (persind2).o Hvorvidt respondenten er erhvervsaktiv (erhvakt).o Hvorvidt tjenesterejser indgår som en del af den rapporterede rejselængde (erhvrejs).o Alder, målt som den transformerede variabel, der angiver hvor tæt på 50 år
respondenten er (alder3) .o Respondenter med ekstreme rejselængder skal udelades fra analysen.o Hvilke variable har de stærkeste sammenhænge med rejselængden i løbet
af ugens hverdage?o Udfør samme analyse igen, men denne gang på hhv. mænd og kvinder.o Hvilke kønsspecifikke forskelle kan vi se ud fra resultaterne?
Modelsøgningo Enter:
• Manuel modelsøgning. Giver god kontrol over modellen, men kræver indsigt og overblik. Tager også længere tid.
o Forward:• Starter med en tom model og inkluderer herefter variable
baseret på deres partielle korrelationer.o Backward:
• Starter med en mættet model og ekskluderer herefter variable baseret på deres signifikansniveau.
o Stepwise:• Som forward, men undersøger løbende om der er ikke-
signifikante variable i modellen og ekskluderer dem.