ktisat Bölümü EKONOMETR İ I Ders Notları - yildiz.edu.trtastan/teaching/ch6_handout3.pdf ·...

27
YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları Ch. 6: Multiple Regression Analysis: Further Issues, J.M. Wooldridge Introductory Econometrics 1 Ch. 6: Çok Deği şkenli Regresyon Analizinde Ek Konular Yıldız Teknik Üniversitesi İktisat Bölümü Ekonometri I Ders Notları Ders Kitabı: J.M. Wooldridge, Introductory Econometrics A Modern Approach, 2nd. ed., 2002, Thomson Learning. Çok Deği şkenli Regresyon Analizinde Ek Konular Bu bölümde aşağıdaki konuları inceleyeceğiz: Veri ölçeğinin (data scaling) tahminlere etkisi Fonksiyonel kalıp ile ilgili ek konular – Karesel (quadratic) modeller – Etkileşim terimli (interaction term) modeller Regresyonda uyumun iyili ği ölçüleri ve deği şkenlerin seçimi – Düzeltilmiş R 2 Kestirim ve kalıntı analizi Veri ölçeğinin (data scaling) tahminlere etkisi • Modelde yer alan deği şkenlerin ölçü birimlerini deği ştirdi ğimizde bunun sabit (intercept) ve eğim (slope) katsayıları üzerinde nasıl etki yarattığını daha önce (CH.2) görmüştük. imdi, ölçü birimi deği ştirmenin standart hatalar (SE), t istatisti ği, F istatisti ği ve güven aralıkları üzerinde meydana getireceği etkileri görelim.

Transcript of ktisat Bölümü EKONOMETR İ I Ders Notları - yildiz.edu.trtastan/teaching/ch6_handout3.pdf ·...

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Ch. 6: Multiple Regression Analysis: Further Issues, J.M. Wooldridge Introductory Econometrics 1

Ch. 6: Çok Değişkenli Regresyon Analizinde Ek

Konular

Yıldız Teknik Üniversitesiİktisat Bölümü Ekonometri I Ders NotlarıDers Kitabı: J.M. Wooldridge, Introductory Econometrics A Modern Approach, 2nd. ed., 2002, Thomson Learning.

Çok Değişkenli Regresyon Analizinde Ek Konular

Bu bölümde aşağıdaki konuları inceleyeceğiz:• Veri ölçeğinin (data scaling) tahminlere etkisi

• Fonksiyonel kalıp ile ilgili ek konular– Karesel (quadratic) modeller

– Etkileşim terimli (interaction term) modeller

• Regresyonda uyumun iyiliği ölçüleri ve değişkenlerin seçimi– Düzeltilmiş R2

• Kestirim ve kalıntı analizi

Veri ölçeğinin (data scaling) tahminlere etkisi

• Modelde yer alan değişkenlerin ölçü birimlerini değiştirdiğimizde bunun sabit (intercept) ve eğim (slope) katsayıları üzerinde nasıl etki yarattığını daha önce (CH.2) görmüştük.

• �imdi, ölçü birimi değiştirmenin standart hatalar (SE), t istatistiği, F istatistiği ve güven aralıkları üzerinde meydana getireceği etkileri görelim.

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Ch. 6: Multiple Regression Analysis: Further Issues, J.M. Wooldridge Introductory Econometrics 2

Data scaling (devam)

• Değişkenlerin ölçü birimlerini değiştirmek, katsayılardaki fazla sıfırları yok etmek gibi “regresyonun görünümünü iyileştirmek ve yorumunu kolaylaştırmak” amacıyla yapılır.

• Regresyonun özünü değiştirmez, tüm test sonuçları ve bulgular aynı kalır.

• Ölçü birimlerinin regresyon parametrelerine etkisini bir örnek üzerinde görelim.

• Örnek: yeni doğan bebeklerin ağırlıklarını belirleyen faktörler

Data scaling: örnek

Birimler :Bwght: ounces (1 ounce=28.35 gr),Bwghtlbs: pounds (lbs), 1 pound=16 ounces= 454 grFaminc : bin $ (000$)

Bwght Model Tahmin Sonuçları

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Ch. 6: Multiple Regression Analysis: Further Issues, J.M. Wooldridge Introductory Econometrics 3

Bağımlı değişkenin birimini 16’ya bölerek ounce ‘dan pound’a çevirelim :

• (6.1) deki regresyonun her iki tarafını 16’ya bölelim:

• Görüldüğü gibi, pound cinsinden yeni regresyonun (Tabloda 2.ci sütun) tüm katsayıları ounce cinsinden olan regresyonun (Sütun 1) katsayılarının 1/16’sına eşittir.

• Ancak, beta katsayıları aynı enformasyonu vermektedir. Örneğin, annenin bir günde içtiği sigara sayısı bir birim (bir adet) artığında, bebeğin ağırlığı ilk regresyonda 0.4634 ounces, ikinci regresyonda 0.0289 pound azalmaktadır. Bunlar aynı şeydir.

devam

• Değişkenlerin ölçü birimini değiştirmek betaların anlamlılık düzeyini etkilemez.

• Tablodan görüldüğü gibi, ounce’dan pound’a geçildiğinde betaların standart hataları da 16’ya bölünmekte ve böylece t değerleri aynı kalmaktadır.

• se(cigs) ilk regresyonda 0.0916, ikinci regresyonda 0.0916/16=0.0057 dir.

• t(cigs)=-0.4634/0.0916= -0.0289/0.0057=-5.05

devam

• 2.ci regresyonda güven aralığının alt ve üst limitleri 1.ci regresyondakinin 1/16 katıdır :

• Değişkenlerin ölçü biriminin değişmesi determinasyon katsayısı R2’yi etkilemez.

• Buna karşılık SSR ve SER [(standard error of the regression,σ(u)] ölçü birimine göre değişmektedir:

• Diğer her şey aynı iken, y’yi c sayısı ile bölmüşsek (burada c=16), SSR c2 (ckare)’ye, SER ise c’ye bölünecektir.Tablo 6.1’in ilk iki sütunundan bunu görebiliriz.

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Ch. 6: Multiple Regression Analysis: Further Issues, J.M. Wooldridge Introductory Econometrics 4

devam

• y, c ile (c=16) bölündüğünde, artık terimler (u hat) de c ile bölünmüş olacak, böylece ukare’ler (SSR) ckare’ye (256) bölünmüş olacaktır:

• SER ise, SSR’nin kare kökünden bulunduğu için, c ile bölünecektir :

• y’yi pound ile ölçtüğümüzde uhat’lerin st.sapması y’nin ounce ile ölçüldüğü duruma göre 16 kat daha küçük olmaktadır. Ancak, bu azalma tamamen ölçü birimi değişikliğiyle ilgilidir. Yoksa, uhat’lerin varyansında gerçek bir azalma olduğu anlamına gelmez.

x’lerden birinin birimini değiştirelim :içilen sigarayı önce adet ve sonra paket olarak ölçelim.

• Tablo 6.1 de 1.ci ve 3.cü sütunları karşılaştıracağız. cigs değişkeni ilk regresyonda adet, 2.ci regresyonda paket (packs) ile ölçülmektedir. “Packs=cigs/20” oldu.

• y, her iki regresyonda da ounce ile ölçülmektedir.

• Görüldüğü gibi, packs ‘in betası(=-9.268) cigs’in betasının (=-0.4634) 20 katıdır.

• Standart hata da (se) benzer şekilde 20 ile çarpılmıştır. Dolayısıyla, t istatistiği ölçü birimi değişiminden etkilenmedi.

• Yukarıda görüldüğü gibi, x’lerden birinin ölçü birimini değiştirmek diğer x’lerin betalarını ve regresyon sabitini (intercept) etkilememektedir.

• Eğer, bağımlı değişken y LOG(=Ln) cinsinden verilmişse, y’nin biriminin değiştirilmesi betalarda bir değişikliğe yol açmaz (zira betalar bu halde % değişmeleri gösterecektir).

• Sadece sabit (intercept) değişir : Log(y/c)=log(y)-log(c)

• “yeni sabit = eski sabit – Log(c)”

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Ch. 6: Multiple Regression Analysis: Further Issues, J.M. Wooldridge Introductory Econometrics 5

devam

• Benzer şekilde, log cinsinden ifade edilmiş herhangi bir x’in ölçü biriminin değiştirilmesi sadece sabit’i değiştirir. Çünkü, betalar bu halde yüzde değişme ve esneklikleri gösterecektir, ki, onlar da ölçü biriminden bağımsızdırlar.

• Örnek 1: y’nin ölçü birimi değişsin:• Log(bwght)=4.74-

0.00403cigs+0.00084faminc

• Log(bwghtlbs)=1.97-0.00403cigs+0.00084faminc

• 1.97 = 4.74 – Log(16) = 4.74-2.77=1.97

Örnek 2: x’in ölçü birimi değişsin : faminc’ı 1000 ile çarpalım ($ olarak alalım)

• Bwght=113.9-0.4672cigs+1.85Log(faminc)

• Bwght=101.2-0.4672cigs+1.85Log(faminc*1000)

• 101.2=113.9- 1.85*Log(1000)=113.9-1.85*6.907=101.2

• Yani, “yeni sabit=eski sabit-1.85*Log(1000)

Standartlaştırılmış değişkenler

• Bazen, “xj, 1 birim değil de 1 standart sapma değişseydi y ne kadar değişirdi?” diye sormak ve yanıtını bilmek isteyebiliriz.

• Bu soruyu yanıtlayabilmek için regresyondaki tüm değişkenleri(y ve x’ler) standart hale getirip sonra bu standartlaştırılmış değişkenlerle regresyon tahmin etmemiz gerekir.

• Bir değişkeni, kendi ortalamasından farkını alıp standart sapmasına bölersek, o değişeni standartlaştırmış oluruz : z(y)=(y-ybar)/σ(y), z(x1)=(x1-x1bar)/ σ(x1),….

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Ch. 6: Multiple Regression Analysis: Further Issues, J.M. Wooldridge Introductory Econometrics 6

Devam

• Örnek : x1 :orijinal seri, z(x1): standardize edilmiş seri,

• xbar=26, σ(x1)=21.78X1 __z(x1)__7 -0.8723609 -0.78053312 -0.64279223 -0.13774145 0.87236060 1.561065

• z(x1) = (x1-xbar) / σ(x1) = (x1 – 26) / 21.78

• (6.2) deki orijinal SEKK (OLS) regresyonunu standart hale getirmek için,tüm gözlemler itibariyle (6.2) nin ortalamasını alalım ve kendisinden çıkaralım (uhat’lerin ortalaması sıfır idi):

Devam

• Standardize edilmiş regresyonda, (6.3), standardize edilmiş x1 değişkeninin beta katsayısı

‘ye eşittir. • Ortalamadan sapmalar alındığı için regresyonda

sabit yoktur.

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Ch. 6: Multiple Regression Analysis: Further Issues, J.M. Wooldridge Introductory Econometrics 7

devam

• b1hat’in yorumu : eğer x1 bir standart sapma artarsa, y, b1hat kadar standart sapma değişecektir.

• Böylece, x’in y üzerindeki etkisini değişkenlerin orijinal ölçü birimleriyle değil standart sapma cinsinden ölçüyoruz.

• Bu, kısmi etkilerin ölçü birimlerinden bağımsız olarak görülebilmesini ve karşılaştırılmasını sağlıyor.

• Dependent Variable: PRICE• Method: Least Squares• Date: 02/02/06 Time: 10:37• Sample (adjusted): 1 506• Included observations: 506 after adjustments••• Variable Coefficient Std. Error t-Statistic Prob.••• C 20871.13 5054.599 4.129136 0.0000• NOX -2706.433 354.0869 -7.643413 0.0000• CRIME -153.6010 32.92883 -4.664636 0.0000• ROOMS 6735.498 393.6037 17.11239 0.0000• DIST -1026.806 188.1079 -5.458603 0.0000• STRATIO -1149.204 127.4287 -9.018408 0.0000••• R-squared 0.635666 Mean dependent var 22511.51• Adjusted R-squared 0.632022 S.D. dependent var 9208.856• S.E. of regression 5586.198 Akaike info criterion 20.10577• Sum squared resid 1.56E+10 Schwarz criterion 20.15589• Log likelihood -5080.760 F-statistic 174.4733• Durbin-Watson stat 0.864650 Prob(F-statistic) 0.000000•••

Orijinal değişkenlerle regresyon

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Ch. 6: Multiple Regression Analysis: Further Issues, J.M. Wooldridge Introductory Econometrics 8

Regresyonun fonksiyonel biçimi (functional form)

• Daha önce, bağımlı ve/veya bağımsız değişkenleri doğal logaritma cinsinden ifade ederek regresyonda doğrusal-olmayan (nonlinear) ilişkilerin yakalanabileceğini görmüştük.

• Örnek :

• Burada, β1 : fiyatın, nox (hava kirliliği) esnekliğidir. β2: Oda sayısı 1 birim ( 1 oda) artınca, log(price)’da meydana gelen değişmedir. Yani, ∆rooms =1 � Log (price)’daki değişme. 100x β2, bize, fiyattaki % değişmeyi (percentage change) verecektir.

• 100x β2 ‘ ye bazen yarı-esneklik (semi-elasticity) denir.

• (6.6) nın HPRICE2.RAW veri setinden tahmini yukarıda görülüyor.

• Oda sayısını sabit tuttuğumuzda, hava kirliliği ölçüsü nox’da %1 artış olduğunda ev fiyatları %0.718azalmaktadır.Yani, fiyatların kava kirliliği esnekliği -0.718 dir (birim esneklikten daha küçük).

• Hava kirliliği aynı kalmak koşuluyla, oda sayısında 1 odalık artış ev fiyatlarını 100x0.306 = %30.6artırmaktadır.

• Log(y) ‘deki değişme büyüdükçe “%∆y ≈ 100x ∆Log(y)” eşitliği bozulur ve önemli miktarda bir yakınsama hatası (approximation error) ortaya çıkar. Bu durumda, y’deki % değişmeyi tam olarak şöyle hesaplayabiliriz:

devam

• Modelimiz şöyleydi :• X1’i sabitlediğimizde şunu elde ederiz:

• ∆x2=1 iken,

• Bu son formülde, β2hat = 0.306 konursa, %∆price=100x [exp(0.306)-1]=%35.8 bulunur.

• Exp(…) bir doğrusal-olmayan (nonlinear) fonksiyon olduğu için bulunan 0.358 katsayısı sapmasız (unbiased) değildir. Ancak, tutarlı (consistent) bir tahmin edicidir. Zira,olasılık limiti (probability limit) sürekli fonksiyonlarda geçerliliğini korurken, beklenen değer (E) koruyamaz.

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Ch. 6: Multiple Regression Analysis: Further Issues, J.M. Wooldridge Introductory Econometrics 9

LOG kullanmanın avantajları

• Negatif-olmayan değerler alan bir bağımlı değişkeni (y>0) logaritmik olarak ifade etmek pek çok avantaj sağlar :

• Betalar, bu halde, x’lerin ölçü birimlerinden bağımsız olarak, esneklik ya da yarı-esneklik şeklinde tahmin edilir.

• y>0 iken, Log (y), CLM varsayımlarının sağlanması açısından, y serisine kıyasla çok daha elverişlidir. y>0 düzey (level) değişkeni genellikle heteroscedastic ve çarpık (skewed) bir koşullu dağılıma sahiptir. Logaritma alınması çarpıklığı azaltır ve varyansdaki değişmeyi yumuşatır.

devam

• Log alınması değişkenin aralığını (range) büyük ölçüde düşürür. Bu ise, tahmin edicilerin aşırı uç değerlerden (outliers) fazla etkilenmemesini sağlar.

• Ücret, gelir, nüfus, üretim, satışlar vb gibi pozitif sayılar şeklindeki değişkenleri regresyona genellikle düzey (level) olarak değil logaritmik olarak sokarız.

• İşsizlik oranı, faiz oranı, herhangi bir projeye vs katılma oranı gibi oranları genellikle düzey olarak regresyona dahil ederiz. Ancak, her gözlemi >0 olan oranların bazen Log biçiminde regresyona sokulduğu da görülmektedir.

devam• Oranlar (işsizlik oranı, örneğin) düzey olarak

alınmışsa, yorum yaparken, “işsizlik oranında bir birimlik (= yüzde 1 puanlık, a percentage point increase) artış olduğunda” deriz.

• Oran Log olarak (Log(işsizlik oranı)) alınmışsa, “işsizlik oranında %1’lik (a percentage increase) artış olduğunda” diye yorumlarız.

• İşsizlik oranı düzey olarak %8 den %9’a yükselmişse, artış %1 puandır. Ama yüzde artış olarak Log(9)-Log(8)=0.1177=%11.77 ‘lik bir artış olmuştur. İkisinin birbirine karıştırılmaması gerek.

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Ch. 6: Multiple Regression Analysis: Further Issues, J.M. Wooldridge Introductory Econometrics 10

devam• Seri ≥0 şeklinde ise, yani pozitif sayıların

yanında bazı gözlemler sıfır değerini de alıyorsa Log kullanamayız, zira Log(0) tanımlanamaz.

• Bu halde, y serisini Log (y) ‘ye çeviremeyiz, ancak, Log(1+y) serisini Log(y) yerine kullanabiliriz. Eğer seride 0 değeri seyrek ise bu yola başvurabiliriz. Bu durumda betaların yorumu yine Log (y) kullanıldığındaki gibidir. Büyük bir fark oluşmamaktadır.

• Bağımlı değişkenleri Log(y) ve y olan iki regresyonun R2’leri doğrudan karşılaştırılamaz. Gerekli dönüşürme işlemlerini yapmamız gerek.

Karesel (quadratic) modeller

• Değişkenlerin marjinal etkileri sabit değil de artan ya da azalan türde ise karesel modeller kullanmalıyız.

• Bu durumda, eğim, ∆y/∆x, sabit değil, x’in düzeyine bağlıdır:

devam

• Ekonomik değişkenlerde genellikle β1>0, β2<0 çıkar. örnek:

• Bu regresyon, tecrübenin ücretler üzerinde azalan (diminishing) bir etki yarattığını gösteriyor. Türevi : d(wage)/d(exper) = 0.298 - 0.0122exper

• İlk 1 yıllık tecrübe 0.298$=30 cent ‘lik bir ücret artışı (saat başına ücretlerde) getirirken, 2.ci yıldaki tecrübe(x=1 konacak),

0.298-0.0122(1)=0.286$ ‘lık artış yaratıyor.

• Tecrübe 10.cu yıldan 11’e geçerken 0.298-0.0122(10)=0.176 $ ‘lık artış sağlıyor.

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Ch. 6: Multiple Regression Analysis: Further Issues, J.M. Wooldridge Introductory Econometrics 11

β1>0 ve β2<0 iken karesel fonksiyon parabol şeklindedir. Eğimin (katkının) negatife geçişi

“ |β1 / 2β2 |” noktasına rastlar.

β1<0 ve β2>0 iken karesel fonksiyon U şeklindedir

devam• Ev fiyatları regresyonunda oda sayısının

katkısının negatiften pozitife geçtiği nokta 0.545 / (2x0.062) = 4.4 odadır.

• Rooms değişkeninin 4.4 den küçük değer aldığı gözlemler görece olarak az sayıda ise eğrinin negatif eğilimli ilk kısmı ihmal edilebilir, sadece ikinci kısmı kullanılır.

• N=506 evden sadece 4’ünde oda sayısı 4.4 ün altındadır. Dolayısıyla eğrinin negatif eğimli ilk kısmını atabiliriz.

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Ch. 6: Multiple Regression Analysis: Further Issues, J.M. Wooldridge Introductory Econometrics 12

devam

• İlave bir odanın fiyatlarda yaratacağı % değişme :

Değişken esneklik

• Log-Log regresyona [Log(x)]2 terimini ekleyerek x’in düzeyine bağlı (değişken) esneklik tanımlayabiliriz. Örnek :

Kübik fonksiyonlar

• Toplam maliyet (total cost) için şu model kullanılabilir :

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Ch. 6: Multiple Regression Analysis: Further Issues, J.M. Wooldridge Introductory Econometrics 13

Karşılıklı etkileşim (interaction) terimi içeren modeller :

• Bazen y’nin x1’e göre esnekliği ya da yarı-esnekliği bir başka x’e (x2 diyelim) bağlı olabilir. Örnek :

devam

• Eğer β3>0 ise, ilave bir odanın ev fiyatlarına katkısı evin büyüklüğüne (sqrft) bağlı olacaktır. Büyük evlerde bu katkı daha büyük, küçük evlerde daha küçük olacaktır.

• Yani, oda sayısı ile ev alanı değişkenleri arasında bir “karşılıklı etkileşme” (interaction effect) söz konusudur.

• (6.17) de oda sayısının fiyatlara katkısı sqrftyerine bu değişkenin çeşitli değerleri (ortalaması, medyan ya da birinci ve sonuncu çeyrek yüzde değerleri vb. gibi) konarak somutlaştırılabilinir..

(6.18) in tahmini : veri seti attend.gdt

• Stndfnl : standardize edilmiş öğrenci final notu { (xbar-µ) / σ}; atndrte :devamlılık oranı (%) ; priGPA : önceki sınıfların ortalama notu (4 üzerinden); ACT: genel yetenek notu,

• Atndrte’nin katsayısı (-0.0067), denklemde interaction terimi olduğu için priGPA=0 iken geçerli olan etkiyi ölçüyor. PriGPA serisinde ise sıfır bulunmamaktadır, dolayısıyla, β1’in negatif işaretli olması önemli değildir. Bu katsayı tek başına devamlılığın etkisini ölçmüyor.

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Ch. 6: Multiple Regression Analysis: Further Issues, J.M. Wooldridge Introductory Econometrics 14

• Derse devamın finale etkisini β6 veriyor. β1 ve β6 tek tek t testini geçemedikleri halde ikisinin aynı anda sıfır olduğu testi (Ho: β1=β6=0 , F testi) reddedilmektedir.

• Bu regresyonda atndrte’nin stndfnl üzerindeki kısmi etkisini (partial effect) nasıl ölçeceğiz ? Bunun için interaction terimindeki 2.ci değişken olan priGPA yerine somut bir değer koymamız gerek. Genellikle söz konusu değişkenin ortalama ya da medyan değeri kullanılır. priGPA’nın ortalaması 2.59 dur.

• Regresyonun atndrte’e göre kısmi türevini alır ve priGPA=2.59 koyarsak devam oranının final notu üzerindeki etkisini bulmuş oluruz:

-0.0067+0.0056(2.59)=0.0078

• Yani, devam oranında yüzde 10 puanlık bir artış stndfnl değişkeninde 0.078 standart sapma kadar bir artış yaratır.

• Peki, bu 0.0078’lik kısmi etkinin istatistiksel olarak anlamlı olup olmadığını nasıl bileceğiz?

• İnteraction değişkenini “(priGPA-2.59)*atndrte” ile değiştirip regresyonu yeniden tahmin edeceğiz.

• Bu yeni regresyonda atndrte’nin katsayısı (β1), devam oranının, priGPA=2.59 iken, final notuna ne kadar kısmi etki yaptığını (ki bu 0.0078 idi) verecektir.

• Yeni regresyonda β1’in t değeri devam oranının kısmi etkisinin sıfırdan farklı olup olmayacağını verecektir.

(6.19) u interaction terimini değiştirerek yeniden

tahmin edelim:

• Dependent Variable: STNDFNL•• Included observations: 680 after adjustments

• Variable Coefficient Std. Error t-Statistic Prob.••• C 2.050293 1.360319 1.507215 0.1322• ATNDRTE 0.007755 0.002639 2.938125 0.0034• PRIGPA -1.62854 0.481002 -3.385720 0.0008• PRIGPA 2̂ 0.295905 0.101049 2.928314 0.0035• ACT -0.12803 0.098492 -1.299998 0.1940• ACT 2̂ 0.004533 0.002176 2.082939 0.0376• (PRIGPA-2.59)*ATNDRTE0.0055860.004317 1.293817 0.1962••• R-squared 0.228654 Mean dependent var 0.029659•

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Ch. 6: Multiple Regression Analysis: Further Issues, J.M. Wooldridge Introductory Econometrics 15

Değişkenlerin ortalamaları düzeyinde priGPA’nın kısmi etkisinin bulunması

• priGPA kare ve interaction değişkenlerini şöyle değiştireceğiz:

• Dependent Variable: STNDFNL•• Sample (adjusted): 1 680• Included observations: 680 after adjustments

•• Variable Coefficient Std. Error t-Statistic Prob.••• C 0.065335 1.446060 0.045182 0.9640• ATNDRTE -0.006713 0.010232 -0.656067 0.5120• PRIGPA -0.091174 0.363261 -0.250987 0.8019(PRIGPA-2.59) 2̂ 0.295905 0.101049 2.928314 0.0035• ACT -0.128039 0.098492 -1.299998 0.1940• ACT 2̂ 0.004533 0.002176 2.082939 0.0376• (PRIGPA)*(ATNDRTE-0.82)

0.005586 0.004317 1.293817 0.1962••• R-squared 0.228654 Mean dependent var 0.029659•

Uyumun derecesinin ölçüsü: R2 (kare)

• R2, “ana kitlede, y’deki değişimin, x1, x2,…, xktarafından açıklanan yüzdesinin bir tahmini” dir. Dolayısıyla, R2’nin düşük çıkması SEKK (OLS) varsayımlarının ihlal edildiği vb gibi anlamlara gelmez.

• Bağımsız değişken sayısı (x) arttıkça R2

yükselir. Dolayısıyla, uygun regresyonu seçerken R2’nin kullanımı sınırlı olacaktır.

• Ancak, F testinden hatırlanacağı üzere, yeni bir değişken eklerken R2’deki görece artış karar kriterimizi oluşturmaktadır.

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Ch. 6: Multiple Regression Analysis: Further Issues, J.M. Wooldridge Introductory Econometrics 16

Düzeltilmiş R2 (adjusted R kare)

• R2’ yi şöyle tanımlıyorduk :R2= 1- (SSR / SST) (3.28)

• Son terimin pay ve paydasını n’e bölelim :R2= 1 – {(SSR/n) / (SST/n)} =

• Demek ki, R2, ana kitlede y’deki değişmenin x’lerce açıklanan kısmıdır.

• Ancak, SSR/n ve SST/n ‘nin sapmalı (biased) tahmin ediciler olduğunu biliyoruz. Onların yerine şu sapmasız tahmin edicileri kullanacağız : SSR / (n-k-1) ve SST / (n-1)

devam

• Bu sapmasız tahmin edicileri kullanarak düzeltilmiş R2’yi şöyle tanımlayacağız :

• Düzeltilmiş R2, R-bar kare olarak da adlandırılır.

• Çoğu kez R-bar karenin, ana kitle R2’sinin sapmasını düzelttiği sanılır. Oysa R-bar kare R2’nin sapmasız tahmin edicisi değildir. “İki sapmasız tahmin edicinin oranı sapmasız bir tahmin edici değildir”.

• Yeni bir değişken eklendiğinde, SSR düşerken serbestlik derecesi n-k-1 ‘ de düşer (k arttığı için).

• Dolayısıyla, yeni bir değişken eklendiğinde R2

daima arttığı halde (SSR düştüğü için), R-bar kare artabilir de azalabilir de.

• Bu yüzden, yeni değişkeni regresyona dahil edip etmemeye karar verirken R2’ yi değil, R-bar kareyi kullanacağız.

• Yeni bir x değişkeni eklendiğinde R-bar kare, ancak ve ancak, bu yeni değişkenin katsayısının t değeri mutlak olarak 1’ den büyükse artar.

• Bunu genelleştirirsek, bir gurup x değişkenleri regresyona eklendiğinde, eğer bu yeni değişkenlerin ortak (joint) anlamlılık testinde F istatistiği 1’den büyükse R-bar kare artacaktır, aksi halde artmayacaktır.

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Ch. 6: Multiple Regression Analysis: Further Issues, J.M. Wooldridge Introductory Econometrics 17

Örnek

• Dependent Variable: LPRICE

• Included observations: 506 after adjustments•• Variable Coefficient Std. Error t-Statistic Prob.

•• C 8.953481 0.181147 49.42664 0.0000• LNOX -0.304841 0.082164 -3.710157 0.0002• PROBTAX -0.007607 0.000978 -7.780075 0.0000• ROOMS 0.288707 0.018119 15.93432 0.0000••• R-squared 0.566042 Mean dependent var 9.941057• Adjusted R-squared 0.56344 S.D. dependent var 0.409255•

• Dependent Variable: LPRICE (CRIME eklendi)

•• Included observations: 506 after adjustments

• Variable Coefficient Std. Error t-Statistic Prob.••• C 8.855318 0.172131 51.44515 0.0000• LNOX -0.275421 0.077951 -3.533245 0.0004• PROBTAX -0.004222 0.001027 -4.109041 0.0000• ROOMS 0.281587 0.017194 16.37713 0.0000• CRIME -0.012489 0.001639 -7.621883 0.0000••• R-squared 0.611133 Mean dependent var 9.941057• Adjusted R-squared 0.608028 S.D. dependent var 0.409255• S.E. of regression 0.256225• Sum squared resid 32.89123•

• Dependent Variable: LPRICE(CRIME ve STRATIO eklendi)

• Included observations: 506 after adjustments

• Variable Coefficient Std. Error t-Statistic Prob.

• C 9.767490 0.222071 43.98365 0.0000• LNOX -0.355701 0.076315 -4.660952 0.0000• PROBTAX -0.001852 0.001063 -1.742785 0.0820• ROOMS 0.251409 0.017290 14.54053 0.0000• CRIME -0.012232 0.001581 -7.735139 0.0000• STRATIO -0.037070 0.005992 -6.186787 0.0000•• R-squared 0.638785 Mean dependent var 9.941057• Adjusted R-squared 0.63517 S.D. dependent var 0.409255• S.E. of regression 0.24719 Sum squared resid 30.55237

• Wald Test: Ortak anlamlılık testi (joint significance test)

•• Test Statistic Value df Probability• F-statistic 50.34589 (2, 500) 0.0000• Chi-square 100.6918 2 0.0000•

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Ch. 6: Multiple Regression Analysis: Further Issues, J.M. Wooldridge Introductory Econometrics 18

• R-bar karenin R2 cinsinden ifadesi (6.22) verilmektedir.

• Bir önceki regresyonda R2=0.6387, n=506, k=5 konursa; R-bar kare=0.6351 olarak bulunur.

• R2’nin sıfıra yakın değerleri için R-bar kare negatif çıkabilir. Bu durumda R-bar kareyi sıfır olarak alabiliriz.

• F testi yaparken kullandığımız (4.41) nolu formülde R2’yi kullanmaktayız. R-bar kare kullanılmaz burada.

Birbirinin içerisine yuvalanmış(nested) ve yuvalanmamış (nonnested) modeller

• Yuvalanmış (nested) modeller :

y = βo + β1x1 + β2x2 + β3x3 + β4x4 + u

y= βo + β1x1 + β2x2

• 2.ci model 1.cinin özel bir halidir ve onun içinde yuvalanmıştır. Ortak anlamlılık (joint significance) F testinde bu tür modellerle çalışıyorduk.

• Yuvalanmamış (nonnested) modeller :

• Bu regresyonlar birbirlerinin özel hali değildir. Farklı x içermektedirler.

• Bu tür yuvalanmamış regresyonlar arasında seçim yaparken R-bar karelerini kıyaslayarak karar verebiliriz.

• Bağımlı değişkenleri aynı (y) olan iki regresyondan birisi az, diğeri çok sayıda x ihtiva etsin. Her şey aynı iken kısa (basit)model daha üstündür. Buna parsimonious principle denir.

• Bu tür modellerin R-bar karelerini kıyaslayarak model seçebiliriz.

y = βo + β1x1 + β2x2 + β3x3 + uy = βo + β1x1 + β2x2 + β4x4 + u

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Ch. 6: Multiple Regression Analysis: Further Issues, J.M. Wooldridge Introductory Econometrics 19

• Bağımlı değişkenin farklı fonksiyonel biçimde yer aldığı (birinde y, diğerinde log (y) gibi) regresyonların R2 ve R-bar karelerini kıyaslayamayız.

• Çünkü, R2, bağımlı değişkendeki toplam değişmenin açıklanan kısmıdır ve bu değişme y’ninele alınış biçimine göre değişecektir.

Kontrol etmemiz gereken x’ler

• Nasıl önemli bir değişkeni regresyon dışında bırakmak bir hata ise, bazı durumlarda belirli değişkenleri regresyona sokmak da hatadır.

• Örneğin, ABD de eyaletlerde bira tüketimi üzerine konan vergilerin trafik kazalarına etkisi olup olmadığını araştıralım.

• Bu durumda tax değişkenini regresyona alırken bira tüketimi değişkenini (beercons) almamamız gerek. Zira, beercons’ını kontrol ettiğimizde tax değişkeninin katsayısı “ bira tüketimi aynı olan iki eyalette tax’i %1 puan artırdığımızda kazalar ne kadar artar?” sorusunun yanıtını verecektir. Oysa bizi ilgilendiren bu değildir.

• Bizim ilgilendiğimiz şey, tax’de %1 puan artışın kazaları nasıl etkilediğidir.Onun için bira tüketimini kontrol etmememiz gerek.

• Hangi etkenleri (faktörleri) kontrol etmemiz, hangilerini etmememiz gerektiği konusu her zaman açık değildir.

• Örneğin, okul kalitesi (Scqual) ve alınan eğitim süresi (EDUC) aynı regresyona x olarak giriyor. Eğer, iyi okul kalitesi zaten zorunlu olarak eğitim süresinin uzun olmasını gerektiriyorsa ve aralarında böyle bir ilişki varsa bizim EDUC değişkenini regresyona sokmamamız lazım.

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Ch. 6: Multiple Regression Analysis: Further Issues, J.M. Wooldridge Introductory Econometrics 20

Yeni açıklayıcı değişkenler eklenmesi Var (u)’yu azaltır.

• Yeni bir açıklayıcı değişken bir yandan artıkların varyansını, σ2(u), azaltırken, diğer yandan eğer mevcut x’lerle ilişkili ise çoklu-bağıntıyı artırabilir.

• Bu nedenle yeni değişken eklerken çoklu-bağıntı yaratılıp yaratılmadığına dikkat etmek gerekir.

• y ile ilişkili, dolayısıyla da, Var(u)’yu düşüren yeni bir değişken eğer diğer x’lerle ilişkisiz ise mutlaka regresyona alınmalıdır.

• Örneğin, bira tüketiminin fiyat esnekliğini tahmin etmek isteyelim. Log(beercons)=βo + β1Log(price) + u

• Bu regresyona tüketicilerin bireysel karekteristikleriyle ilgili değişkenler eklersek (yaş, eğitim vs.) bu değişkenler hem bira talebiyle ilişkili hem de fiyatla ilişkisiz oldukları için hata terimlerinin varyansını büyük ölçüde düşürebilecektir.

SEKK(OLS) regresyonundan elde edilen tahminler

için güven aralığı oluşturmak (confidence intervals for

predictions of E(y|x1,…, xk)):

• Regresyonda x değişkenlerinin belli somut değerlerine (c1, c2,…., ck) karşılık gelen tahmini y değeri olsun :

• Teta (o) için bir güven aralığı oluşturabilmemiz için onun standart sapmasını bilmemiz gerektir. Bu takdirde, %95’lik bir güven aralığı şöyle olacaktır: “tetahat ± 2*se(tetahat)”.

• (6.28) dan,

• β(o)’ ı çekip şu denklemde yerine koyalım :

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Ch. 6: Multiple Regression Analysis: Further Issues, J.M. Wooldridge Introductory Econometrics 21

• (6.31) deki regresyonda sabit terim teta(o) ‘a eşittir ve dolayısıyla onun standart hatası da teta(o)’ın st hatasıdır.ÖRNEK: (6.32) deki regresyonda sat=1200, hsperc=30, hsize=5 değerleri için bağımlı değişkenin değerini tahmin edelim ve %95’lik güven aralığı kuralım:(hsrank:rank in class; hsize:size of class; hsper:100*(hsrank/hssize)

• x’leri verilen değerlerden çıkararak yeni değişkenler elde edeceğiz ve regresyonu bu yeni değişkenlerle tekrar tahmin edeceğiz :

• colGPA’nın verilen x değerleri için tahmini bu regresyonun sabitidir : 2.700

• %95 Güv Aralığı: 2.70 ± 1.96 (0.020)={2.66, 2.74}.

• Tahminin (tetahat) varyansı en düşük noktasına x değişkenlerini kendi ortalamalarına eşitlediğimizde ( ) ulaşacaktır.

• c(j) ‘ler, x ortalamalarından ne kadar çok uzak değerleri alırsa bulunan tetahat tahminlerinin varyansı da o kadar büyük olacaktır.

• Yukarıda, verilen belli x değerleri için bağımlı değişkenin koşullu beklenen değeri-ortalaması- için güven aralığı oluşturduk. �imdi ise, orijinal örnekte yer almayan yeni bireysel y’ler için güven aralığı oluşturalım.

• Bireysel tahminler için güven aralığında hem yhat(o)’ın varyansı hem de artık terim u’ların varyansı rol oynayacaktır.

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Ch. 6: Multiple Regression Analysis: Further Issues, J.M. Wooldridge Introductory Econometrics 22

• orijinal örnekte yer almayan yeni bir bireyi (kişi, firma vb.) temsil etsin.

• Onun belli x değerleri için OLS regresyonundan elde edilen tahmini :

• Tahmin hatası (prediction error):

• Sapmasızlık özelliğinden dolayı bhat’lerin beklenen değerleri betalara eşit olduğu için son denklemden tahmin hatasının beklenen değerini sıfır olarak elde ederiz :

• (6.34) den, tahmin hatasının varyansını şöyle buluruz ( ):

• örnek hacmi ile ters orantılı olduğu için, n büyüdükçe küçülür. Oysa σ2, ana kitle artıklarının varyansıdır ve n arttıkça azalmaz. Dolayısıyla, tahmin hatasının varyansını büyük ölçüde σ2 belirler.

• Tahmin hatasının standart hatası ve %95’lik güven aralığı şöyle olacaktır:

• Bireysel tahminler için bulduğumuz güven aralıkları ortalama yhat için bulduklarımızdan çok daha geniş olacaktır. Zira, (6.36) da σ2hat, Var (yhat(o)) dan çok daha büyüktür.

• Örnek : sat=1200, hsperc=30 ve hsize=5 olan bir lise öğrencisinin gelecekteki colGPA’sı için %95’lik bir güven aralığı kuralım. Yukarıdaki regresyondan se(yhat(o))=0.02, σhat=0.56. Bunları (6.36) yerine koyarsak: se(ehat(o))=0.56

• Güven aralığı: 2.70±1.96(0.56)={1.6, 3.8}• Bu oldukça geniş bir güven aralığıdır ve

muğlaklık uhat’lerin varyansının büyüklüğünden ileri gelmektedir.

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Ch. 6: Multiple Regression Analysis: Further Issues, J.M. Wooldridge Introductory Econometrics 23

• ÖRNEK:• HPRICE2.DATA’yı kullanarak değişkenlerin

ortalama değerine denk gelen yhat=Log(price)için %95’lik bir güven aralığı oluşturalım.

• Ortalamalar : lnox=1.69309, proptax=40.8237, crime=3.6115

• Regresyon: Lprice = 11.18 - 0.504 lnox - 0.0056 proptax

- 0.0095 crime.• Buradan, x ortalamaları için

lpricehat = 9.94 bulunur. Dönüştürülmüş regresyon:Lprice = 9.94 – 0.46(lnox-1.69309)-0.0056(proptax-40.8237)-0.0139(crime-3.6115).

• Se(βo)=Se(yhat)=0.0147; σhat=0.3314, G.Aralığı: 9.94±1.96(0.0147) = {9.91, 9.968}

• Antilog’larını alırsak {20,131$; 21,332$}

• Bireysel tahmin için güven aralığı: �imdi, x ortalama değerlerine sahip herhangi bir bölgede ev fiyatları tahmini için %95’lik bir güven aralığı oluşturalım:

• Dönüştürülmüş regresyondan, se(yhat)=0.0147, σhat=0.3314 değerleri burada konursa,

Se(ehat)= SQRT[0.0147*0.0147)+(0.3314*0.3314)] =0.3317

• Logprice için güven aralığı : 9.94 ± 1.96 (0.3317)= {9.289; 10.59}.

• Antilog’larını alırsak, price için G.A.: {10,818$; 39,735$}

Artıkların analizi (residual analysis)• Ev fiyatları regresyonunda artıkları inceleyerek hangi

evlerin regresyonun öngördüğü fiyattan daha yüksek (overvalued), hangi evlerin daha düşük (undervalued) fiyatlandırıldığını görebiliriz.

• Burada, y : istenen fiyat, yhat: regresyondan elde edilen tahmini fiyat.

• Mutlak olarak en yüksek negatif uhat’e sahip evler düşük değerlendirilmiş (undervalued), en yüksek pozitif uhat’e sahip evler ise en fazla aşırı değerlendirilmiş (overvalued) olan evlerdir.

• uhat =y-yhat =Log(Y)-Log(Yhat) =Log (Y / Yhat)

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Ch. 6: Multiple Regression Analysis: Further Issues, J.M. Wooldridge Introductory Econometrics 24

obs Actual Fitted Residual obs Actual Fitted Residual

(log)en düşük 10 en yüksek 10

400 8.74831 9.56705 -0.81874 369 10.8198 9.49062 1.32918

490 8.85367 9.66379 -0.81012 373 10.8198 9.63374 1.18606

401 8.63052 9.40469 -0.77416 366 10.2219 9.0516 1.1703

402 8.88184 9.62784 -0.746 372 10.8198 9.74455 1.07525

416 8.88184 9.60437 -0.72253 368 10.0476 9.10481 0.94278

420 9.03599 9.74106 -0.70507 370 10.8198 9.89351 0.92629

399 8.51719 9.10865 -0.59146 371 10.8198 9.97127 0.84853

491 8.99962 9.58358 -0.58396 408 10.2364 9.52692 0.7095

430 9.15905 9.6979 -0.53885 367 9.99424 9.39573 0.59851

413 9.79256 9.26113 0.53143

• Dependent Variable: LPRICE

• Included observations: 506

• Variable Coefficient Std. Error t-Statistic Prob.••• C 10.98524 0.299231 36.71153 0.0000• LPROBTAX -0.073268 0.042150 -1.738238 0.0828• LNOX -0.701876 0.107804 -6.510657 0.0000• CRIME -0.012730 0.001521 -8.369419 0.0000• ROOMS 0.242073 0.017006 14.23496 0.0000• STRATIO -0.040195 0.005787 -6.945320 0.0000• DIST -0.040705 0.008835 -4.607353 0.0000••• R-squared 0.654918 Mean dependent var 9.941057• Adjusted R-squared 0.650769 S.D. dependent var 0.409255• S.E. of regression 0.241852

obs Actual Fitted Residual obs Actual Fitted Residual

(log)en düşük 10 en yüksek 10

400 8.74831 9.56705 -0.81874 369 10.8198 9.49062 1.32918

490 8.85367 9.66379 -0.81012 373 10.8198 9.63374 1.18606

401 8.63052 9.40469 -0.77416 366 10.2219 9.0516 1.1703

402 8.88184 9.62784 -0.746 372 10.8198 9.74455 1.07525

416 8.88184 9.60437 -0.72253 368 10.0476 9.10481 0.94278

420 9.03599 9.74106 -0.70507 370 10.8198 9.89351 0.92629

399 8.51719 9.10865 -0.59146 371 10.8198 9.97127 0.84853

491 8.99962 9.58358 -0.58396 408 10.2364 9.52692 0.7095

430 9.15905 9.6979 -0.53885 367 9.99424 9.39573 0.59851

413 9.79256 9.26113 0.53143

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Ch. 6: Multiple Regression Analysis: Further Issues, J.M. Wooldridge Introductory Econometrics 25

obs actual ($) fitted difference obs actual ($) fitted difference

400 6300.0 14286.2 -7986.2 369 50001.1 13235.0 36766.1

490 7000.0 15737.3 -8737.3 373 50001.1 15271.4 34729.6

401 5600.0 12145.2 -6545.2 366 27498.9 8532.2 18966.7

402 7200.0 15181.6 -7981.6 372 50001.1 17061.0 32940.1

416 7200.0 14829.4 -7629.4 368 23100.3 8998.5 14101.8

420 8400.0 17001.6 -8601.5 370 50001.1 19801.4 30199.6

399 5000.0 9033.1 -4033.1 371 50001.1 21402.6 28598.4

491 8100.0 14524.3 -6424.3 408 27900.5 13724.3 14176.2

430 9500.0 16283.4 -6783.3 367 21900.0 12036.9 9863.1

413 17900.1 10521.0 7379.1

Log(y) bağımlı değişken iken y’yi (ki, bu yhat’dir) nasıl tahmin ederiz?

• (6.38) de verilen modelin tahmini (6.39) olsun:

• (6.39) dan, şeklinde bulursak y’nin beklenen değerini sistematik olarak noksan tahmin (underestimate) etmiş oluruz.

• Eğer (6.38) deki model klasik doğrusal model (CLM) varsayımlarını, yani, MLR.1-MLR.6, sağlıyorsa, şunu yazabiliriz:

• Eğer, u~ N(0, σ2) ise, exp(u) = exp(σ2/2).• Dolayısıyla, logyhat’den hareketle yhat’i bulurken

ufak bir düzeltme yapmamız gerekecek :

• σ2>0 olduğu için exp(σ2/2)>1 olacak her zaman. u’ların varyansı σ2 büyüdükçe bu düzeltme faktörü 1’den önemli ölçüde büyük olabilecektir.

• (6.40) daki yhat’in tahmini, sapmalı fakat tutarlıdır. u’ların normal dağıldığı varsayımına dayanır. Örnek büyüdükçe bu sorun olmaktan çıkar.

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Ch. 6: Multiple Regression Analysis: Further Issues, J.M. Wooldridge Introductory Econometrics 26

Düzeltme faktörünün N dağılım varsayımına dayanmayan diğer bir tahmini

• u’nun açıklayıcı değişkenlerden (x’ler) bağımsız olduğunu varsayarsak, y’nin koşullu beklenen değerini şöyle yazabiliriz:

• Burada, α(o) = E{exp(u)} ‘dur ve “y’ nin, exp(logyhat) üzerine sabit terim olmaksızın regress edilmesi” suretiyle bulunur : y = α(o) exp(logyhat) + e(t).

• Demek ki,önce (6.39) dan logyhat’i, sonra “y = α(o) exp(logyhat) + e(t)” regresyonundan α(o)’ı ve nihayet (6.42) den y’nin tahminini (yhat) elde edeceğiz.

Örnek: CEO maaşları

• Bağımlı değişkenin log(salary) olduğu CEO maaşları denkleminin tahmini şöyledir:lmktval=log(market value),

• Bu denklemden, x’lerin değerlerini yerlerine koyarak lsalaryhat’i hesaplayacağız. Sonra, sabit terim kullanmaksızın “salary = α(o) lsalaryhat + e” regresyonundan α(o)hat= 1.117 olarak bulacağız.

• (6.42) de bu düzeltme faktörünü kullanarak verilen herhangi belli x değerleri için maaş tahminleri (yhat) yapabileceğiz.

• Örneğin, sales=5000 million$, mktval=10,000 million$, ceoten=10 için ceo maaşlarını tahmin edelim.

• Bunları (4.43) de kullanırsak:Lsalaryhat=4.504+0.163*log(5,000)+0.109*

log(10,000)+0.0117*10 = 7.013• Düzeltme faktörünü uygulayarak maaş tahminini şöyle buluruz :

1.117*exp(7.013) =1,240.967 bin $=1,240,967$.

• Düzeltme faktörü kullanmasaydık, salaryhat=1,110,983$ bulacaktık. %11.7 daha düşük tahmin yapmış olacaktık.

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Ch. 6: Multiple Regression Analysis: Further Issues, J.M. Wooldridge Introductory Econometrics 27

Bağımlı değişkenleri log(y) ve y olan iki regresyonun R2’lerini nasıl mukayese edeceğiz?

• Çoklu bir regresyonda “R2 = corr(y,yhat)2” idi.

• Adımlar :

• i) logy regresyonundan logyhat’i bulunuz.

• ii) serisini hesaplayınız.

• iii) Sabit terim kullanmaksızın (orijinden geçen regresyon) “y = α(o)mhat +e” regresyonunu tahmin ediniz.

• iv) Bu regresyondan bulduğunuz yhat ile verilen y serisi arasındaki korelasyonu hesaplayınız.

• v) Bulduğunuz katsayının karesi R2’dir :

R2 = [corr(y, yhat)]2.

• Bu R2’yi bağımlı değişkeni y olan ikinci regresyonun R2’si ile karşılaştırabilirsiniz.

Örnek

• Yukarıdaki CEO maaşları örneğinde tahmin etmiştik. Aktüel salary serisi

ile buradan bulunan salaryhat serisi arasındaki korelasyon 0.493 olarak hesaplanmaktadır. Bunun karesi, R2=0.243 değerini vermektedir.

• Demek ki, log modelinde açıklayıcı değişkenler maaşlardaki değişmelerinin %24.3 ünü izah edebilmektedir.

• Oysa, (6.43)deki log modelin R2’si 0.318 dir ve bundan farklıdır. 0.318 değeri, logsalary serisindeki değişkenliğin açıklanan yüzdesini göstermektedir.

• Dependent Variable: SALARY•• Included observations: 177 after adjustments•• Variable Coefficient Std. Error t-Statistic Prob.•• C 613.4361 65.23685 9.403214 0.0000• SALES 0.019019 0.010056 1.891290 0.0603• MKTVAL 0.023400 0.009483 2.467719 0.0146• CEOTEN 12.70337 5.618052 2.261169 0.0250•• R-squared 0.201274 Mean dependent var 865.8644• Adjusted R-squared 0.187424 S.D. dependent var 587.5893• S.E. of regression 529.6707 Akaike info criterion 15.40473• Sum squared resid 48535332 Schwarz criterion 15.47651• Log likelihood -1359.318 F-statistic 14.53168• Durbin-Watson stat 2.166043 Prob(F-statistic) 0.000000•

• (6.43) deki LOG model y ’deki değişmelerin %24.3 ünü açıkladığı halde, level model %20.12 sini açıklayabiliyor. Yani, Log model daha başarılıdır.

• Ayrıca, Log modelin katsayıları (esneklikler) daha kolay youmlanabilir türdendir.