comandos en Stata xtreg.docx

26
xtreg — Fixed-, between-, and random-effects and population- averaged linear models. xtreg - Fijo, entre-, y de efectos aleatorios y los modelos lineales de promedio de la población. GLS random-effects (RE) model Between-effects (BE) model Fixed-effects (FE) model ML random-effects (MLE) model Population-averaged (PA) model Se debe especificar sus variables como panel. Para xtreg, pa, estructuras de correlación que no sean intercambiables e independientes requieren que una variable de tiempo también se especifique. xtset declara los datos en la memoria para ser un panel. Usted debe convertir sus datos con xtset antes de usar otros comandos xt. Si guarda sus datos después xtset, los datos serán recordados como un grupo especial y no tendrá que usar xtset de nuevo. Hay dos sintaxis para establecer los datos: xtset panelvar xtset panelvar timevar En la primera sintaxis xtset panelvar-los datos se fijan para ser un panel y el orden de las observaciones dentro del panel se considera irrelevante. Por ejemplo, el panel var podría ser un país y las observaciones en el tiempo podría ser la ciudad. En la segunda sintaxis - xtset timevar panelvar -los datos han de ser un panel y el orden de las observaciones dentro del panel se consideran ordenado por timevar. Por ejemplo, en los datos recogidos de los levantamientos repetidos de las mismas personas en distintos años, panelvar podría ser persona y timevar, años. Cuando se especifica timevar, usted

Transcript of comandos en Stata xtreg.docx

xtreg Fixed-, between-, and random-effects and population-averaged linear models.xtreg - Fijo, entre-, y de efectos aleatorios y los modelos lineales de promedio de la poblacin.

GLS random-effects (RE) modelBetween-effects (BE) modelFixed-effects (FE) modelML random-effects (MLE) modelPopulation-averaged (PA) model

Se debe especificar sus variables como panel. Para xtreg, pa, estructuras de correlacin que no sean intercambiables e independientes requieren que una variable de tiempo tambin se especifique.

xtset declara los datos en la memoria para ser un panel. Usted debe convertir sus datos con xtset antes de usar otros comandos xt. Si guarda sus datos despus xtset, los datos sern recordados como un grupo especial y no tendr que usar xtset de nuevo.

Hay dos sintaxis para establecer los datos: xtset panelvar

xtset panelvar timevar

En la primera sintaxis xtset panelvar-los datos se fijan para ser un panel y el orden de las observaciones dentro del panel se considera irrelevante. Por ejemplo, el panel var podra ser un pas y las observaciones en el tiempo podra ser la ciudad.

En la segunda sintaxis - xtset timevar panelvar -los datos han de ser un panel y el orden de las observaciones dentro del panel se consideran ordenado por timevar. Por ejemplo, en los datos recogidos de los levantamientos repetidos de las mismas personas en distintos aos, panelvar podra ser persona y timevar, aos. Cuando se especifica timevar, usted puede entonces utilizar operadores de series de tiempo de Stata como L. y F. entre otros comandos.

xtset sin argumentos xtset: muestra cmo son actualmente los datos. Si los datos se ajustan con un panelvar y un timevar, xtset tambin ordena los datos por timevar panelvar. Si los datos se establecen con slo un panelvar, el orden de clasificacin no se cambia.

Ejemplo:

Algunos conjuntos de datos de panel contienen una variable de tiempo. Abdata.dta conjunto de datos contiene los datos de demanda de trabajo de un grupo de firmas en el Reino Unido. stos son los datos salariales de las dos primeras firmas en el conjunto de datos:

idyearwage

111977131.516

211978123.018

311979128.395

411980138.039

511981142.897

611982148.681

711983137.784

821977147.909

921978141.036

1021979149.534

112198015.491

1221981161.969

1321982161.314

1421983163.051

Comandos:

. list id year wage if id==1 | id==2, sepby(id)

+---------------------+ | id year wage | |---------------------| 1. | 1 1977 131.516 | 2. | 1 1978 123.018 | 3. | 1 1979 128.395 | 4. | 1 1980 138.039 | 5. | 1 1981 142.897 | 6. | 1 1982 148.681 | 7. | 1 1983 137.784 | |---------------------| 8. | 2 1977 147.909 | 9. | 2 1978 141.036 | 10. | 2 1979 149.534 | 11. | 2 1980 15.491 | 12. | 2 1981 161.969 | 13. | 2 1982 161.314 | 14. | 2 1983 163.051 | +---------------------+

To declare this dataset as a panel dataset, you type

xtset id year, yearly panel variable: id (strongly balanced) time variable: year, 1977 to 1983 delta: 1 year. . list id year wage L.wage if id==1 | id==2, sepby(id)

+-------------------------------+ | L.| | id year wage wage | |-------------------------------| 1. | 1 1977 131.516 . | 2. | 1 1978 123.018 131.516 | 3. | 1 1979 128.395 123.018 | 4. | 1 1980 138.039 128.395 | 5. | 1 1981 142.897 138.039 | 6. | 1 1982 148.681 142.897 | 7. | 1 1983 137.784 148.681 | |-------------------------------| 8. | 2 1977 147.909 . | 9. | 2 1978 141.036 147.909 | 10. | 2 1979 149.534 141.036 | 11. | 2 1980 15.491 149.534 | 12. | 2 1981 161.969 15.491 | 13. | 2 1982 161.314 161.969 | 14. | 2 1983 163.051 161.314 | +-------------------------------+

Data Panel

El contexto bsico de un anlisis lineal de datos de panel consiste en un modelo de regresin de la forma:

donde el subndice toma los valores 1,2, , N e indica la unidad de seccin cruzada, indica los diferentes periodos de tiempo, son las variables dependientes o explicadas (regresando), las variables independientes o explicativas (regresor), es el vector de parmetros a estimar y el trmino de error o perturbacin aleatoria, todos ellos componentes del modelo clsico de regresin lineal.

Si para cada unidad de seccin cruzada existe el mismo nmero de observaciones temporales, es decir, si para cada , se dice que el panel de datos est equilibrado (balanceado).

Es habitual para el estudio de los distintos estimadores disponibles asumir que el error aleatorio se descompone en dos o tres trminos, a los cuales se les denomina Modelo de componente de error (Error Component Regression Model).

La mayora de las aplicaciones de datos de panel utilizan un modelo de componentes de error de un solo sentido de las perturbaciones, con:

Modelo de componente de error I:

Tenga en cuenta que es invariante en el tiempo y da cuenta de cualquier efecto-individual especfico que no est incluido en la regresin. En este caso podramos pensar en ella como la habilidad no observada de la persona. La restante perturbacin vara con las personas y el tiempo y puede ser pensado como la perturbacin habitual en la regresin.

xtreg and associated commands Example

1: Between-effects model

xtreg y asociado comandos

Modelo de Entre-efectos

Usando nlswork.dta vamos a modelar logaritmo natural de salario en trminos de aos completos de escolaridad (grado), la edad actual y la edad al cuadrado, aos actuales trabajados (experiencia) y experiencia al cuadrado, aos actuales de la tenencia en el trabajo y la tenencia actual al cuadrado, ya sea negro (carrera = 2), tanto si residen en un rea no designada como rea estadstica metropolitana estndar (AEME), y tanto si residen en el Sur.

. webuse nlswork.dta, clear(National Longitudinal Survey. Young Women 14-26 years of age in 1968)

. xtreg ln_w grade age c.age#c.age ttl_exp c.ttl_exp#c.ttl_exp tenure c.tenure#c.tenure 2.race not_smsa south, be

Between regression (regression on group means) Number of obs = 28091Group variable: idcode Number of groups = 4697

R-sq: within = 0.1591 Obs per group: min = 1 between = 0.4900 avg = 6.0 overall = 0.3695 max = 15

F(10,4686) = 450.23sd(u_i + avg(e_i.))= .3036114 Prob > F = 0.0000

------------------------------------------------------------------------------------- ln_wage | Coef. Std. Err. t P>|t| [95% Conf. Interval]--------------------+---------------------------------------------------------------- grade | .0607602 .0020006 30.37 0.000 .0568382 .0646822 age | .0323158 .0087251 3.70 0.000 .0152105 .0494211 | c.age#c.age | -.0005997 .0001429 -4.20 0.000 -.0008799 -.0003194 | ttl_exp | .0138853 .0056749 2.45 0.014 .0027598 .0250108 |c.ttl_exp#c.ttl_exp | .0007342 .0003267 2.25 0.025 .0000936 .0013747 | tenure | .0698419 .0060729 11.50 0.000 .0579361 .0817476 | c.tenure#c.tenure | -.0028756 .0004098 -7.02 0.000 -.0036789 -.0020722 | 2.race | -.0564167 .0105131 -5.37 0.000 -.0770272 -.0358061 not_smsa | -.1860406 .0112495 -16.54 0.000 -.2080949 -.1639862 south | -.0993378 .010136 -9.80 0.000 -.1192091 -.0794665 _cons | .3339113 .1210434 2.76 0.006 .0966093 .5712133-------------------------------------------------------------------------------------

La regresin entre-efectos se estima en personas-promedios, por lo que la "n = 4697" nmero es relevante. xtreg, ya sea los informes del "nmero de observaciones" y la informacin del tamao del grupo, se demuestra que tenemos 28.534 "observaciones" -person aos, en realidad- de datos. Si tomamos la submuestra que no tiene valores perdidos en el salario ln, grado, ..., al sur nos deja con 28.091 observaciones sobre personas-ao, reflejando 4.697 personas, cada observado durante un promedio de 6,0 aos.Por la bondad de ajuste, el R2 betwen es directamente relevante; nuestra R2 es 0,4900. Sin embargo, si utilizamos estas estimaciones para predecir within modelo, tenemos un R2 de 0,1591. Si utilizamos estas estimaciones para ajustar los datos generales, nuestra R2 es 0.3695.wls especifica que, para datos desbalanceados, mnimos cuadrados ponderados ser utilizado en lugar de los OLS predeterminados. Ambos mtodos producen estimaciones consistentes. La verdadera varianza de los efectos entre-residuales es 2 + Ti2? (ver xtreg, estar en Mtodos y frmulas abajo). WLS produce una variacin "estabilizado" de 2 / Ti + 2?, Que tambin no es constante. As, la eleccin entre OLS y WLS equivale a que es ms estable.

Comentario: xtreg, be rara vez se utiliza, pero entre las estimaciones son un ingrediente en la estimacin de efectos aleatorios. Nuestra implementacin de xtreg, re utiliza las estimaciones de MCO para este componente, segn nuestro criterio que 2 es grande en relacin con (2 e) en la mayora de los modelos. Formalmente, slo se requiere una estimacin consistente entre las estimaciones.

El anlisis estadstico F que los coeficientes de los regresores grado, edad, ..., al sur son todos conjuntamente cero. Nuestro modelo es significativo. El error cuadrtico medio de la regresin ajustada, que es una estimacin de la desviacin estndar de i +ei, es 0.3036.

Para nuestros coeficientes, cada ao de escolaridad aumenta los salarios por hora de 6,1%; la edad aumenta los salarios hasta 26.9 aos y despus de eso disminuye (debido a que la ecuacin cuadrtica ax2 + bx + c se convierte ms en x = -b / 2a, que para nuestra edad y c.age # c.age coeficientes es 0,0323158 / (2 x 0,0005997 ) 26.9), aqu b = age, c.age # c.age = a; la experiencia total aumenta los salarios a un ritmo creciente (que es sorprendente e inconveniente); antigedad en el empleo actual aumenta los salarios hasta tener 12,1 aos 0,0698419/ (2 x 0,0028756 ) 12,1), y posteriormente les disminuye; los salarios de los negros son, estas cosas mantienen constantes, (aproximadamente) un 5,6% inferior a la de los no negros (aproximadamente porque 2.race es un indicador variable); si reside en un no-SMSA (zona rural) reduce los salarios en 18,6%; y si residen en el sur reduce los salarios en un 9,9%.

2. Fixed-effects model

El modelo de efectos fijos

Dado

En este caso, los se supone que son los parmetros fijos a ser estimados y el resto perturbaciones estocstico con independientes e idnticamente distribuidas con media cero y varianza sigma cuadrado. se supone independientemente de para todo i y t. El modelo de efectos fijos es una especificacin adecuada si nos estamos centrando en un conjunto especfico de N firmas, es decir, IBM, GE, Westinghouse, etc. y nuestra inferencia se limita a la conducta de estos conjuntos de firmas. Alternativamente, podra ser un conjunto de pases de la OCDE o Estados Americanos. La inferencia en este caso est supeditada a los particulares N firmas, pases o Estados que se observan.

Ejemplo: en STATA

Utilizando nlswork.data, vamos a modelar ln(wage) en trminos de aos completos de escolaridad (grado), la edad actual y la edad al cuadrado, aos actuales trabajados (experiencia) y la experiencia al cuadrado, aos en el trabajo actual, aos en el trabajo actual al cuadrado, si es negro (raza = 2), tanto si residen en un rea no designada como metropolitana estndar (AEME), y tanto si residen en el Sur.

. webuse nlswork.dta, clear(National Longitudinal Survey. Young Women 14-26 years of age in 1968)

. xtreg ln_w grade age c.age#c.age ttl_exp c.ttl_exp#c.ttl_exp tenure c.tenure#c.tenure 2.race not_smsa south, fenote: grade omitted because of collinearitynote: 2.race omitted because of collinearity

Fixed-effects (within) regression Number of obs = 28091Group variable: idcode Number of groups = 4697

R-sq: within = 0.1727 Obs per group: min = 1 between = 0.3505 avg = 6.0 overall = 0.2625 max = 15

F(8,23386) = 610.12corr(u_i, Xb) = 0.1936 Prob > F = 0.0000(The errors ui are correlated with the regressors in the fixed effects model)------------------------------------------------------------------------------------- ln_wage | Coef. Std. Err. t P>|t| [95% Conf. Interval]--------------------+---------------------------------------------------------------- grade | 0 (omitted) age | .0359987 .0033864 10.63 0.000 .0293611 .0426362 | c.age#c.age | -.000723 .0000533 -13.58 0.000 -.0008274 -.0006186 | ttl_exp | .0334668 .0029653 11.29 0.000 .0276545 .039279 |c.ttl_exp#c.ttl_exp | .0002163 .0001277 1.69 0.090 -.0000341 .0004666 | tenure | .0357539 .0018487 19.34 0.000 .0321303 .0393775 | c.tenure#c.tenure | -.0019701 .000125 -15.76 0.000 -.0022151 -.0017251 | 2.race | 0 (omitted) not_smsa | -.0890108 .0095316 -9.34 0.000 -.1076933 -.0703282 south | -.0606309 .0109319 -5.55 0.000 -.0820582 -.0392036 _cons | 1.03732 .0485546 21.36 0.000 .9421496 1.13249--------------------+---------------------------------------------------------------- sigma_u | .35562203 sigma_e | .29068923 rho | .59946283 (|)-------------------------------------------------------------------------------------F test that all u_i=0: F(4696, 23386) = 6.65 Prob > F = 0.0000

El R2 within es (0,1727), y la R2 betwen es (0,3505), como se esperaba, debido a que el estimador betwen maximiza R2 betwen y within de la estimador R2 within. En trminos de ajuste overall, estas estimaciones son (0,2625). xtreg, fe puede estimar y e, aunque la forma de interpretar estas estimaciones depende de si est utilizando xtreg para ajustar un modelo de efectos fijos o de efectos aleatorios. Para aclarar este punto, en el modelo de efectos fijos, i se fija -formalmente no tienen distribucin. Si se toma este punto de vista, se debe pensar en l, como una mera forma aritmtica reportado para describir el rango de los i estimados por efectos fijos. Sin embargo, si usted est utilizando el estimador de efectos fijos del modelo de efectos aleatorios, 0.355622 es una estimacin de o sera si no existieran variables omitidas.

Cuando se testea si se estima por efectos fijos o agrupados por medio de la prueba F, se puede inferir que es preferible estimar por efectos fijos que con datos agrupados, dado que el p-value indica que se rechaza la hiptesis nula.

Ecuaciones

El R-Cuadrado

xtreg informa "R-cuadrados" correspondientes a estas tres ecuaciones. R-cuadrado estn entre comillas porque el R-cuadradas reportados no tienen todas las propiedades de la OLS.

R-sq: within = 0.17273 ecuacin between = 0.35052 ecuacin overall = 0.26251 ecuacin

En particular, xtreg, be obtiene sus estimaciones mediante la realizacin de MCO de la ecuacin (2), y por tanto su R2 reportado betwen es un R2 ordinario. Los otros dos R2 reportados no son ms que las correlaciones al cuadrado, o, si lo prefiere, R2s de las regresiones de segunda ronda.

El xtreg, fe obtiene sus estimaciones mediante la realizacin de MCO de la ecuacin (3), por lo que su R2 calculado within es un R2 ordinaria. Al igual que con be, los otros R2s son correlaciones al cuadrado, o, si lo prefiere, R2s del regresiones de segunda ronda.

El xtreg, re proporciona el estimador de efectos aleatorios y es un (matriz) promedio ponderado de las estimaciones producidas por el entre y dentro de los estimadores. En particular, el estimador de efectos aleatorios resulta ser equivalente a la estimacin de

Donde est en funcin de la varianza de los errores de y la varianza de los errores de . Si la primera varianza es cero, esto significa que los primeros errores son siempre cero, entonces es siempre cero entonces se puede estimar por la ecuacin (1). El R2 reportado en la salida corresponde a la ecuacin (4) en ningn caso a las 3 ecuaciones. Los tres R2s son correlaciones al cuadrado, o, si lo prefiere, R2s de regresiones de segunda ronda.

Las pruebas para la dependencia de la seccin transversal / correlacin contempornea: el uso de Breusch-Pagan LM de la independencia

Segn Baltagi, la dependencia de la seccin transversal es un problema en los paneles macro con una larga serie de tiempo (ms de 20-30 aos). Esto no es un gran problema en los paneles micro (pocos aos y gran nmero de casos). La hiptesis nula en la prueba de BP / LM de la independencia es que los residuos a travs de entidades no estn correlacionados. El comando para ejecutar esta prueba es xttest2 (ejecutarlo despus xtreg, fe):

Ejemplo

xttest2

Las pruebas para la seccin transversal dependencia / correlacin contempornea: El uso de la prueba de CD Pasaran

Como se mencion en la diapositiva anterior, la dependencia de la seccin transversal es ms de un problema en los paneles macro con series de tiempo largo (ms de 20 a 30 aos) que en los micro paneles. Prueba de CD Pasaran (dependencia de la seccin transversal) se utiliza para probar si los residuos estn correlacionados entre entidades *. La dependencia de la seccin transversal puede llevar a un sesgo en los resultados de pruebas (tambin llamado correlacin contempornea). La hiptesis nula es que los residuos no estn correlacionados. El comando de la prueba se xtcsd, tienes que instalarlo escribiendo ssc install xtcsdEjemplo

xtcsd, pesaran abs

Testing for heteroskedasticityEjemplo

. xttest3

Modified Wald test for groupwise heteroskedasticityin fixed effect regression model

H0: sigma(i)^2 = sigma^2 for all i

chi2 (4697) = 2.2e+36Prob>chi2 = 0.0000

Las pruebas de correlacin serial

Las pruebas de correlacin en series se aplican a los paneles de macro con una larga serie de tiempo (ms de 20 a 30 aos). No es un problema en micro paneles (con muy pocos aos). Correlacin de serie hace que los errores estndar de los coeficientes a ser ms pequeas de lo que realmente son y superior R cuadrado.

Una prueba Lagram-Multiplicador de correlacin serial est disponible utilizando el xtserial comandos. Este es un programa escrito por el usuario, para instalarlo escriba ssc install xttserial

El modelo de efectos aleatorios

Si hay demasiados parmetros en el modelo de efectos fijos y se presenta prdida de grados de libertad se pueden evitar si el i puede suponerse al azar. En este caso i ~IID (0, 2 ), it ~IID (0, 2) y el i son independientes de la it. Adems, el Xit son independientes de la i y it, para todo i y t. El modelo de efectos aleatorios es una especificacin adecuada si estamos trabajando con N individuos al azar de una poblacin grande. Este suele ser el caso de los estudios de panel de los hogares. Hay que tener cuidado en el diseo del panel para que sea "representativa" de la poblacin sobre la cual estamos tratando de hacer inferencias. En este caso, N es generalmente grande y un modelo de efectos fijos dara lugar a una enorme prdida de grados de libertad. El efecto individual se caracteriza por ser aleatorio y la inferencia pertenece a la poblacin elegida al azar.

Ejemplo en STATA

. webuse nlswork.dta, clear(National Longitudinal Survey. Young Women 14-26 years of age in 1968)

. xtset panel variable: idcode (unbalanced) time variable: year, 68 to 88, but with gaps delta: 1 unit

. xtreg ln_w grade age c.age#c.age ttl_exp c.ttl_exp#c.ttl_exp tenure c.tenure#c.tenure 2.race not_smsa south

Random-effects GLS regression Number of obs = 28091Group variable: idcode Number of groups = 4697

R-sq: within = 0.1715 Obs per group: min = 1 between = 0.4784 avg = 6.0 overall = 0.3708 max = 15

Wald chi2(10) = 9244.74corr(u_i, X) = 0 (assumed) Prob > chi2 = 0.0000

------------------------------------------------------------------------------------- ln_wage | Coef. Std. Err. z P>|z| [95% Conf. Interval]--------------------+---------------------------------------------------------------- grade | .0646499 .0017812 36.30 0.000 .0611589 .0681409 age | .0368059 .0031195 11.80 0.000 .0306918 .0429201 | c.age#c.age | -.0007133 .00005 -14.27 0.000 -.0008113 -.0006153 | ttl_exp | .0290208 .002422 11.98 0.000 .0242739 .0337678 |c.ttl_exp#c.ttl_exp | .0003049 .0001162 2.62 0.009 .000077 .0005327 | tenure | .0392519 .0017554 22.36 0.000 .0358113 .0426925 | c.tenure#c.tenure | -.0020035 .0001193 -16.80 0.000 -.0022373 -.0017697 | 2.race | -.053053 .0099926 -5.31 0.000 -.0726381 -.0334679 not_smsa | -.1308252 .0071751 -18.23 0.000 -.1448881 -.1167622 south | -.0868922 .0073032 -11.90 0.000 -.1012062 -.0725781 _cons | .2387207 .049469 4.83 0.000 .1417633 .3356781--------------------+---------------------------------------------------------------- sigma_u | .25790526 sigma_e | .29068923 rho | .44045273 (fraction of variance due to u_i)-------------------------------------------------------------------------------------

Estimamos que la escolaridad tiene una tasa de retorno del 6,5%; que el aumento de los salarios con la edad gira en torno en 25,8 aos; que la experiencia total aumenta an ms los salarios cada vez ms; que el efecto de antigedad en la empresa gira en torno en 9,8 aos; que el ser negro reduce los salarios en un 5,3%; que vivir en el rea reduce los salarios 13,1%; y que vivir en el Sur reduce los salarios 8,7%.

La interpretacin de los coeficientes es complicada ya que incluyen tanto los efectos dentro de-entidad y entre entidades. En el caso de los datos TSCS representa el efecto promedio de X sobre Y cuando los cambios de X a travs del tiempo y entre pases en una unidad.

La prueba LM le ayuda a decidir entre una regresin de efectos aleatorios y una simple regresin MCO. La hiptesis nula de la prueba LM es que las diferencias a travs de organismos son cero. Esto es, no hay una diferencia significativa entre las unidades (es decir, sin efecto el panel). El comando de Stata es xttest0 escribirla inmediatamente despus de ejecutar el modelo de efectos aleatorios.

. xttest0

Breusch and Pagan Lagrangian multiplier test for random effects

ln_wage[idcode,t] = Xb + u[idcode] + e[idcode,t]

Estimated results: | Var sd = sqrt(Var) ---------+----------------------------- ln_wage | .2283326 .4778416 e | .0845002 .2906892 u | .0665151 .2579053

Test: Var(u) = 0 chibar2(01) = 14779.98 Prob > chibar2 = 0.0000

Aqu se rechaza la hiptesis nula y concluir que los efectos aleatorios son apropiados. Esto es, hay evidencia de diferencias significativas entre los distintos pases, por lo tanto, puede ejecutarse el data panel.

Otra salidas

Interpretacin del TEST LM

Aqu no pudimos rechazar la hiptesis nula y concluir que los efectos aleatorios no es apropiado. Esto es, no hay evidencia de diferencias significativas entre los distintos pases, por lo tanto, puede ejecutar una sencilla regresin MCO.

Las pruebas para la dependencia de la seccin transversal / correlacin contempornea: el uso de Breusch-Pagan LM de la independencia

Segn Baltagi, la dependencia de la seccin transversal es un problema en los paneles macro con una larga serie de tiempo (ms de 20-30 aos). Esto no es un gran problema en los paneles micro (pocos aos y gran nmero de casos). La hiptesis nula en la prueba de BP/LM de la independencia es que los residuos a travs de organismos no estn correlacionados. El comando para ejecutar esta prueba es xttest2 (ejecutarlo despus xtreg, fe):

Fixed or Random: Hausman test

. webuse nlswork.dta, clear(National Longitudinal Survey. Young Women 14-26 years of age in 1968)

. xtset panel variable: idcode (unbalanced) time variable: year, 68 to 88, but with gaps delta: 1 unit

. xtreg ln_w grade age c.age#c.age ttl_exp c.ttl_exp#c.ttl_exp tenure c.tenure#c.tenure 2.race not_smsa south, fenote: grade omitted because of collinearitynote: 2.race omitted because of collinearity

Fixed-effects (within) regression Number of obs = 28091Group variable: idcode Number of groups = 4697

R-sq: within = 0.1727 Obs per group: min = 1 between = 0.3505 avg = 6.0 overall = 0.2625 max = 15

F(8,23386) = 610.12corr(u_i, Xb) = 0.1936 Prob > F = 0.0000

------------------------------------------------------------------------------------- ln_wage | Coef. Std. Err. t P>|t| [95% Conf. Interval]--------------------+---------------------------------------------------------------- grade | 0 (omitted) age | .0359987 .0033864 10.63 0.000 .0293611 .0426362 | c.age#c.age | -.000723 .0000533 -13.58 0.000 -.0008274 -.0006186 | ttl_exp | .0334668 .0029653 11.29 0.000 .0276545 .039279 |c.ttl_exp#c.ttl_exp | .0002163 .0001277 1.69 0.090 -.0000341 .0004666 | tenure | .0357539 .0018487 19.34 0.000 .0321303 .0393775 | c.tenure#c.tenure | -.0019701 .000125 -15.76 0.000 -.0022151 -.0017251 | 2.race | 0 (omitted) not_smsa | -.0890108 .0095316 -9.34 0.000 -.1076933 -.0703282 south | -.0606309 .0109319 -5.55 0.000 -.0820582 -.0392036 _cons | 1.03732 .0485546 21.36 0.000 .9421496 1.13249--------------------+---------------------------------------------------------------- sigma_u | .35562203 sigma_e | .29068923 rho | .59946283 (fraction of variance due to u_i)-------------------------------------------------------------------------------------F test that all u_i=0: F(4696, 23386) = 6.65 Prob > F = 0.0000

. estimates store fixed

. xtreg ln_w grade age c.age#c.age ttl_exp c.ttl_exp#c.ttl_exp tenure c.tenure#c.tenure 2.race not_smsa south, re

Random-effects GLS regression Number of obs = 28091Group variable: idcode Number of groups = 4697

R-sq: within = 0.1715 Obs per group: min = 1 between = 0.4784 avg = 6.0 overall = 0.3708 max = 15

Wald chi2(10) = 9244.74corr(u_i, X) = 0 (assumed) Prob > chi2 = 0.0000

------------------------------------------------------------------------------------- ln_wage | Coef. Std. Err. z P>|z| [95% Conf. Interval]--------------------+---------------------------------------------------------------- grade | .0646499 .0017812 36.30 0.000 .0611589 .0681409 age | .0368059 .0031195 11.80 0.000 .0306918 .0429201 | c.age#c.age | -.0007133 .00005 -14.27 0.000 -.0008113 -.0006153 | ttl_exp | .0290208 .002422 1 11.98 0.000 .0242739 .0337678 |c.ttl_exp#c.ttl_exp | .0003049 .0001162 2.62 0.009 .000077 .0005327 | tenure | .0392519 .0017554 22.36 0.000 .0358113 .0426925 | c.tenure#c.tenure | -.0020035 .0001193 -16.80 0.000 -.0022373 -.0017697 | 2.race | -.053053 .0099926 -5.31 0.000 -.0726381 -.0334679 not_smsa | -.1308252 .0071751 -18.23 0.000 -.1448881 -.1167622 south | -.0868922 .0073032 -11.90 0.000 -.1012062 -.0725781 _cons | .2387207 .049469 4.83 0.000 .1417633 .3356781--------------------+---------------------------------------------------------------- sigma_u | .25790526 sigma_e | .29068923 rho | .44045273 (fraction of variance due to u_i)-------------------------------------------------------------------------------------

. estimates store random

. hausman fixed random

---- Coefficients ---- | (b) (B) (b-B) sqrt(diag(V_b-V_B)) | fixed random Difference S.E.-------------+---------------------------------------------------------------- age | .0359987 .0368059 -.0008073 .0013177 c.age#c.age | -.000723 -.0007133 -9.68e-06 .0000184 ttl_exp | .0334668 .0290208 .0044459 .001711c.ttl_exp#~p | .0002163 .0003049 -.0000886 .000053 tenure | .0357539 .0392519 -.003498 .0005797c.tenure#c~e | -.0019701 -.0020035 .0000334 .0000373 not_smsa | -.0890108 -.1308252 .0418144 .0062745 south | -.0606309 -.0868922 .0262613 .0081345------------------------------------------------------------------------------ b = consistent under Ho and Ha; obtained from xtreg B = inconsistent under Ha, efficient under Ho; obtained from xtreg

Test: Ho: difference in coefficients not systematic

chi2(8) = (b-B)'[(V_b-V_B)^(-1)](b-B) = 149.43 Prob>chi2 = 0.0000

If this is < 0.05 (i.e. significant) use fixed effects..

Supongamos que disponemos de dos estimadores 1 y 2 y sabemos adems que uno de ellos, 2 es el ms eficiente (tiene menor varianza). El test calcula con una formulacin especial, con distribucin chi cuadrado, las diferencias en las estimaciones comunes a ambos modelos. Si las diferencias, aunque sean altas, no son sistemticas (no tienen un sesgo definido), entonces ambos estimadores son consistentes (la estimacin muestral tiende al parmetro poblacional, significa que a medida que crece el tamao de la muestra las estimaciones que nos proporciona el estimador se aproximan cada vez ms al valor del parmetro poblacional) y nos quedaremos con el ms eficiente 2. Si las diferencias son sistemticas entonces nuestra hiptesis no se cumple, ambos no son consistentes y ahora tenemos un dilema: pensar que el modelo est mal especificado en ambos casos o quedarnos con el estimador consistente, que es 1 Si el valor de la prueba es alto (p.e. p-valor menor de 0.05) la hiptesis de diferencias no sistemticas se rechaza, por lo que: o se reelabora el modelo o se elige al que se considera consistente en cualquier caso 1. Si el valor de la prueba es bajo (p.e. p-valor mayor de 0.05) la hiptesis nula, de diferencias no sistemticas, se cumple y podemos elegir cualquiera de los dos estimadores, normalmente el que suponemos ms eficiente, 2.

Esta prueba se puede realizar con cualesquiera dos modelos de regresin que queramos comparar. 1 ser el modelo del que estemos ms seguros, que suponemos consistente en cualquier caso y 2 ser el modelo que queremos testar, que es ms eficiente pero no estamos seguros de que sea consistente. Si los coeficientes de ambos modelos no tienen errores sistemticos podremos quedarnos con 2 , si, por el contrario, aparecen errores sistemticos entonces 2 no es consistente y debemos quedarnos con 1 . Por ejemplo esta prueba se puede realizar para saber si es mejor el estimador de efectos fijos o variables en una base de datos de panel. Para ello se estima el modelo de efectos fijos ( 1 ) y el de efectos variables ( 2 ) si no existen diferencias o sesgo significativo (p-valor alto) nos quedamos con el de efectos variables, ms eficiente, pero si se detectan diferencias sistemticas (p-valor bajo) debemos quedarnos con el de efectos fijos, que hemos supuesto siempre consistente. Es importante hacer notar que estamos suponiendo que un modelo es siempre consistente ( 1 ) y que, en caso de igualdad en las estimaciones, otro es el ms eficiente ( 2 ), estas suposiciones son difciles de contrastar y, a menudo, se incumplen. Pero esa es otra historia.