LIBRO STATA 12_Software Shop

8/17/2019 LIBRO STATA 12_Software Shop

http://slidepdf.com/reader/full/libro-stata-12software-shop 1/237

INTRODUCCIÓN A STATA12

EJERCICIOS Y EJEMPLOS APLICADOS A LA ECONOMÍA Y A LA ECONOMETRÍA FINANCIERA.



Introducción a Stata 12



SOFTWARE Shop

3020 Issaquah Pine Lake RdSammamish WA, 98075 USA

________________________________________________________________________________

Copyright © 2013 por SOFWARE ShopTodos los derechos Reservados

Ni la totalidad ni parte de esta publicación pueden reproducirse, registrarse o transmitirse, por un sistema derecuperación de información, en ninguna forma ni por ningún medio, sea electrónico, mecánico, fotoquímico,magnético o electroóptico, por fotocopia, grabación o cualquier otro, sin permiso previo por escrito del autor.



Prólogo

El libro introducción a Stata 12 ha sido el primer paso para resolver una necesidad que ha

tenido el programa Stata: contar con un libro en español que le permitiera al lectorentender no solo el funcionamiento de Stata sino, además, ver su aplicabilidad endiferentes tipos de datos. Es por esta razón que la primera edición de este libro lesbrindará a los usuarios de Stata –principiantes y avanzados –tener una herramienta a lamano para poder realizar el análisis de sus datos.

El libro se ha dividido en 11 capítulos, el primero comprende una introducción al Software,en los cuatro siguientes se podrá encontrar información sobre la capacidad de manejo deStata 12, manejo en la bases de datos y manipulación de datos, estadística descriptiva,presentación de resultados por medio de gráficas y tablas; en el capítulo 6 encontrará eltema de regresión, en el capítulo 7 se encontrarán los modelos de regresión con variable

discreta, capítulo 8 modelos de series de tiempo para tratar los temas de filtros, ARIMA y ARCH, capítulo 9 modelos de datos de panel y los últimos dos capítulos es introducción ala programación y algunos trucos y recomendaciones. Para cada capítulo se establecenejercicios y ejemplos aplicados en diferentes áreas de la economía y econometríafinanciera

Con este libro se pretende llegar a usuarios de diferentes niveles: estudiantes de pregradoen carreras como estadística o economía, estudiantes de postgrado de maestría ydoctorado, docentes universitarios, investigadores, consultores y cualquier persona queuse técnicas estadísticas y econométricas y requiera adicionalmente un programa en elque pueda encontrar desde las técnicas básicas hasta las más avanzadas. Todo esto se

puede encontrar en Stata, y este libro logrará que el usuario del programa pueda teneruna ayuda que le brinde una explicación sencilla, sin necesidad de profundizar en lateoría, pero sin dejar de obtener resultados confiables y rápidos.

Este libro será de utilidad para todos aquellos hispanohablantes que dominen losconceptos econométricos y que deseen utilizar un software que les brinde herramientaspara poder analizar, describir, estimar y pronosticar datos.

Brayan RojasDirector Técnico CuantitativoSOFTWARE Shop



CONTENIDO

1. INTRODUCCIÓN ........................................................................................................................... 1

1.1 Descripción del libro ...............................................................................................................................1 2. MANEJO FUNDAMENTAL DE STATA 12 ....................................................................................... 3

2.1 Conociendo el entorno de Stata .............................................................................................................3 2.2 Barras .....................................................................................................................................................5 2.3 El menú de ayuda ...................................................................................................................................5

2.3.1 Actualizaciones en Stata:............................................................................................. 8

2.4 Tipos de archivo .....................................................................................................................................8 2.5 Estructura de comandos .........................................................................................................................9 2.6 Ventana de comandos .......................................................................................................................... 10 2.7 Configuración de la memoria de Stata .................................................................................................. 11 2.8 Cambiar el directorio de trabajo de Stata ............................................................................................. 11 2.9 Bases de datos de ejemplo .................................................................................................................. 11 2.10 Tipos de variables ................................................................................................................................. 12

2.10.1 Formato de las variables: .......................................................................................... 133. MANEJO DE BASE DE DATOS ..................................................................................................... 15

3.1 Fundamentos de bases de datos .......................................................................................................... 15 3.1.1 Creación de un archivo log ........................................................................................ 15

3.1.2 Abrir una base de datos ............................................................................................ 16

3.1.3 Importar una base de datos .CSV o TXT .................................................................... 16

3.1.4 Importar una base de datos .XLS o .XLSX .................................................................. 17

3.1.5 Importar otros tipos de archivo ................................................................................ 20

3.2 Salvando una base de datos ................................................................................................................ 20 3.3 Descripción de la base de datos ........................................................................................................... 20 Cargar una base de datos del programa ........................................................................... 21

Observar los datos ............................................................................................................. 21

Describir los datos ............................................................................................................. 21

3.4 Creación de Variables .......................................................................................................................... 22 3.4.1 Extensiones en la creación de variables .................................................................... 26

3.5 Ordenar variables y bases de datos ..................................................................................................... 26 3.6 Cálculos por grupos .............................................................................................................................. 27 3.7 Codebook e Inspect .............................................................................................................................. 28 3.8 Conservar y recargar bases de datos ................................................................................................... 29

3.9 Filtros de la base de datos .................................................................................................................... 29 3.10 Administrador de variables ................................................................................................................... 30 3.10.1 Rename ..................................................................................................................... 32

3.10.2 Label Variable ............................................................................................................ 32

3.10.3 Notes ......................................................................................................................... 32

3.11 Creación de categorías ......................................................................................................................... 32 3.12 Modificación y transformación de variables .......................................................................................... 34



3.12.1 Recode ....................................................................................................................... 34

3.12.2 División de Variables de texto ................................................................................... 36

3.13 Combinación de bases de datos ........................................................................................................... 36 3.13.1 Combinación Vertical – Append ................................................................................ 36

3.13.2 Combinación Horizontal – Merge ............................................................................. 37

3.14 Cambio en la organización de los datos ............................................................................................... 39 3.14.1 Collapse ..................................................................................................................... 39

3.14.2 Reshape ..................................................................................................................... 40

3.14.3 Xpose ......................................................................................................................... 43

3.14.4 Stack .......................................................................................................................... 44

3.15 Problemas en el manejo de bases de datos ......................................................................................... 45 3.15.1 Replicar información ................................................................................................ 45

3.15.2 Verificación de datos ................................................................................................. 46

3.15.3 Contador y reporte de datos repetidos..................................................................... 47

3.16 Análisis de duplicados .......................................................................................................................... 47 3.17 Creación de programas – editor de texto .............................................................................................. 50 3.18 Ejemplo aplicado .................................................................................................................................. 51

3.18.1 Cambiando la orientación de la base de datos: De horizontal a vertical y viceversa 53

3.18.2 Ejercicio ..................................................................................................................... 53

3.19 Comandos usados ................................................................................................................................ 54 3.19.1 Otros comandos recomendados ............................................................................... 55

4. ANÁLISIS ESTADÍSTICOS CON STATA ......................................................................................... 56

4.1 Estadística descriptiva .......................................................................................................................... 57 4.2 Ponderadores -weight- ........................................................................................................................ 58 4.3 Calculo de medias ................................................................................................................................ 58 4.4 Intervalos de confianza ......................................................................................................................... 59 4.5 Pruebas de hipótesis ............................................................................................................................ 60

4.5.1 Media ........................................................................................................................ 60

4.5.2 Varianza ..................................................................................................................... 61

4.5.3 Proporciones ............................................................................................................. 61

4.6 Manejo de tablas de datos .................................................................................................................... 61 4.6.1 Tabstat ....................................................................................................................... 62

4.6.2 Tabulate (tab) ............................................................................................................ 63

4.6.3 Table .......................................................................................................................... 64

4.7 Pruebas no paramétricas ...................................................................................................................... 66 4.8 Ejemplo aplicado .................................................................................................................................. 68

4.8.1 Comandos Básicos ..................................................................................................... 68

4.8.2 Ayuda visual table y tabstat ..................................................................................... 69



4.8.3 Tablas de contingencia .............................................................................................. 71

4.8.4 Tablas de frecuencia .................................................................................................. 72

4.8.5 Correlaciones ............................................................................................................. 73

4.8.6 Prueba para la media ................................................................................................ 74

4.8.7 Prueba para detectar normalidad ............................................................................. 75

4.8.8 Pruebas para la media: dos muestras independientes ............................................. 75

4.8.9 Comparación de k medias independientes ............................................................... 76

4.8.10 Exportar tablas .......................................................................................................... 79

4.8.11 Ejercicio ..................................................................................................................... 80

4.9 Comandos usados ................................................................................................................................ 80 4.9.1 Otros comandos recomendados ............................................................................... 81

5. GRAFICAS CON STATA ............................................................................................................... 82

5.1 Histograma ........................................................................................................................................... 84 5.2 Gráfico de tortas ................................................................................................................................... 85 5.3 Graficas twoway ................................................................................................................................... 87 5.4 Editor de gráficos de Stata ................................................................................................................... 90

5.4.1 Haciendo doble clic sobre el área de la grafica ......................................................... 91

5.5 Gráfico de series de tiempo .................................................................................................................. 92 5.6 Gráfico de dispersión ............................................................................................................................ 93 5.7 Gráfico de puntos ................................................................................................................................. 95 5.8 Gráfico de barras .................................................................................................................................. 96 5.9 Generando Funciones .......................................................................................................................... 98 5.10 Combinando gráficas ............................................................................................................................ 98 5.11 Ejemplo aplicado .................................................................................................................................. 99

5.11.1 Transformaciones Tukey ........................................................................................... 99

5.11.2 Gráficos de matriz ................................................................................................... 100

5.11.3 Gráficos de líneas .................................................................................................... 101

5.11.4 Edición de gráficos .................................................................................................. 101

5.11.5 Gráfica de histogramas............................................................................................ 102

5.11.6 Diagramas de dispersión ......................................................................................... 103

5.11.7 Exportar gráficos ..................................................................................................... 105

5.12 Comandos usados .............................................................................................................................. 107

6. REGRESIÓN LINEAL EN STATA ................................................................................................. 108

6.1 Ejercicio .............................................................................................................................................. 108 6.2 Descripción estadística de la información ........................................................................................... 109 6.3 Relación lineal entre las variables dependientes e independientes .................................................... 109 6.4 Representación gráfica de las relaciones entre variables ................................................................... 110 6.5 Estimación del modelo lineal de regresión ......................................................................................... 112

6.5.1 Pruebas de hipótesis lineales .................................................................................. 114

6.5.2 Ejercicio ................................................................................................................... 114



6.6 Comprobación del cumplimiento de los supuestos de M.C.O. ........................................................... 115 6.6.1 Multicolinealidad (Asociación lineal entre variables) ............................................. 115

6.6.2 Homocedasticidad ................................................................................................... 115

6.6.3 Normalidad de los residuos ..................................................................................... 117

6.6.4 Exogeneidad de las variables independientes ........................................................ 119

6.6.5 Ejercicio ................................................................................................................... 120

6.7 Pronóstico ........................................................................................................................................... 120 6.7.1 Representación gráfica del pronóstico de la variable dependiente y su relación con

los regresores .......................................................................................................................... 120

6.7.2 Ejercicio ................................................................................................................... 121

6.8 Exportar tabla de contenido ................................................................................................................ 121 6.9 Ejemplo aplicado ................................................................................................................................ 122

6.9.1 Prueba de hipótesis ................................................................................................. 123

6.9.2 Supuestos para mínimos cuadrados ordinarios ...................................................... 123

6.10 Comandos usados .............................................................................................................................. 127 7. MODELOS DE VARIABLE DEPENDIENTE BINARIA: MODELOS LOGIT Y PROBIT ....................... 128

7.1 Representación de las relaciones entre variables .............................................................................. 129 7.1.1 Participación y Género ............................................................................................ 129

7.1.2 Participación y Nivel Educativo ............................................................................... 130

7.1.3 Participación y Edad ................................................................................................ 131

7.2 El modelo tipo Logit encuesta Casen 2006. ....................................................................................... 131 7.2.1 Interpretación de resultados ................................................................................... 132

7.2.2 Odds - Ratio (p/q) .................................................................................................... 133

7.2.3 Post – estimación .................................................................................................... 133

7.3 Modelo Lineal de probabilidad y modelo tipo Probit ........................................................................... 135 7.3.1 Modelo Lineal .......................................................................................................... 135

7.3.2 Modelo tipo Probit .................................................................................................. 136

7.3 .3 Comprobación de supuestos ................................................................................... 139

7.3.4 Pronóstico ............................................................................................................... 143

7.3.5 Ejercicio ................................................................................................................... 143

7.4 Ejemplo aplicado ................................................................................................................................ 144 7.4.1 Modelos con variable dependiente binaria MLP, Logit y Probit ............................ 144

7.5 Comandos usados .............................................................................................................................. 148 8. MODELOS DE SERIES DE TIEMPO ............................................................................................ 149

8.1 Serie de tiempo en Stata modelos autorregresivos de media movil (arma) ....................................... 149 8.1.1 Generación de variables con formato de fecha ...................................................... 149

8.1.2 Designando la variable que representa al tiempo .................................................. 150



8.1.3 Variables con rezago ............................................................................................... 151

8.2 Metodología Box Jenkins (BJ) aplicada al caso de selección y estimación de un modelo arma parapronóstico de la inflación. ................................................................................................................................ 152

8.2.1 Fase de identificación .............................................................................................. 152

8.2.2 Fase de estimación .................................................................................................. 154

8.2.3 Fase de verificación y diagnostico ........................................................................... 155

8.2.4 Pronósticos .............................................................................................................. 156

8.2.5 Ejercicio ................................................................................................................... 157

8.2.6 Ejemplo aplicado: FILTROS, ARIMA, SARIMA. ......................................................... 158

8.3 Modelos ARCH y GARCH, modelo condicional autorregresivo generelazidado conheterocedasticidad ........................................................................................................................................... 171

8.3.1 Antecedentes .......................................................................................................... 171

8.3.2 El modelo GARCH(1,0) ............................................................................................. 172

8.3.3 Metodología ARCH EN STATA ................................................................................. 173

8.3.4 Ejemplo aplicado ..................................................................................................... 173

8.4 Comandos usados .............................................................................................................................. 179 9. MODELOS DE DATOS PANEL O LONGITUDINALES .................................................................. 180

9.1 Análisis de datos panel ....................................................................................................................... 180 9.1.1 Ventajas de estimación por panel ........................................................................... 181

9.1.2 Desventajas ............................................................................................................. 181

9.2 Análisis de datos panel de dos períodos ............................................................................................ 182 9.2.1 Ejercicio ................................................................................................................... 184

9.3 Análisis de más de dos períodos ........................................................................................................ 185 9.3.1 Ejercicio ................................................................................................................... 186

9.4 Efectos fijos ........................................................................................................................................ 187 9.5 Efectos aleatorios ............................................................................................................................... 187

9.5.1 Ejercicio ................................................................................................................... 188

9.6 Análisis de datos panel en Stata......................................................................................................... 188 9.6.1 Estructura de bases de datos panel ........................................................................ 189

9.6.2 Regresión agrupada................................................................................................. 190

9.6.3 Efectos aleatorios .................................................................................................... 191

9.6.4 Efectos fijos ............................................................................................................. 193

9.6.5 Efectos aleatorios vs fijos ........................................................................................ 194

9.6.6 Autocorrelación y heteroscedasticidad ................................................................... 196

9.6.7 Ejercicio ................................................................................................................... 199

9.7 Ejemplo aplicado ................................................................................................................................ 199 9.7.1 Gráficos de evolución .............................................................................................. 200



9.7.2 Modelos econométricos para datos de panel ......................................................... 203

9.7.3 Comparación de modelos ....................................................................................... 208

9.7.4 Interpretación de los parámetros de efectos fijos. ................................................. 209

9.8 Comandos usados .............................................................................................................................. 209 10. INTRODUCCIÓN A LA PROGRAMACIÓN .............................................................................. 211

10.1 Local macros ...................................................................................................................................... 211 10.2 Creando ciclos .................................................................................................................................... 211

10.2.1 Comando IF ............................................................................................................. 211

10.2.2 Comando For ........................................................................................................... 212

10.2.3 Comando Forvalues ................................................................................................. 212

10.2.4 Comando While: ...................................................................................................... 212

10.3 ESCALARES Y MATRICES ............................................................................................................... 212 10.3.1 Ejercicio ................................................................................................................... 215

11. TRUCOS CON STATA ............................................................................................................ 217

11.1 Algunos consejos con Stata ............................................................................................................... 217 11.2 Ejecutando comandos en Stata sin resultados (quietly) ..................................................................... 220 11.3 Herramienta de calificación de Stata 12 ............................................................................................. 222 11.4 Archivos en PDF de logs y gráficas con Stata 12 ............................................................................... 224 11.5 Material de apoyo ............................................................................................................................... 226 12. BIBLIOGRAFIA ...................................................................................................................... 227



1

1. INTRODUCCIÓN

Hoy en día es común encontrar diferentes aplicaciones computacionales capaces derealizar sin fin de procedimientos en milésimas de segundo, desde hace varios años elcomputador ha sido una herramienta muy útil para las diferentes áreas del conocimiento ylas ciencias económicas no han sido la excepción, los grandes avances teóricos hanllevado a necesitar cada vez más de las aplicaciones computacionales para poder pasarde la teoría a la práctica.

Las ciencias económicas, sociales y aplicadas se han vinculado desde hace variasdécadas a las ciencias puras para poder por medio de los métodos cuantitativos verificarlos hechos sociales, el uso de la estadística, la matemática y la física cada día van enincremento; pero de igual forma éstos métodos han necesitado de diferentes recursos

para su aplicación, es en busca de suplir estas necesidades que Stata Corp se hacomprometido día a día en apoyar al desarrollo de la teoría con la práctica haciendo usodel total de recursos disponibles.

Se aclara que Stata no es un software libre ni gratuito, para poder acceder a él esnecesario adquirir un plan de licenciamiento, para mayor información ingresar awww.stata.com. Una de las ventajas del software es la posibilidad de trabajo por ambienteGUI (interactivo) y/o por ambiente de comandos con una programación bastante potente,incluyendo un lenguaje de programación para matrices conocido como MATA.

Este material es dirigido a todo tipo de usuario, para el estudiante que se estáinvolucrando al mundo de la estadística y econometría, el docente que utiliza laherramienta para impartir sus clases usando para ello un software de alto nivel como esStata y para profesionales e investigadores que día a día requieren una herramienta queles sirva para apoyar sus labores y sus investigaciones.

El documento se ha dividido en 11 capítulos, el primero comprende esta introducción, loscuatro siguientes se podrá encontrar información sobre la capacidad de manejo de Stata 12, manejo en la bases de datos y manipulación de datos, estadística descriptiva, asícomo la presentación de resultados por medio de gráficas y tablas; en el capítulo 6encontrará el tema de regresión, capítulo 7 modelos de regresión con variable discreta,capítulo 8 modelos de series de tiempo para tratar los temas de filtros, ARIMA y ARCH,

capítulo 9 modelos de datos de panel y los últimos dos capítulos es introducción a laprogramación y algunos trucos y recomendaciones.

1.1 Descripción del libro

Este manual es de carácter académico y representa una guía para los usuarios de Stata.

http://www.stata.com/





2

El manual contiene 225 páginas, las cuales describe los principales usos para un usuariode diferente nivel y estudios. Para el mejor entendimiento del manual se describe elsiguiente cuadro:

Descripción Características

Comando Tipo de Letra cursiva, fuente Arial, tamaño deletra 11.

Ejemplo del comando Tipo de Letra cursiva, fuente Arial, tamaño deletra 9, antecedido de un “.”

Notas o recomendaciones Resaltado en un cuadro de texto

Rutas de acceso por medio de los menús Se describe el nombre del Menú seguido por elsímbolo “”

Mensajes de Error Color de Fuente Rojo

Tabla 1. Descripción y características del manual



3

2. MANEJO FUNDAMENTAL DE STATA 12

Stata es un programa estadístico para investigadores de diferentes disciplinas, comobioestadísticos, investigadores sociales y económicos. Los diferentes tipos de análisisintegrados a Stata están documentados y soportados teóricamente por numerososdocumentos, publicaciones y revistas. Los manuales de Stata reúnen en 21 volúmenescon ejemplos estadísticos, explicaciones teóricas, métodos, fórmulas y documentos dereferencia (ver www.stata.com/manuals/). Al tratarse de un programa en ambienteWindows, su interface es similar a la de todos los programas bajo este ambiente.

Nota: Además del sistema operativo Windows, Stata Corp ha desarrollado la plataforma para lossistemas operativos en Mac y Unix, con sus respectivos manuales de introducción.

Stata está disponible en 4 tipos de versión.

Small Stata Versión estudiantil de Stata

Intercooled Stata Versión estándar de Stata

Stata/SE Versión especial de Stata para manejo debases de datos grandes.

Stata/MP Versión especial de Stata diseñada paratrabajar en equipos con más de unprocesador o núcleo (2 a 32 procesadores)

Tabla 2. Tipos de versión Stata

A continuación se presentan las principales diferencias entre las versiones Intercooled ySE de Stata1:

Small Stata/IC Stata/MP and Stata/SE

Número de observaciones 1,200 2,147,483,647 2,147,483,647

Número de Variables 99 2,047 32,767

Tabla 3. Características de versión la Stata

2.1 Conociendo el entorno de Stata

Una vez que se hace clic en el icono de Stata en el menú de inicio, se despliegan lossiguientes cuadros de trabajo. Estas ventanas constituyen el cuerpo básico Stata parallevar a cabo un análisis de datos, teniendo una interface bastante amigable.

1 Para conocer todas las diferencias entre las versiones de Stata, dirigirse a la ayuda por medio del comandohelp limits.



4

Figura 1. Ventana de Stata

Ventana de Variables: Muestra el listado de variables de la base de datos activa.

Ventana de Comandos: En este cuadro se escriben y almacenan las líneas decomandos, si se desea recuperar un comando previo puedeutilizar las teclas RePág o AvPág y podrá autocompletar elnombre de la variable utilizando la tecla TAB.

Ventana de Resultados: Permite visualizar la sintaxis, y los resultados de losprocedimientos ejecutados por el usuario. Aquí encontrará ellogo de Stata, indicando la versión y el tipo de licencia y elnúmero máximo de variables a importar. Una de lascaracterísticas de ésta ventana es que por medio de coloresel programa informa si un comando ha sido correctamenteejecutado, si aparece en color negro no hubo problema en larealización, rojo indicar error y el azul es un hipervínculo almenú de ayuda.

Ventana de Revisión: Bitácora que permite llevar un completo registro de todos losprocedimientos ejecutados durante una sesión de Stata yasea que se ejecutaron por el ambiente GUI, por la ventanade comandos o por un editor .do. Una de las propiedades dela ventana Review es que si se desea repetir un comandosimplemente debe hacer doble clic sobre el comandodeseado y Stata lo ejecutará de nuevo.

VENTANA DE RESULTADOS

VENTANA DE COMANDOS

VENTANA

DE

REVISIÓN

VENTANA DEVARIABLES

VENTANA DEPROPIEDADES DE

VARIABLES



5

Ventana de Propiedades: Presenta la información de cada variable, como nombre, tipode variable, formato, las notas de la base de datos (puedeusar el comando notes para verlas en la ventana deresultados), entre otras características.

2.2 Barras

Figura 2. Menú de Stata

Barra de Nombre: Indica la versión de Stata disponible, el nombre y la ruta dela base de datos activa.

Barra de Menús: Es el conjunto de las diferentes herramientas que tiene Stata las cuales le permiten al usuario cargar, transformar,modificar, analizar, graficar y solicitar información y ayuda delprograma.

Barra de Herramientas: Es el conjunto de íconos de acceso rápido a herramientasfundamentales como son abrir, salvar, creación de un archivoLog, un archivo .do, abrir el editor, el visor y el administradorde variables.

2.3 El menú de ayuda

Stata ha incorporado a partir de la versión 11 un conjunto de nuevas opciones en el menúde ayuda para facilitarle al usuario la mejor forma de entender cómo funciona elprograma. Una de las novedades principales es que se ha agregado la opción de tener

disponibles los manuales de Stata en formato PDF.

Para acceder a los manuales de ayuda debe seguir la ruta Help PDF Documentation

El menú de ayuda de Stata le permite:

Ver el índice de contenidos del programa

Barra de Nombre

Barra deMenús

Barra de

Herramientas



6

Buscar información sobre algún tema, la rutina que permite ejecutarla en Stata, o elsitio desde donde es posible descargar la macro para alimentar el programa.

Obtener ayuda sobre algún comando de Stata

Listar y descargar las últimas actualizaciones del programa.

Instalar programas de Stata escritas por otros usuarios, desde el “Stata Journal” o delboletín técnico “Stata Technical Bulletin”.

Acceder a lugares de interés en el sitio Web de Stata.

El sistema de ayuda para los comandos de Stata es una de las herramientas que másrápidamente puede familiarizar al usuario con el manejo de Stata. Alternativamente alsistema de ventanas, el usuario puede digitar en el cuadro de comandos help seguido delcomando del cual desea información.

Por ejemplo al digitar en el cuadro de comandos: help describe emerge la siguienteventana

Figura 3. Ayuda de Stata

La ayuda de Stata ofrece información sobre:



7

La sintaxis completa y abreviada de letra(s) subrayadas) de cada comando,

Descripción del comando,

Opciones adicionales para ejecutar el comando,

Ejemplos sobre cómo usar el comando,

Hipervínculos a otros comandos relacionados y/o similares y,

El manual impreso de Stata en el que puede consultar los detalles sobre elcomando.

Con frecuencia, el usuario desconoce el nombre del comando específico que realiza algúnprocedimiento en Stata. En estos casos es conveniente realizar una búsqueda temáticapor medio del comando search. A través de este comando Stata realiza una búsqueda en

línea en: Los ejemplos oficiales de Stata disponibles en su sitio web,

El sitio de preguntas frecuentes “Frequently Asked Questions” de Stata,

Ejemplos en línea compilados por la universidad de UCLA,

Las referencias bibliográficas en “Stata Journal” y “Stata Technical Bulletin”.

Por ejemplo, suponga que se quiere calcular en Stata el coeficiente de concentración gini

(procedimiento muy conocido en economía y estadística), pero no se sabe si Stata realiza

este cálculo y, además, si es posible hacerlo, no se conoce el comando para ejecutarlo.En estos casos el comando search resulta de gran ayuda. Por ejemplo al escribir en elcuadro de comandos

. search gini

Se despliega el siguiente cuadro de ayuda:



9

Tipo de Archivo Extensión

Archivos de datos *.dta

Archivos gráficos *.gph

Bitácoras de salida *.smcl

Archivos de comandos *.do

Archivos de programación *.ado

Tabla 4. Tipos de archivos

2.5 Estructura de comandos

La creación de las variables se realiza por medio del comando generate, los comandos enStata no son necesarios escribirlos en su totalidad. La mayoría de los comandos puedenser reducidos en un prefijo, para conocer el prefijo de cada comando escriba help nombre

del comando y en la ayuda, aparecerá subrayado el nombre hasta cierto carácterindicando que puede usar solamente ese texto para ejecutar el comando, por ejemplo g

es igual a generate

[by varlist:] Command [varlist] [=exp] [if exp] [in range] [weight] [using filename] [,options]

Por ejemplo:

Se debe tener en cuenta que Stata distingue entre letras mayúsculas y minúsculas. Todoslos comandos del programa se deben escribir en letras minúsculas. De lo contrario elprograma no lo reconoce. Los paréntesis cuadrados indican que no es un carácterobligatorio dependiendo el comando específico.

Es posible usar con Stata prefijos para algunos comandos, por ejemplo, el comandoregress que permite realizar el procedimiento de regresión se puede ejecutar digitando

solamente los tres primeros caracteres, es decir al tener reg ejecuta la misma función queal escribir reg ress.

Para conocer mayor información sobre la estructura de los comandos de Stata, busqueinformación así: help syntax



10

2.6 Ventana de comandos

Es común encontrar en las ventanas emergentes de Stata el nombre del comando quepermite realizar la instrucción que se le ordenará al programa para que realice, por

ejemplo, al seguir la rutaFile Import Text Data created by a spreadsheet

En este caso es el comando insheet . A continuación se explican algunas característicasgenerales de las ventanas emergentes de Stata para la realización de procedimientos,este manual no presentará las ventanas en las cuales se ejecutan las instrucciones sinolos comandos y las opciones correspondientes.

Como se menciono anteriormente en la parte superior de cada ventana aparece elnombre del comando correspondiente, si el usuario desea llamar una ventana puedehacerlo desde la ventana de comandos por medio de db nombre_comando.

Comando

Descripción del comando

Copiar comocomando

Ejecutar No Ejecutar

Ayuda de lainstrucción

Ejecutar ymantener

la ventanaactiva

Limpiar laventana

Figura 5. Características de una ventana



11

2.7 Configuración de la memoria de Stata

Stata funciona exclusivamente desde la memoria RAM. El programa únicamenteinteractúa con el disco duro del computador cuando se hacen salvados de bases de

datos, gráficos, archivos log, o archivos de comandos. En la versión 12, Stata configuraautomáticamente el tamaño de la memoria para poder trabajar con bases de datos muygrandes.

Para versiones inferiores a la 12 las versiones SE y MP del programa trabajan con 10megas de memoria RAM. Sin embargo, cuando se trabaja con bases de datos muygrandes, es posible configurar la cantidad de memoria RAM disponible para una sesión detrabajo a través del comando set memory.2 Por ejemplo, para trabajar con 100 megas dememoria RAM la sintaxis es3:

set mem 100m

Es muy importante que antes de empezar una sesión de trabajo el usuario configure lacantidad de memoria RAM que necesita de lo contrario emergerá el siguiente error:

no room to add more observations

r (901);

2.8 Cambiar el directorio de trabajo de Stata

La sintaxis para cargar y salvar datos puede ser muy extensa dependiendo de la ruta deacceso a las bases de datos o el lugar en el disco duro donde se quieran almacenar losresultados. Una forma práctica de abreviar la sintaxis en ambos casos consiste en

indicarle a Stata, antes de comenzar la sesión de trabajo, el lugar en el disco duro dedonde se desean tomar los datos y donde se quieren almacenar los resultados. Esteprocedimiento se lleva a cabo a través del comando cd así:

. cd "C:\...."

La otra opción es por medio del Menú File Change Working Directory

Entre comillas se debe encontrar la dirección o ruta de la carpeta donde se encuentran lasbases de datos que serán empleadas en la sesión de trabajo de Stata.

2.9 Bases de datos de ejemplo

En el momento en que Stata se instala en su equipo se incluyen bases de datos deejemplo las cuales le permitirán trabajar con el software, tenga en cuenta estos archivos

2 Si desea conocer qué versión tiene de Stata y la configuración de la memoria y la licencia del programaescriba el comando about o creturn list. 3 Se recomienda revisar la ayuda sobre el comando set y el comando memory



12

Continua Ordinal Nominal

dado que la ayuda en muchas ocasiones se referencia a las bases de datos del software,para acceder a ellas siga la ruta File Example Datasets Example datasets installed

with Stata o para acceder a todas las bases de datos seleccione Stata 12 manual

datasets pero debe tener acceso a internet.

El comando asociado es:

. sysuse dir * para ver el directorio de bases de ejemplo en su equipo

. sysuse auto.dta * cargará la base auto.dta que es una base de ejemplo de Stata

2.10 Tipos de variables

Una de las preguntas comunes en el manejo de un software estadístico es cómo elprograma clasifica o categoriza las variables, es decir que formato es posible asignarle auna variable, para ello es necesario primero que el usuario tenga claro el tipo de variable.

Las variables se pueden dividir de acuerdo al siguiente esquema:

F

Stata es “case sensitive”, es decir, distingue entre mayúsculas y minúsculas, de forma

que las variables var1 es diferente a Var1.

Para Stata se manejan los datos cuantitativos por diferentes tipos de variables los cualesse diferencian por el rango de los datos o por el tamaño en el número de caracteresdisponibles a continuación se presenta una tabla que describa los tipos de datos.

VARIABLE

CUANTITATIVA CUALITATIVA

Discreta

Figura 6. Tipo de variables



13

TIPO DE VARIABLERANGO

FORMATOM NIMO M XIMO

Byte -127 100 %8.0g

Int -32,767 32,740 %8.0g

Long -2,147,483,647 2,147,483,620 %12.0g

Float -1.70141E+38 1.70141173319*10^38 %9.0g

Double -8.9885E+307 8.9884656743*10^307 %10.0g

Precisión para FLOAT 3.795x10^-8.

Precisión para DOBLE 1.414x10^-16.

Tabla 5. Tipos de Variable

El número que aparece después del símbolo % es el número máximo de dígitos enteros oancho que soporta el formato y el número a la derecha índica el número de decimales,posteriormente se encuentra una letra. Donde [f] es aproximación al entero más cercano,[e] indica notación científica y [g] indica decimales.

Stata por defecto selecciona el formato FLOAT, el otro tipo de variables son las variablesalfanuméricas, estas variables en las que se encuentran principalmente las variablescualitativas, Stata define un formato especial para ellas, y es el formato STRING, %str#es la visualización de este formato, en el cual el carácter # indica el largo de la cadena.

2.10.1 Formato de las variables:

El formato de las variables hace referencias a la forma como son almacenadas ydesplegadas las variables en STATA. Para cambiar el formato de una de una variable através del lenguaje de sintaxis debe tener en cuenta que el formato de toda variablesiempre antecedido por el símbolo “%”.

Variables de cadena

Variable numérica

% 20 s Variable “String”

Inicio de un formato número de caracteres



14

Si desea cambiar el formato de una variable utilice el comando recast.

. sysuse auto

. describe Price

. recast float price

Para mayor información: help data_types y help recast

Formato general “g”, Notación científica “e”,formato fijo “f ”

% 10. 0 g c opcional, separados de

miles por comasInicio de un formato

Dígitos antes del punto decimalDígitos después del punto decimal



15

3. MANEJO DE BASE DE DATOS

Antes de realizar un análisis de la información ya sea de tipo descriptivo o inferencial, sedebe contar con toda la información que sea pertinente para el análisis respectivo y lascondiciones que deben tener cada una de las variables para poder establecer un entornoeficiente en Stata 12, para ello en esta sección podrá ver como se manipulan las basesde datos en Stata 12, por ejemplo series financieras (precio de activos) y económicas(inflación, desempleo, crecimiento económico, entre otras).

Una de las ventajas de Stata es su fortaleza en el manejo de bases de datos,principalmente porque permite al usuario administrar gran cantidad de variables y deobservaciones, además, es posible realizar manipulación y transformaciones como soncrear, eliminar, modificar, concatenar y también permite agregar variables y observacionesa una base de datos con otras bases, entre muchas más.

Entre opciones avanzadas se encuentran la protección de bases de datos, la creación defirmas y restricciones a usuarios. Stata permite a los usuarios manejar bases de datos deformatos como son MS Excel, texto, SQL, SAS, entre otros, de igual forma permiteexportar archivos a dichos formatos.

3.1 Fundamentos de bases de datos

Hay ciertas características que usted podrá aprender para el manejo de la información,entre ellas los pasos fundamentales, como son, importar una base de datos, eliminación,transformación de bases de datos, entre otros.

3.1.1 Creación de un archivo log

Un archivo tipo texto con extensión “.log” o “.smcl”4, permite guardar todo lo que usteddigite y ejecute en la línea de comandos así como las salidas obtenidas en la ventana deresultados realizadas durante la sesión activa de Stata.

Se recomienda que la extensión sea SMCL, dado que le permite conservar las fuentes ycolores de su ventana de resultados y además podrá configurarlo para imprimir.

4 Iniciales de Stata Markup and Control Language.



16

Figura 7. Creación de un archivo Log

Para la creación de un archivo log por medio de comandos debe usar

. log using tables.log, replace

3.1.2 Abrir una base de datos

El primer paso es cargar una base de datos, para ello depende el formato de la base de

datos. Es común que los usuarios contengan su información en archivos tipo Excel, paraello es necesario tener claro que Stata requiere que el separador decimal debe ser elpunto (.), para ello se recomienda utilizar la herramienta de buscar-reemplazar de Excel ohacer cambio de la configuración de Excel o de la configuración regional de su equipo.

Recuerde que las bases de datos de Stata finalizan con la extensión .dta, cuando se tieneun base tipo Stata para abrirla puede utilizar la ruta File Open o mediante el tecladoCTRL+ O y seleccionar el archivo o por el ícono abrir de la barra de herramientas, pormedio de comandos podrá usar la instrucción use

. use "C:\Users\Brayan\Desktop\ipc_raw.dta", clear

Recuerde la sección 2.8 en donde se indica como activar un directorio de trabajo para notener que referenciar la ruta o path en donde se encuentra el archivo; si ya tiene undirectorio activo la instrucción es:

. use ipc_raw, clear

Dado que la instrucción solo importa bases de datos de formato Stata no se requiereingresar la extensión .dta.

Finalmente con el comando use podrá seleccionar solamente las variables que deseausando la opción using importar por ejemplo

. use fecha ipc inflación using ipc_ra, clear

3.1.3 Importar una base de datos .CSV o TXT

Uno de los formatos más comunes en el manejo de información estadística es el formatoSeparado por Comas (CSV), para importar una base de dato se sigue la ruta:

File Import Text Data created by a spreadsheet



17

En este caso el comando insheet tiene la siguiente estructura

insheet [variables] using ruta, opciones

Por ejemplo:

. insheet using "C:\Users\USER\Documents\Software Shop\Stata\Taller docentes\Docentes_01.csv", delimiter

(":") clear

En el caso que el usuario no requiera importar la totalidad de la base de datos debeespecificar después del comando insheet el nombre de las variables; entre las opcionesse encuentran, los tipos de formato que separa los datos, como son tabulaciones (tab),comas (comma) o especificado por el usuario (delimiter(“x”)).

La función anterior es similar para archivos con extensión .TXT.

3.1.4 Importar una base de datos .XLS o .XLSX

3.1.4.1 Editor de datos en Stata

Es común que las bases de datos y los archivos que se usan a diario por las empresas ysus trabajadores sean de hojas de cálculo, para facilitar el trabajo de uso de Stata cuandolas bases son de una hoja de cálculo se puede sin mayor problema copiar los datos de lahoja correspondiente y posteriormente en la ventana edit dar clic derecho y seleccionarpegar o la secuencia CTRL+V, de ésta forma Stata reconoce los datos correspondientes.El software abrirá una ventana en donde se pregunta si los datos que se encuentran en laprimera fila son las etiquetas de los datos o si no lo son, dependiendo de la fuente de losdatos se toma la decisión.

Figura 8. Pegar datos desde Excel

Nota: El usuario debe tener sumo cuidado con el formato de la base original dado que Stata trabaja los separadores decimales con el punto y no con la coma como se usa en la configuraciónde los computadores con idioma español. Para ello se recomienda al usuario cambiar el formato deseparador decimal y de miles en su hoja de cálculo o directamente desde la configuración regional



18

de su equipo. De igual forma usar la técnica de buscar y reemplazar le permite obtener un buen

resultado.

Se recomienda ver información adicional con help input, infix e infile.

Los datos pueden ser visualizados o introducidos en Stata haciendo clic en el ícono de laventana “Data Editor”, presionando “CTRL+8”, o haciendo clic en

Data Data Editor Editor .

Figura 9. Editor de datos.

Snapshots: Permite preservar y restaurar la base de datos a un puntopredeterminado por el usuario.

Filter Observations: Mientras esté abierto el editor de datos, a través de estaopción es posible mantener un filtro sobre la base la base de datos.

Variable Properties: Esta opción permite renombrar variables, asignar etiquetas avariables y valores de variables categóricas, y ajustar los tipos de variables y losformatos de las variables.

Variable Manager: Similar a la opción anterior, además permite visualizarsimultáneamente varias variables y adicionar notas a estas.

3.1.4.2 Asistente de Importación de Excel files

La versión 12 de Stata ha incorporado una nueva herramienta para importar bases dedatos tipo .xls o .xlsx, para acceder al asistente siga la ruta File Import Excelspreadsheet (*.xls, *.xlsx) emergerá la siguiente ventana:

Edit ModeBrowse Mode

Filter Observations

Variables Manager Snapshots

Variable Properties



19

Figura 10. Asistente Importación Archivos de Excel

Nota: Para poder importar la base de datos debe tener cerrada la base de datos de lo contrario elasistente no realizará la importación.

La estructura del comando es:

import excel [using] filename [, import_excel_options]

En las opciones podrá seleccionar:

sheet("sheetname") Nombre de la hoja a importar cellrange([start][:end]) Rango de celdas a cargar firstrow Tomar la primera fila como los nombres de las variables allstring Importar todas las variables como texto

clear Reemplazar los datos en la memoria

Para el ejemplo la instrucción es:

. import excel "C:\Users\Brayan\Desktop\base1.xlsx", sheet("base 1") firstrow

Busque elarchivo deExcel

Seleccionela hoja aimportar

Active la casilla si ensu hoja la primera filacontiene los nombresde las variables

Seleccione elrango de losdatos



20

3.1.5 Importar otros tipos de archivo

Hay otro tipo de archivos que Stata le permite importar automáticamente como archivopara ello se recomienda tener en cuenta las siguientes recomendaciones:

TIPO DE BASE COMANDOODBC Odbc

Archivo de Texto sin diccionario(.raw)

Infile

Archivo de Texto con ancho fijo(.raw)

Infix

Archivo de Texto con diccionario ( infile2

Formatos SAS XPORT o .xpf import sasxport

Formato tipo haver Haver

XML files Xmlsave

Tabla 6. Otros comandos para importar archivos

Finalmente si tiene otro tipo de archivos se recomienda que adquiera el softwareStat/Transfer, para mayor información ingrese a www.stata.com/products/stat-transfer/,este programa permite importar archivos tipo SPSS, SAS, R, RATS, Statistics, MATLAB,GAUSS, entre otros

3.2 Salvando una base de datos

Como los datos han sido cargados en la memoria RAM, sólo puede modificarse la basede datos original de tres formas

Haciendo clic en el icono de salvado en la barra de herramientas

Haciendo clic en CTRL+S

A través del cuadro de comandos empleando el comando “save”, por ejemplo:

. save base1.dta, replace

La opción replace le permite sobre escribir un archivo que tenga en el mismo directorio detrabajo activo y con el mismo nombre.

Una vez que los datos han sido guardados o abiertos es posible optimizar el espacio queestos ocupan utilizando el comando compress este comando comprime la base de datos.

Es muy útil cuando se trabaja con bases de datos grandes.

3.3 Descripción de la base de datos

Una vez se tenga una base de datos cargada, es necesario empezar a revisarla y obtenerinformación de ella, para ellos Stata le permite al usuario por medio de diferentesprocedimientos entender cada variable y su contenido.



21

Lo primero que debe realizar el usuario una vez importa o abre una base de datos esobservar la base, para ello se encuentran diferentes formas de visualizar los datos, entreellas las opciones de edit y de browse, las cuales abren una ventana con forma de hoja decálculo, la otra opción es por medio del comando list que permite visualizar la o las

variables en la ventana de resultados, se recomienda usar los comandos edit, browse y list con las opciones if – in (ver más información en la sección 3.4).

Adicional a esto el usuario puede recibir información específica de cada variable pormedio de las opciones del menú Data Describe Data. En éste menú las opciones dedescribe data in memory, describe data contents e inspect variables, le da la posibilidad alusuario de obtener información correspondiente al nombre, la etiqueta, el tipo y formatode la variable, notas, etiquetas sobre valores, el número de valores perdidos, entre otras.

A continuación se presenta un ejemplo del uso de estos comandos

Cargar una base de datos del programa

. sysuse auto

Observar los datos

. browse

Figura 11. Comando browse

Describir los datos

. describe make rice mpg



22

Tabla 7. Comando describe para algunas variables

Cuando se desea aplicar un comando para todas las variables de la base de datos podráhacerlo ingresando el comando sin incluir ninguna variable de esta forma Stata tomará lainstrucción para toda la base de datos, otra alternativa es escribir _all posterior alcomando por ejemplo:

. sysuse auto

. describe _all

Tabla 8. Describe de todas las variables en la base de datos

3.4 Creación de Variables

Por medio del menú Data se puede encontrar opciones como crear nuevas variables

Data Create or Change Data Create New Variable:

.

mpg int %8.0g Mileage (mpg)

price int %8.0gc Price

make str18 %-18s Make and Model

variable name type format label variable label

storage display value

foreign byte %8.0g origin Car type

gear_ratio float %6.2f Gear Ratio

displacement int %8.0g Displacement (cu. in.)

turn int %8.0g Turn Circle (ft.)

length int %8.0g Length (in.)

weight int %8.0gc Weight (lbs.)

trunk int %8.0g Trunk space (cu. ft.)

headroom float %6.1f Headroom (in.)

rep78 int %8.0g Repair Record 1978

mpg int %8.0g Mileage (mpg)

price int %8.0gc Price

make str18 %-18s Make and Model

variable name type format label variable label

storage display value



23

Figura 12. Comando generate

Figura 13. Prefijo de un comando

Algunos ejemplos de creación de variables:

. generate suma = var1 + var2

. gen resta = var1 – var2

. g multiplicación = var1 * var2

Para la creación de las variables se recomienda usar el siguiente cuadro



24

Tabla 9. Operadores

En algunas ocasiones se requieren algunos caracteres especiales, uno de ellos son loscaracteres _n y _N o denominadas variables del sistema, _n es un contador del númerode observaciones, y _N indica el total de observaciones de la base de datos.

. gen tendencia = _n

. gen totales = _N

Para la creación de variables con condiciones puede utilizar la opción de la estructura decomandos [if] [in], estas opciones le permitirán poner restricciones no solo para lacreación de variables si no para la gran mayoría de comandos que contiene Stata, debetener en cuenta que solo debe escribir una vez el carácter if o in, a continuación algunosejemplos en el uso de estos caracteres especiales:

. gen dummy = 1 if TV >5 *crea una variable con valores = 1 si TV > 5, perdido en otro caso.

. list make mpg if mpg>25

. list price in 10/20 * crea una lista para las observaciones entre la 10 y 20

. list price in -10/l * crea una lista con las últimas 10 observaciones

Para la opción in se puede utilizar las siguientes estructuras:

# Condición sobre una única observación

#/# Condición sobre un rango de observaciones

#/l Condición sobre una observación hasta la última (l)



25

f/# Condición desde la primera observación (f) hasta una observación

-#/# Condición desde las últimas # observaciones hasta # que puede ser la últimacon l, *L minúscula*

A continuación se listan algunas funciones matemáticas, estadísticas y de fechaimportantes en la creación de variables

Función Ejemplo Descripciónln() g lpib = ln(pib) Logaritmo natural

exp() g epib = exp(pib) Exponencialsqrt() g y = sqrt(epib) Raíz cuadradaabs() g x = abs(y) Valor absolutocos() g coseno = cos() Cosenologit() g logit = logit(x) Retorna el logaritmo de los odds ratio de x

runiform() g uniforme = runiform() Genera números aleatorios de una distribución

uniforme [0,1)rnormal() g normal = rnormal() Genera números aleatorios de una distribución

normal estándar (0,1)rnormal(m,s) g normal = rnormal(10,2) Genera números aleatorios de una distribución

normal con media m y desviación estándar s int() g enteros = int(pib) Convierte una variable o dato en entero

invnormal(p) g inversa = invnormal(prob) Genera una variable como la inversa de laprobabilidad de una distribución normal

length(s) g largo = length(nombre) Presenta el número de caracteres de unavariable string

Tabla 10. Ejemplos Funciones generate

Ejemplo:

. use personas, clear

*Logaritmo natural de los ingresos laborales

. gen lny=ln(i_laboral)

*Logaritmo natural de las horas de trabajo al mes

. gen lnm=ln(htm)

*Años de experiencia laboral al cuadrado

. gen exp2=exp^2

*Horas de trabajo al mes expresadas en números enteros

. gen horas=int(htm)

*Horas de trabajo al mes expresadas en números enteros (redondeado)

. gen horasr=round(htm)



26

* Si cumple la condición (ser menor de 25 años) marcar con el número “1”

. gen men25=1 if e02<25

Para recodificar variables (cambiar los valores de una variable) se pueden utilizar los

comandos recode (ver más información en la sección 3.12.1) o replace. Por ejemplo, si sequiere reemplazar en la variable men25 los valores perdidos “.” por “0” una opción es

emplear el comando replace así:

. replace men25=0 if men25==.

(24841 real changes made)

3.4.1 Extensiones en la creación de variables

Podemos utilizar algunos comandos adicionales para la creación de variables con algunascondiciones, tales como el comando egen y la función cond ()

Ejemplo:

. gen dummy = cond(TV>5,1,0)

. gen dummy = (TV>5)

. egen concatenar = concat(“variable1” “variable2 ”)

FUNCIÓN EJEMPLO DESCRIPCIÓNmax() egen maximo = max(ingresos) Presenta el máximo de una variablemin() egen minimo = min(ingresos) Presenta el mínimo de una variable

mean() egen promedio = mean(ingresos) Presenta el promedio de una variablekurt() egen curtosis = kurt(ingresos) Presenta la curtosis de una variable

sd() egen desviación = sd(ingresos) Presenta la desviación estándar de unavariable

Tabla 11. Funciones generate y egen.

3.5 Ordenar variables y bases de datos

Ordenar datos Data Sort Ascending Sort :



27

Figura 14. Ordenar datos

Para ordenar en forma descendente se recomienda usar el comando gsort de la siguienteforma:

. gsort – var1 – var2 +var3

El comando anterior produce un ordenamiento descendente primero por la variablesVAR1, seguido por la variable VAR2 y de forma ascendente por la variable VAR3,indicando que se debe ubicar un signo (-) para establecer descendente y un signo (+)para orden ascendente, aunque este último no es necesario en el comando.

Existe otro caso y es en el caso que se deseé ordenar las variables, es decir cambiar elorden en la base de datos, por medio del comando order es posible realizar esto, de igualforma es posible utilizar aorder para que las variables queden ordenadas en formaalfabética. Finalmente el comando move permite modificar la ubicación de las variables,pero a partir de la versión 11, este comando es reemplazado por order .

3.6 Cálculos por grupos

En algunas ocasiones el usuario requiere de verificar la información por una característicaparticular, grupales, entre otras, para ellos Stata cuenta con el prefijo by el cual se ubicaprevio al comando estadístico, gráfico o de modelo.

Ejemplo:

. use http:/ /www.Stata-press.com/data/ imeus/census2d , clear

. gsort region -pop

. by region: generate totpop = sum(pop)

. by region: list region totpop if _n = = _N

. by region: egen meanpop = mean(pop)

. by region popsize, sort: egen meanpop2 = mean(pop)

. by sex age: regress wage expert expert2 occup

http://www.stata-press.com/data/imeus/census2d






29

Tabla 14. Comando inspect rep78

3.8 Conservar y recargar bases de datos

Es importante cuidar la base de datos que se está trabajando, por eso se recomiendasalvar la base de datos, pero además, Stata ofrece opciones que le permitirán al usuario

guardar la base de datos de forma virtual, por medio de los comandos preserve ysnapshot y para recuperar la base con el comando restore

. preserve

. restore

. snapshot save, label("nombre del elemento guardado")

. snapshot restore 1

Figura 15. Opción snapshot

La diferencia entre el snapshot y el preserve es que este último solo permite guardar unavez la base de datos, mientras el snapshot varias veces.

3.9 Filtros de la base de datos

Ejemplo acerca de la opción filtros:

. browse if pop > 10000000

. browse if pop > 10000000 & marriage > 100000

. browse if pop > 10000000 & marriage > 100000 & popurban > 10000000

. browse if pop > 10000000 | marriage > 100000 & popurban > 10000000

Uso del in

(5 unique values)

1 5 74

. Missing 5

Total 69 69 -

Positive 69 69 -

Zero - - -

Negative - - -

Total Integers Nonintegers

rep78: Repair Record 1978 Number of Observations

. inspect rep78

Snapshot

AgregarSna shot

Remover Snapshot

Cambiar el nombre

Restaurar



30

. browse pop in 1/10

. browse pop in f/10 f = FIRST, l = LAST

. browse pop in 10/l hasta el último

Se puede combinar con que realizar el filtro puede usar los comandos browse, edit, keep,drop y list.

drop elimina observaciones y/o variables, keep conserva observaciones y/o variables, list presenta variables y/o observaciones en la ventana de resultados, edit permite visualizarlos datos en una hoja de datos y podrá editar y modificar los datos, browse realiza lasmismas opciones de edit pero no se puede modificar la información.

El comando keep y drop tienen la misma estructura

keep/drop variables

keep/drop if expressionkeep/drop in rango

Ejemplo:

. sysuse census

. drop death divorce * Elimina las variables death y divorce

. keep state pop medage marriage * Conserva las variables indicadas

. drop if medage > 30 * Elimina las observaciones donde medage sea mayor a 30

. sort popurban

. keep in -10/l * Conserva las últimas 10 observaciones con mayor popurban

3.10 Administrador de variables

En la versión 11 de Stata se incluyó la ventana del administrador de variables, esteadministrador de variables permite modificar información de cada variable, principalmenteel cambio de nombre, etiquetas, tipo de variable, formato, notas y creación de categoríasy etiquetas.

. varmanage



31

Figura 16. Administrador de variables.

Para la modificación de la variable, deberá ser seleccionada la variable y una vezmodificada la información correspondiente debe dar clic en Apply.

En la versión 12, Stata ha incluido una nueva ventana que es la ventana de propiedadesen la cual se pueden modificar la información de cada variable:

Figura 17. Ventana de Propiedades

Entre los cambios del administrador de variables y la ventana de propiedades seencuentran las siguientes opciones, se describe el comando correspondiente paraautomatización de tareas.



32

3.10.1 Rename

Este comando permite cambiar el nombre de una variable. Por ejemplo:

rename nombreviejo nombrenuevo

. rename price precio

3.10.2 Label Variable

Para colocar la etiqueta a la variable, con la cual se describe la información de la misma:

label var nombrevariable “etiqueta variable”

. label var precio “Precio del auto”

3.10.3 Notes

Se pueden crear dos tipos de notas, una para las variables o para la base de datos, acontinuación un ejemplo para cada caso:

. notes divorce: 1 si la persona es divorciada, 0 en otro caso * nota para la variable divorce

. notes _dta: Censo 1994 * nota para la base de datos

3.11 Creación de categorías

La forma más sencilla de crear categorías de variables es por medio del administrador devariables, la variable que seleccionará debe ser discreta, una vez inicie el administrador

debe seleccionar la variable que codificará, luego debe dar clic en Manage que seencuentra a la derecha de la opción Value label

Figura 18. Manage

La figura 16 presenta el administrador de etiquetas, en el cual podrá crear, editar oeliminar etiquetas y para las etiquetas ya creadas puede agregar, editar o eliminar valores

que se encuentran en una etiqueta creada.



33

Figura 19. Administrador de Value Labels

Para crear una nueva etiqueta haga clic en Create Label, en la figura 17 podrá agregar,eliminar y editar las categorías con su correspondiente descripción.

Figura 20. Creación de Labels

Una vez haya creado la etiqueta deberá asignarla a la(s) variable(s) que correspondan,para ello en el administrador de variable a la izquierda de Manage seleccione el nombre

de la etiqueta.



34

Figura 21. Asignación de etiquetas

Por medio de comandos

. label define respuestas 1 “si” 2 “no” * Creación de la etiqueta con sus valores

. label values pregunta1 respuestas * Se asigna a la variable pregunta1 la etiqueta respuestas

3.12 Modificación y transformación de variables

En la sección anterior se presentó la forma de creación de variables por medio de loscomandos gen y egen, de igual forma el comando replace. Pero existen otras formas demodificar variables ya sea en su formato, tipo de variable, codificación entre otras, acontinuación se presentan las más importantes.

3.12.1 Recode

Este comando permite recodificar algún valor de una variable

. recode x (1=2), gen(nx) *Ejemplo 1

. recode x1 (1=2) (2=1), gen(nx1) *Ejemplo 2

En el ejemplo 1 se recodifica la variable x, cambiando los valores 1 por valores 2, lavariable transformada se guarda como nx.



35

Figura 22. Recode

En el ejemplo 2 se cambia de 1 a 2 y de 2 a 1, generando la variable nx1.

3.12.1.1 Variables categóricas a partir de variables continuas.

Ejemplo:

Suponga que se quiere generar una variable que segmente a la población en grupos deedad (menores de 18 años, entre 18 y 25 años, entre 26 y 40 años, entre 41 y 60 años,mayores de 60 años), con un número distintivo para cada categoría. Una opción esemplear el comando recode y generate (desde el do-file editor ) así:

. recode e02 (min/17=1) (18/25=2) (26/40=3) (41/60=4) (61/max=5), gen(gedad)

o en forma alternativa

recode e02 (min/17=1 "Menores de edad") (18/25=2 "Entre 18 y 25 años") (26/40=3 "Entre 26 y 40 años")

(41/60=4 "Entre 41 y 60 años") (61/max=5 "Mayores de 60 años"), gen(gedad)

La variable gedad es una recodificación de e02 (edad). Note que se han aplicadoetiquetas a cada una de las categorías entre comillas.

. codebook gedad



36

Tabla 15. Comando codebook

3.12.2 División de Variables de texto

Split divide una variable texto en nuevas variables por el espacio o un carácter específico

split var1, parse(,) gen(geog)

3.13 Combinación de bases de datos

La combinación de bases de datos es un problema muy común para el investigador o elanalista de información, Stata le permite realizar diferentes tipos de fusiones de bases dedatos, a continuación se presentan los dos formatos más importantes, la adición vertical(merge) y horizontal (append ).

Figura 23. Combinación de base de datos

3.13.1 Combinación Vertical – Append

Este comando agrega filas a la base de datos, las variables deben como regla contenerlos mismos nombres, el mismo tipo de variable y además la base de datos sus variablesdeben estar ordenadas de igual forma. Para combinar conjuntos de datos verticalmentese emplea el comando append .

En nuestro ejemplo, a la base de datos HOMBRES se va adicionar los casoscorrespondientes la información de las mujeres así:

EDUCACION.dta

HOMBRES.dta

Adición casos:append

No es necesaria

variable llave

MUJERES.dta

Adición de variables: merge

Es necesaria variable llave.

Las bases de datos deben

estar ordenadas.

Revisar la variable _merge



37

. use hombres, clear

. append using MUJERES

En la nueva base de datos se ha combinado la información hombres y mujeres en unaúnica base de datos.

. d

Tabla 16. Comando describe

En este punto se deben tener en cuenta dos aspectos.

1. El comando append debe estar acompañado de la palabra using la cual indica queel nombre a continuación corresponde a la base de datos de datos que seráadicionada verticalmente.

2. Como la base de datos cargada en la memoria RAM ha cambiado es convenienteque el usuario salve la nueva información con otro nombre así.

. save PERSONAS, replace

3.13.2 Combinación Horizontal – Merge

Se usa cuando se quieren traer nuevas variables de una base llamada using a una basede datos ya existente o master , éste comando une dos bases de datos utilizando unavariable en común (generalmente es una ID, llave o código que identifica lasobservaciones de la base de datos). Las dos bases de datos deben estar guardadas en

formato .dta, y deben estar ordenadas de acuerdo a la variable que se va a pegar. Elobjetivo de este comando es agregar variables (columnas).

Para pegar dos bases de datos (A.dta y B.dta), se deben realizar los siguientes pasos:

1. Ordenar (sort) la base de datos B de acuerdo a las variables con las que se hará launión de las bases, es decir de acuerdo al ID, y guardar.

2. Abrir la base A y ordenarla de acuerdo al paso 1.



38

3. Usar el comando merge4. Guardar la base de datos (save)

Si la base no está ordenada y contiene datos repetidos emerge el siguiente error:

Using data not sortedMaster data not sorted

Para verificar que usted tenga un identificador único se recomienda que lo verifique pormedio del comando isid .

. isid id num

Si emerge error es porque el identificador se repite y si va hacer una fusión tendráinconvenientes. Al momento de realizar el merge se crea una variable denominado

_merge, que contiene tres valores:

_merge = = 1 Las observaciones son originarias del archivo “master” o base

_merge = = 2 Las observaciones son originarias del archivo “using”

_merge = = 3 Las observaciones se encuentran en ambos archivos

Siguiendo con el ejemplo anterior, se va a agregar a la base de datos PERSONAS.dta,nuevas variables con la información sobre el nivel educativo y los años de educaciónaprobados de las personas. Esta información se encuentra en la base de datosEDUCACION.dta. Los pasos a seguir para realizar este tipo de pegue son:

1. Cargar la base “using” (EDUCACION.dta) de donde se quiere traer las nuevasvariables, la ordenamos de acuerdo con la(s) variable(s) identificadora(s) “numero

y e01” y salvamos los cambios. El comando para ordenar las observaciones es

sort así:

. use EDUCACION

. sort numero e01

. d

. save EDUCACION, replace

En este caso, el comando save está acompañado de la opción replace la cualdenota que se está sobrescribiendo en la base EDUCACION original.

2. Cargar la base “master” (PERSONAS.dta), se ordenan por el mismo criterioanterior y se guardan los cambios.

. use PERSONAS

. sort numero e01

. d



39

. save PERSONAS, replace

3. Se aplica el comando merge para pegar horizontalmente las dos bases así:

La base de datos PERSONAS.dta contiene ahora las variables de la base de datosEDUCACION.dta, creando automáticamente la variable _merge.

3.14 Cambio en la organización de los datos

Cuando una base de datos tiene más de una observación por unidad de estudio(individuo, país, empresa, etc.) nos puede interesar sólo trabajar con una observación porunidad (collapse) o mantener las observaciones distintas para cada individuo pero que secreen como variables o columnas distintas (reshape)

3.14.1 Collapse

Si se tiene una base de datos de hogares, cada observación es un miembro del hogar. Sicada hogar dispone de un identificador único, entonces se puede formar una base dedatos alternativa que contenga una sola observación por hogar (en lugar de unaobservación por individuo) para cada una de las variables deseadas. Esta observaciónpuede contener la media, desviación estándar, suma u otro estadístico. Ejemplo:

. collapse (mean) edad (max) educación (p50) ingreso, by(hogar)

Lo anterior crea una base de datos con cuatro variables, hogar, edad, ingreso yeducación.

Con frecuencia, la información estadística tiene algún grado de reserva o confidencialidadque la hace no accesible al público en su forma original. La mayor parte de la informaciónproveniente de bases de datos grandes, por ejemplo las encuestas (de personas, dehogares, de empresas de la industria manufacturera, etc.) o los censos (de población, deinstituciones educativas, de edificaciones, etc.) suele ser presentada en tablas resumen y

en bases de datos colapsadas o agregadas.

En Stata es posible colapsar bases de datos a través del comando collapse. Debetenerse en cuenta:

1. La(s) variable(s) de agregación: Variable(s) que definen las nuevas unidades deobservación u observaciones agregadas.



40

2. El(Los) criterio(s) de agregación: Es la(s) operación(es) matemática(s) que será(n)aplicados a la base de datos original para obtener las nuevas unidades deobservación colapsadas: suma, media, mediana, cuenta, percentil, etc.

3. La base de datos original ha sido modificada. Debería salvarse con un nuevonombre.

Por ejemplo, a partir de la base personas.dta, se puede obtener una base de datosagregada por localidad y sexo así:

. collapse (mean) edu007, by(localid e03)

Tabla 17. Collapse

La variable edu007 corresponde a los años de educación promedio y jefe a la suma de los jefes de hogar, en ambos casos, por localidad y sexo.

3.14.2 Reshape

En algunas ocasiones dependiendo del estudio muestral y de la construcción de la basede datos, usted encontrará su información en dos formatos, ancho (wide) y largo (long), elformato ancho es aquel en el cual usted tiene un conjunto i de individuos y un número j de

variables, donde j es generalmente una variable con información para diferentes períodosde tiempo.

Para mostrar un ejemplo, se utilizará la base de datos reshapeState descrita en el libro[1]:

. use http:/ /www.Stata-press.com/data/ imeus/reshapeState , clear

. list

http://www.stata-press.com/data/imeus/reshapeState






41

Tabla 18. Comando list

En este caso se encuentran seis códigos de estados de nueva Inglaterra, y aparece lainformación de la población desde 1970 hasta el 2000 calculada cada década, acontinuación se transforma la base de datos de formato wide a long por medio delcomando reshape, la estructura de este comando es:

reshape long variable_j, i(variable_individuos) j(nombre nueva variable)

reshape wide variable_j, i(variable_individuos) j(variable_temporal)

Con la base de datos actual se pasa de wide a long

. reshape long pop, i(state) j(año)

Tabla 19. Reshape long

. list

6. VT .1086679 .0445188 .5644092 .7219492 .6759487

5. RI .684176 .2551499 .2110077 .4079702 .0580662

4. NH .6047949 .8714491 .8414094 .1180158 .8944746

3. ME .5578017 .5552388 .5219247 .2769154 .4216726

2. MA .6432207 .0610638 .8983462 .9477426 .4611429

1. CT .1369841 .6184582 .4241557 .2648021 .871691

state pop1970 pop1980 pop1990 pop2000 area

pop1970 pop1980 ... pop2000 -> pop

xij variables:

j variable (4 values) -> año

Number of variables 6 -> 4

Number of obs. 6 -> 24

Data wide -> long



42

Tabla 20. Comando list después de Reshape long

Si se encuentra usted con una base de datos similar a la generada con el comandoreshape, podrá pasarla a formato wide, en nuestro caso se usará la siguiente sintaxis

reshape wide pop, i(state) j(year)

Continuando con el ejemplo de la encuesta de hogares. Se puede hablar de orientaciónvertical u horizontal cuando a cada una de las observaciones i en una base de datos, selas segmenta por algún criterio j (v.g., diferentes periodos de tiempo). En nuestro ejemplo,cada una de las localidades i, ha sido segmentada por sexo j, mientras que la base dedatos en conjunto ha sido desplegada de forma vertical. En este caso sin embargo, puederesultar más cómodo emplear una base de datos orientada horizontalmente, en particularsi se quieren hacer comparaciones para cada una de las localidades entre hombres ymujeres. Se puede emplear el comando reshape, acompañado de las opciones wide (despliegue horizontal) o long (despliegue vertical), para cambiar la orientación de la basede datos colapsada así:

. reshape wide edu007, i(localid) j(e03)

24. VT 2000 .7219492 .6759487

23. VT 1990 .5644092 .6759487

22. VT 1980 .0445188 .6759487

21. VT 1970 .1086679 .6759487

20. RI 2000 .4079702 .0580662

19. RI 1990 .2110077 .0580662

18. RI 1980 .2551499 .0580662

17. RI 1970 .684176 .0580662

16. NH 2000 .1180158 .8944746

15. NH 1990 .8414094 .8944746

14. NH 1980 .8714491 .8944746

13. NH 1970 .6047949 .8944746

12. ME 2000 .2769154 .4216726

11. ME 1990 .5219247 .4216726

10. ME 1980 .5552388 .4216726

9. ME 1970 .5578017 .4216726

8. MA 2000 .9477426 .4611429

7. MA 1990 .8983462 .4611429

6. MA 1980 .0610638 .4611429

5. MA 1970 .6432207 .4611429

4. CT 2000 .2648021 .871691

3. CT 1990 .4241557 .871691

2. CT 1980 .6184582 .871691

1. CT 1970 .1369841 .871691

state año pop area



43

Tabla 21. Comando list después de Reshape wide

Para volver a la forma vertical

. reshape long edu007, i(localid) j(e03)

Tabla 22. Comando list después de Reshape long

3.14.3 Xpose

Usted podrá modificar la orientación de una forma completa en su base de datos, es decir,pasar de filas a columnas (similar a realizar un transponer en Excel), debe tener cuidadodado que no podrá retornar a la posición inicial.



45

Figura 27. Base de datos después del comando stack

3.14.4.1 Extraer una muestra aleatoria de su base

En algunas ocasiones para hacer estudios muestrales requiere que la base de datos seadividida por un método aleatorio, para ello podrá hacer uso del comando simple

. sample 80 || tomará el 80% de la muestra

. sample 20, count || tomará 20 observaciones a l azar

3.15 Problemas en el manejo de bases de datos

Cuando usted trabaja con bases de datos en el día a día se encontrará con diferentesproblemas y situaciones que lo pondrán a prueba en el manejo no solo de Stata sino en elconocimiento de su información, por eso es importante que siempre se pregunte antes dehacer cualquier cambio en su base de datos, qué quiere hacer y cuál es el resultadoesperado, de esta forma podrá pensar más fácilmente que tipo de ejecución requiere enStata para llegar a su objetivo, a continuación se presenta un conjunto de comandos quepresentan algunos casos típicos en el manejo de bases de datos.

3.15.1 Replicar información

Dependiendo su análisis podrá requerir replicar algún tipo de información de su base dedatos, por ejemplo un cliente, un usuario, un grupo, una empresa, un país, aunque no esuna alternativa muy común, Stata le ayudará a realizar la reproducción de sus datos,expand , es el comando para duplicar información, pero con la característica que lo puedehacer n veces.

. sysuse auto, clear

. keep if price > 12000

. list make price



46

Tabla 23. List make y price

. expand 3

De acuerdo al comando usado, los datos se encontrarán 3 veces en la base de datos, taly como se presenta a continuación.

. sort make price

. list make price

Tabla 24. Comando list mpg y price después de expand 3

3.15.2 Verificación de datos

El comando assert le permitirá verificar la valides de sus datos, este comando le ofrece laposibilidad de incluir en un archivo de programación una condición, si la condición secumple parará la ejecución de la programación, y de esta forma usted podrá chequear sihay algo que no es correcto en su base de datos, por ejemplo, usted tiene una base dedatos con la edad de las personas, podrá utilizar assert para verificar que en ésta variableno hayan datos extraños, como una edad mayor a 100 años o menor a 0. La estructurasería:

5. Peugeot 604 12,990

4. Linc. Versailles 13,466

3. Linc. Mark V 13,594

2. Cad. Seville 15,906

1. Cad. Eldorado 14,500

make price

15. Peugeot 604 12,990

14. Peugeot 604 12,990

13. Peugeot 604 12,990













make price



47

. assert edad < 0 | edad > 100

Y aún más completo se recomienda incluir evaluar valores perdidos

. assert edad < 0 | edad > 100 | edad = =.

3.15.3 Contador y reporte de datos repetidos

El comando count cuantifica el número de observaciones con ciertas características. Lainstrucción por sí sola, presenta el número total de observaciones, pero es posibledeterminar algunas restricciones

Data Data Utilities Count obsevations

. count if foreign ==1

El comando isid nos permite asegurar que una variable es una codificación única dentro

de una base de datos, este comando se usa generalmente para chequear que no existanobservaciones duplicadas dentro de una base de datos. Si la variable tiene exactamentevalores únicos entonces no emerge ningún mensaje, de lo contrario aparece lo siguiente:

. isid foreign

variable foreign does not uniquely identify the observations

Otro comando que permite verificar si una variable no tiene valores duplicados esduplicates report, que entrega información respecto a la cantidad de veces que se replicala información, el comando duplicates se analiza en la siguiente sección.

3.16 Análisis de duplicados

Uno de los problemas comunes en el manejo de una base de datos es analizar si haypresencia de observaciones duplicadas

En muchas ocasiones el analista de la información se enfrenta con un problema muycomún y es la réplica de la información, por problemas de digitación y/o captura de lainformación, se puede repetir un caso, para ello Stata cuenta con un grupo de diferentesopciones que le ayudarán a solucionar este problema tan común, con las herramientasvistas hasta el momento como la creación de variables, condicionales, transformaciónentre otras tiene a la mano diferentes formas de conocer cuándo hay un valor repetido o

similar en la base de datos,

Data Data utilities Manage Duplicate Observations



48

Figura 28. Administración de Duplicados

En la figura 18 puede observar las opciones disponibles para el manejo de datosduplicados, se recomienda seguir cada una de las opciones, Report Duplicates le ofrecela opción de seleccionar bajo que variable(s) desea analizar si existen duplicados o no,por ejemplo:


. keep if price > 12000

. expand 3

. duplicates report make

Lo que nos genera el siguiente resultado

Tabla 25. Comando duplicates

El resultado indica que hay 15 observaciones en total de las cuales hay 10 en exceso oduplicadas, indica adicionalmente que para cada observación hay 3 copias.

Para ver el listado total de elementos duplicados

. duplicates list make

3 15 10

copies observations surplus

Duplicates in terms of make



49

Tabla 26. List después de duplicates

Como se puede observar para cada marcar de automóvil hay dos valores adicionales, loque ya nos había indicado la opción report informando que habían tres observacionespara cada categoría.

La siguiente opción Tags duplicates permite crear una variable que indica el número devalores adicionales en este caso será 2, si se utiliza el tag y se realiza una lista seapreciará el resultado.

. duplicates tag make, generate(duplicado)

. list make duplicado

Tabla 27. Comando list make duplicado

5 15 Peugeot 604

5 14 Peugeot 604

5 5 Peugeot 604

4 13 Linc. Versailles



3 11 Linc. Mark V

3 10 Linc. Mark V

3 3 Linc. Mark V

2 9 Cad. Seville

2 8 Cad. Seville

2 2 Cad. Seville

1 7 Cad. Eldorado

1 6 Cad. Eldorado

1 1 Cad. Eldorado

group: obs: make

Duplicates in terms of make

15. Peugeot 604 2

14. Peugeot 604 2

13. Peugeot 604 2

12. Linc. Versailles 2



9. Linc. Mark V 2

8. Linc. Mark V 2

7. Linc. Mark V 2

6. Cad. Seville 2

5. Cad. Seville 2

4. Cad. Seville 2

3. Cad. Eldorado 2

2. Cad. Eldorado 2

1. Cad. Eldorado 2

make duplic~o



50

Uno de los objetivos es eliminar los valores duplicados

Para ello use la opción drop duplicates

Figura 29. Eliminar duplicados

. duplicates drop make, force

. list make

Tabla 28. Eliminar los duplicados con respecto a make

3.17 Creación de programas – editor de texto

Figura 30. Creación de un archivo .do

El usuario puede ejecutar uno o más comandos simultáneamente, generar (macros) ocrear rutinas nuevas para STATA desde un editor de texto al que se accede haciendo clicen el icono –New Do-file Editor –. A través de este editor se pueden crear archivos tipo

5. Peugeot 604

4. Linc. Versailles

3. Linc. Mark V

2. Cad. Seville

1. Cad. Eldorado

make



51

*.do y *.ado. Los archivos *.do son conjuntos de comandos y macros que únicamente sepueden ejecutar cuando el archivo está activo. En contraste, los archivos *.ado son rutinasque se incorporan a STATA permanentemente y pueden ser ejecutadas desde la elcuadro de comandos o incluso desde otros archivos *.do y *.ado. Se accede a este editor

como se muestra en la siguiente ilustración, presionando CTRL+9 o haciendo clic en elsubmenú –Do-file Editor – en el menú –Window – en la barra de herramientas.

3.18 Ejemplo aplicado

En ocasiones las bases de datos no se encuentran completas, por un lado por datosfaltantes en columnas o en filas, por lo tanto en esta sección se explica cómo añadirnuevas observaciones de bases de datos externas utilizando comandos como merge yappend.

1. Se utiliza la base de datos llamada “REGION19572004”, la cual contiene datos de

1957 hasta 2004 para países de la región latinoamericana excluyendo a Chile paraefectos de aprendizaje, la cual fue descargada de la base de datos dehttps://pwt.sas.upenn.edu/.

2. Se utiliza la base de datos llamada “POBLACION19572004”, la cual contiene la

población de cada país en cada periodo de tiempo, y se aplicara el comandomerge, con el objetivo de agregar esta variable a la base de datos del primer puntode forma vertical.

3. Se utiliza la base de datos llamada “CHILE19572004”, la cual contiene las misma

variables que el punto uno y dos, pero solo para el país de Chile, se aplicara elcomando append, con el objetivo de agregar una nueva observación de ordenhorizontal.

4. Se identificara algunos comandos básicos para el manejo de bases de datos talescomo: browse, codebook, describe, drop in, drop, keep, sort, save,

. cd "C:\Users\SOFWARESHOPFILES"

. use "POBLACION19572004"

. sort country year

. browse

. save "POBLACION19572004.dta", replace

. use "REGION19572004"

. sort country year

. merge 1:1 country year using "POBLACION19572004"

. br

.codebook _merge

.drop _merge

https://pwt.sas.upenn.edu/





52

Tabla 29. Merge 1:1

Tabla 30. Codebook

.append using “CHILE19572004”

.sort country year

.save "DATASETALL"

En ocasiones solo se necesita la observación de un país o un determinado año, para estecaso se utilizan comandos como keep y drop.

keep, mantiene las variables en la memoria dependiendo de las condiciones o el rango deobservaciones, drop, elimina las variables de la base de datos dependiendo de las

condiciones o el rango de observaciones.

Por ejemplo, se desea que se mantenga en memoria los países de Brazil y Chile para losaños 2000 y 2004.

. keep if country=="Brazil" | country== "Chile"

. drop if year>=1957 | year<=1999

Por ejemplo, se desea mantener en memoria aquellas variables que cumplan con algunacondición en este caso para aquella población que sea mayor a 30.000.000.

. keep if pop>=30000

Por ejemplo, se desea que se eliminen las dos primeros años para cada país.

. by country: drop if year==1957 | year==1958



53

3.18.1 Cambiando la orientación de la base de datos: De horizontal a verticaly viceversa

. reshape wide xrat ppp cgdp2 cc cg ci pop, i(country) j(year)

Tabla 31. Reshape wide

Para volver a la forma vertical

. reshape long xrat ppp cgdp2 cc cg ci pop, i(country) j(year)

Tabla 32. Reshape long

3.18.2 Ejercicio

1. Utilizar las bases de datos de calidad de vida para el país Colombia año 2010:Dbfp_encv_547_1, Dbfp_encv_547_4, Dbfp_encv_547_5.

2. Se debe aplicar el comando merge 1:1 para consolidar las tres bases de datos,siendo la base de datos Dbfp_encv_547_1 master.3. Recomendaciones: elegir la llave correcta, eliminar los datos que se desean

excluir de la muestra (e.g. Nro_encuesta, nro_encuesta) “drop” , organizar de formaascendente la llave “sort” , guardar la bases de datos con nombre alternos (e.g.20101, 20102, 20103) “save” , aplicar el comando “merge” .



54

3.19 Comandos usados

append

browse

by

bysort

cd

clear

codebook

compress

db

decode

describe

destring

drawnorm

drop

duplicatesedit

encode

egen

exit

format

generate

gsort

infile

insheet

invnormal()

keep

label

list

log

merge

mvdecode

mvencode

open

order

outfile

prefix

recode

rename

replacereshape

save

snapshot

sort

sysuse

use

uniform()

varmanage

xpose



56

4. ANÁLISIS ESTADÍSTICOS CON STATA

Stata tiene una amplia posibilidad de realizar los procedimientos generalmente es posibleencontrar varios comandos en diferentes menús. Por ejemplo para poder obtener lasestadísticas descriptivas de una variable es posible usando inicialmente los comandos opor medio de ventanas de ejecución.

Algunos comandos despliegan mucha información que se va mostrando por secciones,para que sigan apareciendo los resultados es necesario dar clic en el botón clear--more--condition, o en el mensaje de –more- que aparece en la parte inferior de la ventana deresultados.

Figura 31. Opción More and Break

Pero es posible desactivar la opción para que aparezca todo el resultado inmediatamentepor medio de set more off.

Para el análisis estadístico el menú Statistics permite obtener gran cantidad de opcionespara poder desarrollar los temas del manual. Por ejemplo en Statistics Summary,tables, and test Summary and descriptive statistics:

Figura 32. Análisis estadístico

Break Clear--more



58

Tabla 34. Comando sum, detail

4.2 Ponderadores -weight-

fweight: frequency weights, indica el número de casos que representa realmente cada

observación muestral. La variable debe contener enteros positivos.pweight: sampling weights, indica la inversa de la probabilidad de selección muestral decada observación. Han de ser positivos, pero no necesariamente enteros.

aweight: analytic weights, indica los pesos inversamente proporcionales a la varianza decada observación. Un uso típico de este tipo de ponderación es cuando las observacionesson medias y el peso representa el número de elementos que generan la media. Han deser positivos, pero no necesariamente enteros.

Iweight (importance weights): estos comandos no tienen definición estadística formal,simplemente representan de alguna forma la importancia que se atribuye a cada

observación. Cada comando que los acepta explica cómo los utiliza puede tener cualquierforma.

4.3 Calculo de medias

Medias Statistics Summarize, tables and test Summary and descriptive statistics Arith/Geometric/Harmonic means

Esta opción permite calcular la media: aritmética, geométrica o armónica. Para unavariable en específico o para toda la base de datos en caso de dejar el espacio variablesen vacio. Los comandos que se pueden utilizar para realizar el cálculo son: ameans,

gmeans o hmeans



59

Figura 34. Media para las variables

Tabla 35. Medias para las variables price y mpg

4.4 Intervalos de confianza

Intervalos de confianza Statistics Summarize, tables and test Summary anddescriptive statistics Confidence Intervals.



61

4.5.2 Varianza

Este comando realiza una prueba en la igualdad de varianzas (desviaciones estándar).Este prueba tiene tres formas para ser evaluada, en la primer forma se demuestra que ladesviación estándar es igual a un número, en la segunda se demuestra si una variable1 y

otra vairable2 tienen la misma desviación estándar y la última forma se realiza la mismaprueba pero utilizando una variable grupo. Esta prueba utiliza la tradicional prueba F parala homogeneidad entre varianzas entre muestras con n-1 grados de libertad, donde lahipótesis nula describe la igualdad entre varianzas y una hipótesis alternativadescribiendo la diferencia que existe en la varianza de las muestras

. sdtest variable1=1

. sdtest variable1=variable2

. sdtest variable1, by(variablegrupal)

4.5.3 Proporciones

Este comando realiza pruebas en la igualdad de proporciones utilizando grandesmuestras estadísticas. Y posee las mismas características y formas de emplear que elcomando de la sección 4.5.2.

. prtest variable1=variable2

4.6 Manejo de tablas de datos

Los comandos tabulate y table ofrecen a los usuarios de STATA una amplia gama deposibilidades de descripción y análisis de datos a través de diferentes tipos deestadísticos y cruces de variables en cuadros de frecuencias y tablas de resumen.

Se puede encontrar en el submenú Statistics Summary, tables, and test Tables



62

Figura 36. Tablas

Gran variedad de opciones para analizar encuestas como tablas de doble y múltipleentrada, de igual forma permite ver la tabla de frecuencias y de contingencia

4.6.1 Tabstat

Para la generación de tablas descriptivas, Stata ofrece diferentes opciones, la opcióntabstat puede calcular la media, desviación estándar, varianza, el número de

observaciones, entre otras.

Figura 37. Tabstat



63

Figura 38. Opciones Tabstat

4.6.2 Tabulate (tab)

El comando tabulate (en forma abreviada ta o tab) produce un cuadro de frecuencias paradiferentes valores o categorías de una variable. La sintaxis del comando es:

Tabla 37. Comando tabulate rep78

Combinado con la opción plot , el comando tabulate genera un histograma horizontal quedescribe gráficamente la frecuencia de cada una de las categorías.

Total 69 100.00

5 11 15.94 100.00

4 18 26.09 84.06

3 30 43.48 57.97

2 8 11.59 14.49

1 2 2.90 2.90

Record 1978 Freq. Percent Cum.

Repair

. tabulate rep78



64

Se puede tabular de forma separada más de una variable con el comando tab1. Paravisualizar las frecuencias de cada una de las variables creadas con el procedimientoanterior se podrá usar la siguiente sintaxis:

. tab1 ed1 ed2 ed3 ed4 ed5 ed6

El comando tab permite generar cuadros de frecuencia de 2 vías (2 variables) así:

. tab edu004 e03

Donde la primera variable enunciada determinará el contenido de las filas y la segunda elcontenido de las columnas.

Tabla 38. Comando tabulate doble entrada.

4.6.3 Table

De otro lado, el comando table permite crear tablas de contingencia doble o múltiple y asu vez definir el tipo de contenido estadístico para los campos de una tabla. La forma mássimple de una tabla de contingencia es un cuadro de frecuencias absolutas. La sintaxis

para generar tablas de contingencia es:

Por ejemplo la sintaxis

. table edu004

Genera una tabla de frecuencia simple con el sub-total de personas que alcanzaron cadanivel educativo. La tabla resultante tan sólo tiene en cuenta las unidades sin expansióndisponibles en la muestra. Sin embargo, las opciones del comando table, permitenobtener reportes mucho más elaborados como se muestra a continuación:

1. Con la opción [weight=…] es posible expandir la información de la muestra para quese ajuste a la población (universo) total proyectado. Esto se logra a través de



66

Tabla 40. Comando table con estadística descriptiva

Hasta 5 diferentes tipos de medición pueden ser incorporados a una tabla decontingencia. Algunos de los más usados son:

▬ mean media de la variable▬ sd desviación estándar▬ sum suma▬ count conteo de observaciones▬ max máximo▬ min mínimo▬ median mediana

Finalmente puede crear una variable dummy para cada categoría, simplemente, seagrega la opción generate.

. tabulate rep78, generate(dummy)

4.7 Pruebas no paramétricas

Test No parámetrico Spearman’s Statistics Summarize, tables and test Nonparametric Test of hyphotesisSperman’s rank correlation

Esta prueba es una manera de medir la correlación en una medición noparamétrica, en donde se asume que no existe ningún supuesto sobre ladistribución de frecuencia de las variables. La correlación de Spearman mide elgrado de asociación entre dos variables cuantitativas que siguen una tendencia

siempre creciente o siempre decreciente.. spearman price mpg

. spearman price mpg, matrix



68

Tabla 42. Prueba Kolmogorov-Smirnov

A través de esta prueba se puede inferir que la distribución del precio de los vehículos esigual para el grupo de vehículos que provienen del extranjero y los nacionales. Por lotanto se acepta la hipótesis nula de que la muestra proviene de una distribución normal.


Para esta sección se utiliza la base de datos “Cenan -2009-2010-Personas”, descar gada

de la página web del Instituto Nacional de Estadística e Informática de Perú.

Variable a utilizar Descripciónaño_prg Año en el cual se realiza la encuestames_prg Mes en el cual se realiza la encuesta

c101_edad_anio Edad del individuoc101_sexo Genero del individuo

c104 Peso neto del individuo (Kg)c107 Talla (Cm).C116 Ocupación profesional

Tabla 43. Descripción de las variables en el ejemplo

En la sección de manejo de bases datos se describió los comandos para mantener eeliminar variables para este caso se toma el año 2010 y el mes de abril.

. use "C:\Users\Desktop\298-Modulo124 2\Cenan-2009-2010-Personas.dta"

. keep if año_prg=="2010"

. keep if mes_prg=="04"

4.8.1 Comandos Básicos

Sum, table, tabstat, tabulate.



69

4.8.2 Ayuda visual table y tabstat

Figura 41. Estadística descriptiva para una entrada

Figura 42. Estadística descriptiva dos entradas

Por ejemplo, se quiere saber los aspectos generales de la muestra, alguna variable enespecífico o algún momento estadístico de una variable.

. sum

. sum c101_edad_anio, d



70

Tabla 44. Estadística descriptiva para la variable años

. tabstat c101_edad_anio c104 c107, stat (mean sd min max n)

Tabla 45. Estadística descriptiva teniendo en cuenta variables y momentos estadísticos

. tabstat c101_edad_anio c104 c107, stat (count mean sd p50 min max skew kurt n) by ( c101_sexo)

Tabla 46. Estadística descriptiva desagregada por género



72

Tabla 48. Tabla de contingencia por ocupación profesional.

4.8.4 Tablas de frecuencia

Se requiere una tabla de frecuencia que tenga en cuenta la edad y una restricción conrespecto a que los individuos sean menores a 18 años.

. tabulate c101_edad_anio if c101_edad_anio<=18

Se requiere una tabla de frecuencia que tenga en cuenta la población entre los 16 y 18años y que muestre el porcentaje del total en forma de fila y una siguiente en forma deporcentaje por filas y columnas.

. tabulate c101_edad_anio c101_sexo, row, if c101_edad_anio<=18 & c101_edad_anio>=16

. tabulate c101_edad_anio c101_sexo, row col, if c101_edad_anio<=18 & c101_edad_anio>=16



74

. pwcorr c101_edad_anio c104, sig *Lineal

. spearman c101_edad_anio c104 *No lineal

Tabla 52. Correlación entre edad y peso neto

Tabla 53. Prueba de Spearman

Para los dos tipos de prueba existe evidencia que el peso está altamente correlacionadocon la edad del individuo, con una correlación positiva..

4.8.6 Prueba para la media

En una muestra de 6.898 individuos ¿es la edad media igual que la de la población de laque proviene esta muestra?

. sum c101_edad_anio

Tabla 54. Estadística descriptiva para la edad

. ttest c101_edad_anio=29.78994



75

Tabla 55. Prueba de medias

4.8.7 Prueba para detectar normalidad

. sktest c101_edad_anio

Tabla 56. Prueba de normalidad

. egen aniosmean=mean( c101_edad_anio)

. egen aniossd=sd( c101_edad_anio)

. ksmirnov c101_edad_anio=normprob( (c101_edad_anio-aniosmean)/aniossd)

Tabla 57. Prueba Kolmogorov-Smirnov

Mediante las dos pruebas que se realizaron para detectar la presencia de normalidad enla variable de años del individuo se llega a la conclusión que esta variable no sigue unadistribución normal.

4.8.8 Pruebas para la media: dos muestras independientes

¿Es igual la media de la edad para hombres y mujeres?



76

. tabstat c101_edad_anio, by( c101_sexo)

4.8.8.1 Homogeneidad de varianzas

. sdtest c101_edad_anio, by( c101_sexo)

Tabla 58. Test de homogeneidad de varianzas

Como se cumple la homogeneidad de varianzas, se puede utilizar la t de Student paramuestras independientes.

. ttest c101_edad_anio, by( c101_sexo)

Tabla 59. Test de medias.

En caso de que las varianzas de las dos muestras sean diferentes, se utiliza unequal o eltest de Welch w.

. ttest c101_edad_anio, by( c101_sexo) unequal

. ttest c101_edad_anio, by( c101_sexo) w

4.8.9 Comparación de k medias independientes

Se obtiene de 6.898 individuos el peso neto y su respectivo sexo. ¿Es diferente el pesoneto en función del género?



77

4.8.9.1 ANOVA de una Vía

. tabstat c104, by ( c101_sexo)

Tabla 60. Media del peso neto por género

Primero se crea una variable con los residuales para comprobar su normalidad.

. gen residuales= c104-50.77146 if c101_sexo==1

. replace residuales= c104-48.40414 if c101_sexo==2Segundo se comprueba la normalidad de los residuales, tanto con test estadísticos comopor métodos gráficos.

. pnorm residuales

. qnorm residuales

. swilk residuals

.sktest residuals

Tabla 61. Prueba de normalidad Shapiro-Wilk de los errores

- 1 0 0

- 5 0

0

5 0

1 0 0

-100 -50 0 50 100Inverse Normal

Figura 44. Distribución normal estandarizada

0.00

0.25

0.50

0.75

1.00

0.00 0.25 0.50 0.75 1.00Empirical P[i] = i/(N+1)

Figura 43. Cuantiles de los residuales vscuantiles de la distribución normal



78

Tabla 62. Prueba de normalidad de los errores

Tercero, se comprueba la homogeneidad de varianzas

. robvar c104, by ( c101_sexo)

Tabla 63. Prueba de Homogeneidad de varianzas

Cuarto, se lleva a cabo el ANOVA, y se coloca como opción elaborar una tabla descriptivat y algunas opciones útiles para hacer comparaciones b anova, sc anova, si anova, parahacer comparaciones Bonferroni, Scheffe y Sidak, respectivamente.

. oneway c104 c101_sexo, t

Tabla 64. Tabla ANOVA



79

4.8.10 Exportar tablas

Existen algunas aplicaciones dentro de STATA 12, para exportar tablas las cuales sontabout y outreg2, outreg2 solo será útil después de una estimación econométrica. Peroantes de ser utilizadas deben ser instaladas y mirar su aplicabilidad dentro del software.

Después de instalar las aplicaciones y la posterior apertura al software Stata 12, se digitael comando adoupdate, update, para mostrar si existe alguna nueva actualización de laaplicación.

. ssc describe tabout

. ssc describe outreg2

. ssc install tabout

. ssc install outreg2

1. Codificar las variables a las cuales se desea exportar en tablas

. recode c101_sexo (1=1 "Hombre") (2=2 "Mujer"), gen (genero)

2. Utilizar el comando tabout teniendo en cuenta parámetros y opciones.

. help tabout

tabout [ varlist ] [ if exp ] [ in range ] [ weight = exp ] using filename [ , options ]

. tabout c101_edad_anio genero using table1.xls if c101_edad_anio>=18 & c101_edad_anio<=22, cells(freq

col cum) format (0 1 1) cl ab(No. Col% Cum%) replace

Tabla 65 Comando tabout en Stata 12

Tabla 66. Archivo en Excel.



80

Tabla 67. Archivo de texto

3. Utilizar el comando outreg2 teniendo en cuenta parámetros y opciones.

. help outreg2

outreg2 [varlist] [estlist] using filename [, options] [: command]

4.8.11 Ejercicio

1. Utilizar la base de datos que se consolido en la sección manejo de base de

datos.

2. Construir una tabla estadística que muestre el valor máximo y mínimo dep6154s2a1 “Valor de la consulta médica”. “tabstat”

3. Construir una tabla de contingencia en donde muestre el promedio de la edad“p6040” teniendo en cuenta el parentesco del hogar “p6051” y el sexo “p6020”.

“by, table, contents, mean”.

4. Construir una matriz de correlaciones entre edad “p6040” y salario

“j12_cuanto_gano”. “ pwcorr”.

5. Establecer si para la muestra, la edad media de hombres y mujeres es igual.“ttest, sdtest”.

4.9 Comandos usados

ameans

anova

by, sort

ci

collapse

contract

correlatedisplay

egen

estat

gen

gmeans

help tabout

hmeans

keep

ksmirnov

level

mean

misstable

normprob

onewayoneway

outreg2

pnorm

pwcorr

pwcorr

qnorm

quietly



81

recode

replace

robvar

scalar

sdtest

sktes sktest

sktest

spearman

ssc describe

ssc install

summarize

swilk

tab1

tab2

table

table

tabstat

tabstat

tabulate

tabulate

test

ttest

ttest

use

xi

4.9.1 Otros comandos recomendados

compare

ereturn

ktau

ladder

outreg

outreg2

Return

set level 90

Signtest

spearman

stem

tabiweight



82

5. GRAFICAS CON STATA

Stata cuenta con una poderosa herramienta gráfica, permitiendo obtener gráficas deexcelente calidad y con varias opciones de edición de las mismas, es posible realizargráficas como histogramas, barras, de torta, series de tiempo, Box plot, dispersión, paradatos panel y para otros tipos de análisis como son de supervivencia, multivariado, controlde calidad, etc.

Stata tiene dos formas de generar múltiples gráficos, a través de la ventana de comandoscon el comando graph o utilizando la barra de herramientas en Graphics. El comandograph se utiliza con el tipo de gráfico a realizar. A continuación se presenta la lista deposibles gráficos

Plottype Description

scatter Scatterplot

line line plot

connected connected-line plot

scatteri scatter with immediate arguments

area line plot with shading

bar bar plot

spike spike plot

dropline dropline plot

dot dot plot

rarea range plot with area shading

rbar range plot with barsrspike range plot with spikes

rcap range plot with capped spikes

rcapsym range plot with spikes capped with symbols

rscatter range plot with markers

rline range plot with lines

rconnected range plot with lines and markers

pcspike paired-coordinate plot with spikes

pccapsym paired-coordinate plot with spikes capped withsymbols

pcarrow paired-coordinate plot with arrows

pcbarrowpaired-coordinate plot with arrows having twoheads

pcscatter paired-coordinate plot with markers

pci pcspike with immediate arguments

pcarrowi pcarrow with immediate arguments

tsline time-series plot

tsrline time-series range plot



83

mband median-band line plot

mspline spline line plot

lowess Lowess line plot

lfit linear prediction plot

qfit quadratic prediction plotfpfit fractional polynomial plot

lfitci linear prediction plot with CIs

qfitci quadratic prediction plot with CIs

fpfitci fractional polynomial plot with CIs

function line plot of function

histogram histogram plot

kdensity kernel density plot

lpoly local polynomial smooth plot

lpolyci local polynomial smooth plot with CIs

Tabla 68. Gráficos twoway

Plottype Description

graph matrix Matrices de gráficos

graph bar Gráficos de barras – vertical

graph hbar Gráficos de barras – horizontal

graph dot Gráficos de medias

graph box Gráficos de cajas

graph pie Gráficos de tortasTabla 69. Otro tipo de gráficos

Ejemplo:

. graph twoway connected var1 var3

. graph twoway scatter var3 var1 var4

. graph box var5 if dummy = =1

. graph pie var3 var1 in 1/30

Para grabar un gráfico, se usa el comando graph save graph.gph y el nombre del archivo,recuerde que la extensión de los gráficos de Stata es .gph. Si se quiere traer de nuevo se

usará graph use graph.gph

Es posible combinar gráficos por medio del comando combine graph1 graph2..

A continuación se presenta una explicación más detallada de la creación de los diferentestipos de gráficos



84

5.1 Histograma

Histograma: GraphicsHistogram

Figura 45. Histograma

Figura 46. Opciones del histograma.

. histogram price, normal, (bin=33, start=2006, width=258942.94)



85

Figura 47. Histograma del precio

5.2 Gráfico de tortas

Gráfica de Tortas : GraphicsPie Chart

Figura 48. Opciones del gráfico de tortas

. graph pie, over(foreign) title(Gráfico de tortas) legend(on rows(2)) pie(2, explode) plabel(1 percent, gap(30))

plabel(2 percent) legend(position(9))

0

0 5,000 10,000 15,000Price



87

5.3 Graficas twoway

Figura 51. Gráficos twoway

Todos los comandos para graficas empiezan por graph, pero esto es opcionaldependiendo el tipo de gráfico solo se pone la opción TWOWAY

Figura 52. Opciones de gráficos twoway



88

Figura 53. Grafica twoway dispersión.

Usando los comandos para hacer esta gráfica solo es necesario escribir

. scatter mpg weight

Se puede crear gráficos por grupos usando el comando by

. twoway scatter mpg weight, by(foreign)

Figura 54. Gráfico por grupos

Para acceder por medio de ventanas

10

20

30

40

2,000 3,000 4,000 5,000Weight (lbs.)

10

20

30

40

2,000 3,000 4,000 5,000 2,000 3,000 4,000 5,000

Domestic Foreign

Weight (lbs.)Graphs by Car type



89

Figura 55. Ayuda visual para crear gráficos por grupo

Es posible crear varios tipos de gráficas en un solo gráfico, algo muy usual es el uso de lagráfica scatter con una recta de regresión ajustada.

Se debe crear un nuevo gráfico sin eliminar el anterior

Figura 56. Generar dos gráficos en uno solo

. twoway scatter mpg weight || lfit mpg weight – *Con una notación diferente de separación

. twoway (scatter mpg weight) (lfit mpg weight)



90

Figura 57. Gráfico de dispersión y ajuste lineal.

5.4 Editor de gráficos de Stata

Figura 58. Edición de gráficas

1 0

2 0

3 0

4 0

2,000 3,000 4,000 5,000Weight (lbs.)

Mileage (mpg) F it ted values



91

Figura 59. Opciones en la edición de gráficos

5.4.1 Haciendo doble clic sobre el área de la grafica

Se pueden agregar líneas horizontales o verticales indicando el valor del eje Y/o X dondese desea trazar la línea

Figura 60. Agregar líneas a la gráfica



92

5.5 Gráfico de series de tiempo

. twoway line Coke date

Figura 61. Gráfico del precio de la acción de Coca Cola a través del tiempo

Otra manera de graficar series de tiempo, primero se debe crear una variable de tiempocon el comando tsset y utilizar el comando tsline con la variables que se desean gráficar.

. tsset date, m

. tsline Coke



93

Figura 62. Gráficos con series de tiempo

5.6 Gráfico de dispersión

. sysuse census.dta, clear



94

Figura 63. Gráficos de dispersión.

Figura 64. Opciones de gráficas de dispersión

. graph matrix pop medage death marriage, maxes(ylab(none) xlab(none)) by( region)



95

Figura 65. Gráfico de dispersión por región

5.7 Gráfico de puntos

. twoway (dropline price mpg, sort ), name( "uno" ) title("dropline")

. twoway (connected price mpg, sort ), name( "dos" ) title("connected")

. twoway (dot price mpg, sort ), name( "tres" ) title("dot")

. graph combine uno dos tres

Figura 66. Tipos de gráficos de puntos



96

5.8 Gráfico de barras

Se puede acceder al menú de gráfico de barras desde la barra de herramientasGraphics Bar chart o con el Launch dialog.

. db graph bar

Figura 67. Gráfico de barras

Figura 68. Opciones de gráfico de barra



97

Figura 69. Visualización del gráfico de barras

. graph bar (mean) tenure (mean) prev_exp, over(occ5) stack

Figura 70. Visualización del gráfico de barras opción stack

La opción de STACK produce una gráfica donde cada barra sería de dos o más barrasapiladas, por lo que la división muestra la relación de las variables con respecto a total dela suma de las variables.

0

2

4

6

8

Prof/Mgmt Sales Clerical Labor/Ops Other

mean of tenure mean of prev_exp

0

5

10

15

Prof/Mgmt Sales Clerical Labor/Ops Other

mean of tenure mean of prev_exp



98

5.9 Generando Funciones

Figura 71. Gráficos avanzados

Figura 72. Gráfica raíz cuadrada (x).

5.10 Combinando gráficas

. graph combine "C:\Users\USER\Desktop\Graph1.gph" "C:\Users\USER\Desktop\Graph2.gph"

0

1

2

3

4

5

y

0 5 10 15 20x



99


En esta sección y en la próxima acerca de regresión lineal en Stata y supuestos deregresión se trabaja la base de datos Encuesta de Calidad de vida para Colombia 2011.

5.11.1 Transformaciones TukeyEl investigador con el objetivo de corregir la asimetría de los datos, decide observar lamejor ajuste de potencia que se aproxime a los valores observados, para lo cual utiliza elcomando gladder sobre la variable dependiente.

. use"C:\Users\SOFWARESHOPFILES\CALIDADDEVIDA2011COLOMBIA.dta", clear

. gen w=exp(Ln_w)

. gladder w, title(Transformacion Tukey) ylabel(none) xlabel(none)

Figura 73. Ayuda visual Ladder y Gladder



100

Figura 74. Escalera de Potencias de Tukey

5.11.2 Gráficos de matriz

Para elaborar un análisis exploratorio del conjunto de relaciones entre más de dosvariables, Stata 12 puede realizar este tipo de análisis grafico a partir del comando matrix.

graph matrix Ln_w p6040 infanteshogar, half

Figura 75. Grafica de correlaciones entre variables



101

5.11.3 Gráficos de líneas

Existen dos comandos que permiten aplicar este tipo de gráficos. El primero connect

dibuja los puntos y los conecta. El segundo line hace la conexión de los puntos pero losdeja invisible. Se recomienda utilizar la opción sort, que ordena los casos en función delas variables independientes para que la conexión se produzca entre casos continuos y no

se produzca crucen entre líneas dibujadas.

. graph twoway connected w p6040, sort name(Ingresoedad)

. graph twoway line w p6040, sort name(Ingresoedad1)

. graph combine Ingresoedad Ingresoedad1, name(ConnectVSLine)

Figura 76. Gráficos de líneas

5.11.4 Edición de gráficos

Después de lograr el gráfico que se require, se podrá editar de tal manera que generealgún tamaño en particular, alguna línea, algún color o algún otro cambio que se quieraagregar al gráfico diseñado.

Figura 77. Barra de herramientas en la edición de gráficos.



102

Para editar colores y tamaños en los ejes será necesario dar un doble clic sobre el área aeditar.

Figura 78. Edición de gráficos.

5.11.5 Gráfica de histogramas

Los histogramas son gráficos que se utilizan en la representación de variablescuantitativas continuas, el cual consiste en dividir los valores de la muestra en una seriede intervalos y representar cada uno de estos con un área proporcional a su tamaño. Lasopciones que con mayor frecuencia se utilizan en este tipo de gráficos se encuentranbin(#), siendo # el número de intervalos que se desean dibujar, width(#), siendo # elancho de las barras, start(#), siendo # el punto de partida del histograma, frequency

muestra las frecuencias en vez de los porcentajes y normal realiza una grafica dondesobrescribe sobre el histograma la curva de Gauss para que se pueda comparar ladistribución empírica y la normal.

. histogram p6040, name(Histogramaedad)

. hist p6040, bin(10) name(Histogramaintervalos)

. hist p6040, start(0) width(20) name(Histogramainicio)

. hist p6040, start(0) width(10) frequency normal name(HistogramaGauss)

. graph twoway (hist p6040) (kdensity p6040), name(Graficodensidad)

. graph combine Histogramaintervalos Histogramainicio HistogramaGauss Graficodensidad



103

Figura 79. Histograma de la Edad

Figura 80. Opciones graficas con los histogramas

5.11.6 Diagramas de dispersión

Con el objeto de llevar a cabo este apartado es necesario generar una base de datos a

partir de la base de datos de la Encuesta de Calidad de vida 2011 para Colombiautilizando el comando collapse, con el objetivo de obtener los ingresos y años deeducación promedio por nivel educativo y sexo.

. collapse (mean) w edu, by( nivele p6020 )

. scatter w edu, name(Scatter1,replace)



105

Figura 84. Ajuste lineal

5.11.7 Exportar gráficos

Los gráficos que se realizaron en la sección se mantienen en la memoria RAM delcomputador con un nombre sujeto a los parámetros de las variables o al nombre que se leha otorgado a cada gráfico.

. graph describe Scatter4

. graph rename Scatter4 ScatterRegresion, replace

. graph display Scatter4

. graph copy Scatter4, replace

. graph drop Scatter4

. graph combine Scatter4 Scatter2, name(combinación, replace)

Figura 82. Dispersión Ingresos vs Educación Figura 83. Dispersión Ingresos vs Educación por género.



107

3. La opción de exportar en formato ps|eps|wmf|emf|png|tif|pict|pdf, con el siguientecomando:

.graph display Scatter4

. graph export "C:\Users\Desktop\ SOFWARESHOPFILES\Scatter4.pdf", as(pdf) replace


bar

box

cchart

combine

dot

graph

histogram

kdensity

matrix

pchart

pie

qnorm

quantile

rchart

rvpplot

scatter

title

tslinetwoway

xchart



108

6. REGRESIÓN LINEAL EN STATA

Una de las principales fortalezas de Stata tiene que ver con la gran versatilidad,flexibilidad y facilidad que ofrece para estimar modelos de regresión. Uno de losprincipales objetivos de los modelos de regresión es explicar el comportamiento de uno omás fenómenos (variables dependientes) a partir de un conjunto de regresores (ovariables independientes) que, en la mayoría de los casos, han sido identificados por lateoría como los factores que explican el fenómeno que se está estudiando. Sin duda, porla facilidad de su interpretación, los modelos de regresión lineal son los más populares ylos más empleados por los investigadores de diferentes disciplinas.

A continuación se presentan los pasos para estimar un modelo lineal a través de mínimoscuadrados ordinarios (MCO) a partir de la informac ión de la base de datos “ECUACION

INGRESO.dta”. El ejercicio propuesto busca establecer la relación existente entre los

ingresos laborales mensuales (expresada en logaritmos) y un conjunto de variables de

contexto de los individuos (horas de trabajo al mes, años de educación aprobados, añosde experiencia laboral, sexo, etc.). La teoría económica establece que la relación entre losingresos laborales y el conjunto de variables de contexto individual se puede representar(en su forma más simple) a través de la ecuación

007 503 (1) Donde el conjunto de variables empleadas en la estimación son:

Variable Descripción de la variable

lny Logaritmo natural del ingreso laboral mensual (Dependiente)

lnm Logaritmo natural de las horas de trabajo al mes (Independiente)

edu007 Número de años de educación aprobados (Independiente)

exp Años de Experiencia laboral (Independiente)

exp2 Años de experiencia laboral al cuadrado (Independiente)

e03 Dummy de sexo "1=hombre; 0=Mujer" (Independiente)

Tabla 70. Descripción de las variables

6.1 Ejercicio

1. A partir de la información de la base de datos “ECUACION INGRESO.dta”,

generar las variables necesarias con sus respectivas etiquetas para estimar laecuación (1)



109

6.2 Descripción estadística de la información

Antes de estimar la ecuación de ingreso (1), es conveniente realizar una primeraaproximación a los datos de forma descriptiva. El comando summarize (en formaabreviada summ) genera las estadísticas descriptivas básicas de una o más variables. La

sintaxis del comando se describe a continuación:Por ejemplo:

. summ lny lnm edu007 exp exp2 e03

Tabla 71. Resumen de variables

Se obtiene el siguiente reporte:

Número de observaciones de cada variable (Obs), Promedio de cada variable (Mean)

Desviaciones estándar (Std. Dev.) Valor mínimo de cada variable (Min) Valor máximo (Max).

Se puede obtener más detalles estadísticos de cada una de las variables con la opción“detail” así:

. summ lny lnm edu007 exp exp2 e03, d

6.3 Relación lineal entre las variables dependientes e independientes

Con el fin de analizar la relación lineal entre las variables independientes del modelo secalcula la matriz de correlaciones. A través de la instrucción pwcorr se obtiene la matriz decorrelación de las variables que van a ser incluidas en el modelo de regresión así:

. pwcorr lny lnm edu007 exp exp2, sig



110

Tabla 72. Correlaciones entre variables

El comando “pwcorr” estima los coeficientes de correlación del conjunto de variables delmodelo. En la matriz de correlaciones aparece el coeficiente de correlación que es unvalor número que va desde 0 a 1 e indica el grado de asociación lineal entre las variables,

este coeficiente viene acompañado del nivel de significancia (con la adición de la opción“sig”), que permite decidir sobre la hipótesis nula de que el coeficiente de correlación vale

cero. En nuestro ejemplo, el coeficiente de correlación entre años de educación (edu007)e ingreso salarial en logaritmos (lny) es de 0,4 y tiene una significancia de 0, lo cual indicaque existe una relación significativa entre estas dos variables.

6.4 Representación gráfica de las relaciones entre variables

En segundo lugar, y como paso previo al proceso de estimación, se analiza gráficamentela relación entre la variable dependiente y cada uno de los regresores del modelo. Porejemplo, para representar la relación entre los ingresos y los años de educación

aprobados, es conveniente que primero se genere una variable que indique el ingresopromedio por año de educación así:

Col1 Col2 Col3 Col4

IdAños de

educaciónIngreso (Miles de

pesos)

Ingresopromedio por

año deeducación

1 6 20000 25000

2 6 30000 25000

3 6 25000 250004 5 25000 24000

5 5 24000 24000

6 5 23000 24000

7 2 24000 22000

8 2 20000 22000

0.0000 0.0000 0.0000 0.0000

exp2 -0.1373 -0.0541 -0.4213 0.9425 1.0000

0.0000 0.0037 0.0000

exp -0.0766 -0.0211 -0.3772 1.0000

0.0000 0.0812

edu007 0.4995 -0.0127 1.0000

0.0000

lnm 0.3674 1.0000

lny 1.0000

lny lnm edu007 exp exp2



111

9 0 20000 17500

10 0 15000 17500Tabla 73. Ejemplo de una base de datos

La variable “ingreso promedio por año de educación” en la columna 4 se grafica respecto

a los años de educación (el usuario puede comprobar que es más fácil identificar larelación entre la variable dependiente y los regresores si se generan variables promedio)

Como se observa en la tabla anterior, la operación realizada en la columna 4 (ingresopromedio por año de educación), resulta de efectuar un cálculo al interior de la columna 3(Ingreso), teniendo en cuenta como criterio de agrupación la columna 2 (años deeducación). Este tipo de operaciones se pueden efectuar en Stata a través del comandoegen.

Como en nuestro caso la variable dependiente es el logaritmo de los ingresos laborales

1. Se genera la variable “lny_ed” que será promedio del logaritmo natural de los ingresos

por año de educación aprobado. Esta operación, se realiza a través del comando egen y la opción by así:

. egen lny_ed=mean(lny), by(edu007)

2. A continuación, se grafica el promedio del logaritmo natural de los ingresos por año deeducación respecto a los años de educación aprobados por medio del comando line así:

. line lny_ed edu007, sort

Figura 87. Años de educación vs ingreso laboral.

Ahora se tiene una idea bastante clara de la relación promedio observada entre ellogaritmo de los ingresos laborales y los años de educación y de qué tan realista es laaproximación lineal en este caso. El gráfico parece indicar que sería conveniente estimarla relación entre estas dos variables a través de una transformación de tipo “spline”.



112

De otro lado, la relación entre los ingresos laborales promedio y los años de experienciaes de tipo cuadrático.

Figura 88. Años de experiencia vs ingresos laborales.

Se observa que la variable de experiencia tiene un comportamiento exponencial, lo cual justifica el uso de la variable experiencia al cuadrado en las estimaciones.

6.5 Estimación del modelo lineal de regresión5

Para estimar la ecuación (1) a través de MCO se utiliza el comando regress (en formaabreviada reg ) así:

. regress lny lnm edu007 exp exp2

Tabla 74. Salida de una regresión.

El comando regress genera una amplia gama de estadísticas además de los coeficientede regresión.

5 Help regressFindit aboutreg



113

La tabla “source” también, conocida como tabla de análisis de varianza ANOVA,presenta la información relacionada con la suma de cuadrados “SS”, los grados de

libertad “df” y los cuadrados promedio “MS” del modelo y de los residuos. Elcálculo del R2 se puede obtener manualmente dividiendo la suma de cuadradosdel modelo entre la suma de cuadrados totales.

Al lado derecho de la tabla fuente se presenta otro paquete de estadísticas. Elestadístico F resulta de calcular la razón entre la suma de cuadrados promedio delmodelo y la suma de cuadrados promedio de los residuos. A través de esteestadístico se puede probar la hipótesis de que todos los coeficientes excluyendola constante son estadísticamente iguales a cero.

: 0

Significancia e intervalos de confianza de los coeficientes: A través del estadístico ()⁄ puede probar la hipótesis de que cada uno de los coeficientes

estimados es estadísticamente igual a cero, mientras que en la columna “95%Conf. Interval” se presenta el intervalo, al 95% de confianza, para cada uno de los

coeficientes.

Interpretación de los coeficientes: La interpretación de los coeficientes varíadependiendo de la forma como están expresadas las variables en el modelo así:

Interpretación de los betas estimados de acuerdo a la forma como están expresadas lasvariables del modelo

Variable independiente enlogaritmos

Variable independiente en niveles

Variabledependiente en

logaritmos

Elasticidad: Cambio porcentualesperado en y ante un cambioporcentual en x. En nuestro

ejemplo ,1ˆ

Semi-elasticidad: Cambio porcentualesperado en y ante un cambio marginal

en x. En nuestro ejemplo , 2

ˆ , 3ˆ y β

Variabledependiente en

niveles

Cambio esperado en nivel en y

ante un cambio porcentual en x Efecto marginal: Cambio esperado ennivel en y ante un cambio marginal en x.

Tabla 75. Interpretación de los coeficientes.

Resumen estadístico de la muestra empleada en la estimación: Raras veces elnúmero de observaciones empleadas en las estimaciones coincide exactamentecon las observaciones que originalmente estaban disponibles en la base de datos.Para obtener una descripción resumida de la muestra empleada efectivamente enla estimación después de realizar M.C.O, se empleará el comando estat sum el



114

cual genera el siguiente resultado:

. estat sum

Tabla 76. Estadística descriptiva después de la estimación por M.C.O

Es fácil comprobar que las características de las personas en la muestra empleada en la

estimación difieren de las observadas en la base de datos original.

6.5.1 Pruebas de hipótesis lineales

Una vez realizada una regresión lineal es posible probar hipótesis lineales sobre loscoeficientes estimados a través del comando test así:

. test lnm=1

Tabla 77. Prueba individual

En el primer caso se probó que si el coeficiente estimado asociado a las horas de trabajoal mes es igual a 1. La probabilidad de que el coeficiente sea 1 es cero, por los tanto nose acepta la hipótesis. En términos económicos se podría afirmar que no hay elasticidadunitaria entre horas de trabajo al mes y el ingreso laboral.

6.5.2 Ejercicio

2. Pruebe la hipótesis de que todos los coeficientes del modelo exceptuando elintercepto son estadísticamente iguales a cero. Compare con la prueba F

generada por Stata en la regresión lineal antes estimada.

. test lnm=edu007=exp=exp2=0

3. ¿Cuántos años de experiencia laboral serían necesarios para maximizar losingresos laborales mensuales?



115

. lincom -0.0347/(2*-0.0003987)

6.6 Comprobación del cumplimiento de los supuestos de M.C.O.

6.6.1 Multicolinealidad (Asociación lineal entre variables)

Pese a que en presencia de multicolinealidad los estimadores son MELI (MejoresEstimadores Lineales Insesgados), los errores estándar de los coeficientes estimadostienden a estar inflados (sobreestimados), haciendo más fácil que se acepte que uno omás regresores son estadísticamente iguales a cero. La velocidad con la cual seincrementan las varianzas y las covarianzas de los estimadores puede analizarse a travésdel factor inflador de varianza, el cual calcula Stata a través del comando vif después deejecutar regress así:

. vif

Tabla 78. Prueba multicolinealidad

Los VIF de cada uno de los estimadores cuyo valor sea superior a 10 (algunos menosconservadores consideran 30) indican que la variable a la que acompañan puedeconsiderarse como una combinación lineal de otras variables independientes.

Alternativamente suele observarse el índice de Tolerancia (1/VIF ). Un índice de toleranciaigual a 0.1 es equivalente a un VIF de 10. Valores de tolerancia inferiores a 0.1 (0.333para los menos conservadores) indican presencia moderada o severa demulticolinealidad.

6.6.1.1 Ejercicio

4. Calcule cada uno de los VIF de la regresión anterior.

6.6.2 Homocedasticidad

Es uno de los principales supuestos de MCO. En términos generales, en presencia de

heroscedasticidad la varianza de los estimadores está sesgada (sobrestimada osubestimada). En estos casos no se puede confiar en las pruebas t y F . Visto de otromodo, si el modelo está bien especificado no debería existir un patrón definido entre losresiduales del modelo y la variable dependiente pronosticada. Cuando la varianza de losresiduales no es constante se dice que la varianza de los residuales es heteroscedástica.Existen métodos gráficos y métodos formales para detectar heterocedasticidad.



116

Método Gráfico: A través de un gráfico que relacione los residuales del modelocontra los valores estimados de la variable dependiente se puede hacer unaprimera comprobación visual de posibles patrones de interrelación entre estas dosvariables. Siguiendo con nuestro ejemplo, en Stata se puede obtener este gráficoa través del comando rvfplot así:

. rvfplot, yline(0)

Figura 89. Grafica para detectar heterocedasticidad

No parece haber un patrón definido en los residuales del modelo.

Método formal: Stata ofrece una gran variedad de pruebas de heteroscedasticidadpara modelos lineales estimados a través de MCO. Sin embargo, una de laspruebas de heteroscedasticidad más ampliamente difundida es la prueba de

WHITE. Esta prueba se puede obtener después de emplear el comando regressasí:

. imtest, white

Tabla 79. Prueba para detectar heterocedasticidad.

Claramente se rechaza la prueba de homocedasticidad. Así mismo se puede constatarque los residuales tienen problemas de asimetría (skewness) y apuntalamiento (kurtosis).



117

Una forma simple de corregir heterocedasticidad según el criterio de WHITE (1980)6 es através de la opción robust en la estimación por MCO así:

. regress lny lnm edu007 exp exp2, robust

Tabla 80. Regresión con corrección de heterocedasticidad.

Aunque el problema de heterocedasticidad no era importante (la significancia de loscoeficientes se mantuvo inalterado), se puede constatar que los errores estándar en elmodelo corrección de heterocedasticidad son mayores, lo cual prueba que inicialmenteestaban subestimados.

6.6.3 Normalidad de los residuos

Es un supuesto necesario únicamente garantizar la validez de las pruebas t y F en MCO. En realidad, MCO tan solo requiere que los residuales estén idéntica e

independientemente distribuidos. Después de ejecutar el comando regress, se puedeemplear el comando predict seguido por la opción res para estimar los residuales así:

. predict residual, res

Método Gráfico: A continuación empleamos los comandos kdensity y qnorm paraconstatar gráficamente si los residuos siguen una distribución normal así

. kdensity residual, normal

6 WHITE H. 1980. A Heteroscedasticity Consistent Covariance Matriz Estimator and Direct Test ofHeteroscedasticity. Econometrica, vol 48.



118

Figura 90. Prueba kdensity para detectar normalidad en los errores.

La opción normal permite comparar la función de densidad de los residuales con unafunción de densidad normal. Se puede observar apuntalamiento y asimetría en losresiduales. Otra comprobación gráfica de normalidad muy conocida es aquella que

contrasta cuantiles de una variable contra cuantiles de una distribución normal. Cuantomás cerca estén los cuantiles de la variable a los cuantiles de la distribución normal (líneadiagonal continua) más cerca está la variable de ser normal. Stata la representa a travésdel comando qnorm así:

. qnorm residual

Figura 91. Prueba qnorm para detectar normalidad en los errores.

Método formal: Claramente hay problemas en los residuales que nos hacenpensar en que no se cumple el supuesto de normalidad. Sin embargo, para estos

casos en los que la variable tiene muchas observaciones, Stata ofrece una pruebaformal de normalidad a través del comando sktest así:

. sktest residual



119

Tabla 81. Prueba sktest para detectar normalidad en los errores.

Se rechaza la hipótesis de normalidad en los residuales del modelo.

6.6.4 Exogeneidad de las variables independientes

Otro supuesto básico en regresión lineal es que las variables explicativas estándeterminadas por fuera del modelo que se está estimando. En otras palabras, se suponeque ninguno de los regresores está determinado por otro u otros regresores dentro delmodelo. A través de la prueba de HAUSMAN (1978)7 es posible establecer si un regresores exógeno o no. La prueba se realiza en etapas: en primer lugar, se estima un modelo

que se considera consistente pero ineficiente (en el sentido que no empleamos toda lainformación disponible para explicar la variable dependiente).

A continuación, se estima otro modelo (el cual tiene en cuenta la variable que deseamoscomprobar si es exógena) que se supone consistente y eficiente. En tercer lugar, seemplea el estadístico de HAUSMAN el cual compara los coeficientes comunes en ambosmodelos y sus respectivas matrices de varianzas y covarianzas. Si no hay diferenciassistemáticas en los coeficientes la nueva variable se puede considerar exógena. Lospasos y los comandos necesarios para realizar esta comprobación en Stata son:

1. Estimar el modelo consistente pero ineficiente (no tiene en cuenta la variable lnm)

. regress lny edu007 exp exp2

2. Almacenar los resultados con el comando est store así:

. est store reg

3. Estimar el modelo que se supone consistente y eficiente (tiene en cuenta la variablelnm)

. regress lny lnm edu007 exp exp2

4. Calcular el estimador de HAUSMAN

. hausman reg, eq(1:1)

7 HAUSMAN J,. Specification Test in Econometrics, Econométrica Vol. 46. No. 6. 1978.



120

Tabla 82. Prueba de Hausman para detectar endogeneidad.

Existen diferencias sistemáticas en los coeficientes, por lo tanto la variable lnm esendógena, en otras palabras, puede estar explicada por los otros regresores del modelo.

6.6.5 Ejercicio

5. Pruebe la hipótesis de exogeneidad de cada una de las variables del modelo.

6.7 Pronóstico

El pronóstico de la variable dependiente se realiza empleando el comando predict

. predict lnyp if e(sample), xb

La opción e(sample) restringe la estimación a la muestra efectivamente empleada en laestimación.

6.7.1 Representación gráfica del pronóstico de la variable dependiente y surelación con los regresores

Finalmente es posible visualizar la aproximación del modelo de regresión lineal a travésde MCO, graficando el ingreso estimado promedio respecto a cada una de las variablesindependientes. Por ejemplo, la relación entre el ingreso estimado promedio por año deeducación y los años de educación se obtiene siguiendo los siguientes pasos:

. egen plny_ed=mean(lnyp), by(edu007)

─Generación de los ingresos promedio estimados por año de educación

─

. line plny_ed lny_ed edu007, sort

─ Gráfico que representa los ingresos estimados y observados por año de educación y losaños de educación



121

Figura 92. Grafica de los datos observados vs pronóstico.

Ahora se tiene una idea bastante clara de la aproximación lineal que se ha llevado a cabo

entre los ingresos promedio y los años de educación a través de MCO.

6.7.2 Ejercicio

6. Grafique la relación promedio entre las variables dependiente y dependientepronosticada contra cada uno de los regresores del modelo.

7. Estime una ecuación que además tenga en cuenta el sexo como variableexplicativa

8. Compruebe si se cumplen los supuestos de MCO

9. ¿Cómo decidirá cuál de los dos modelos estimados (sin sexo y con sexo) es elmejor y como lo haría en Stata?

6.8 Exportar tabla de contenido

Para exportar los resultados de la tabla de regresión, existe un comando llamado outreg2

que permite hacer esta labor. Se utilizará después de evaluar el modelo de regresión. Encaso de que Stata 12 no tenga el comando en necesario instalarlo mediante el comandossc install outreg2.

1. Por ejemplo, se desea exportar una tabla a Excel que contenga una regresión

diferenciada por género, con las mismas variables independientes vistas en lasección de la función de ingresos.

. reg Ln_w Ln_m edu exp exp2 if Hombre==1

. outreg2 using primero.xls, ctitle(Hombre)

. reg Ln_w Ln_m edu exp exp2 if Hombre==0

. outreg2 using primero.xls, append ctitle(Mujer)



124

Tabla 85. Correlaciones entre variables independientes

2. Regresiones auxiliares, si el estimador R2 es mayor a 0.9, hay presencia demulticolinealidad

. reg Ln_m edu exp exp2 Hombre

. reg edu Ln_m exp exp2 Hombre

. reg exp Ln_m edu exp2 Hombre

. reg Hombre Ln_m edu exp exp2

3. Utilizar el comando vif, el cual se utiliza para crear el estimador que mide el factorinflador de varianza, la regla de decisión consiste en que si el VIF es mayor o iguala 10, existe multicolinealidad. La variable exp demuestra que existemulticolinealidad, será necesario excluirla pero por propósitos académicos existeevidencia empírica de que la experiencia afecta de manera positiva el ingreso delindividuo.

Tabla 86. Factor inflador de varianza

6.9.2.2 Heterocedasticidad

Existen dos métodos para detectar la presencia de heterocedasticidad dentro del modelo

por un lado se encuentra el análisis gráfico y otro que hace parte del análisis formal comoson las pruebas de Park, Glejser, White y Breush-Pagan.

. reg Ln_w Ln_m edu exp exp2 Hombre

. rvfplot

. imtest,white

. estat hottest



125

Figura 95. Residuos en función de la predicción de Ln_w

Prueba White

Tabla 87. Prueba para detectar heterocedasticidad White

Figura 96. Prueba para detectar heterocedasticidad Breush-Pagan

Con esta prueba se concluye que hay presencia de heterocedasticidad, una de lasmaneras que existen para corregir este problema es a través de la opción robust en laestimación por M.C.O así:

. reg Ln_w Ln_m edu exp exp2 Hombre, r



126

. reg Ln_w Ln_m edu exp exp2 Hombre, robust

. reg Ln_w Ln_m edu exp exp2 Hombre, vce(robust)

6.9.2.3 Normalidad de los errores


. predict residual, resid

. qnorm residual

. kdensity residual, normal

. sktest residual, noadjust

Figura 97. Método gráfico qnorm Figura 98. Método gráfico Kdensity

Tabla 88. Método formal

Aunque se rechaza la hipótesis nula de normalidad de los errores, en el estudio de datosde corte transversal no es relevante ya que los datos no se autocorrelacionan de unperiodo y su respectivo rezago, los datos son obtenidos en el mismo periodo para cadaindividuo.

6.9.2.4 Exogeneidad de las variables independientes. reg Ln_w Ln_m edu exp exp2 Hombre

. est store reg

. reg Ln_w edu exp exp2 Hombre

. hausman reg, eq(1:1) sigmamore



127

Tabla 89. Prueba para detectar endogeneidad.

6.9.2.5 Sesgo de especificación: Reset de Ramsey

Esta prueba permite determinar si el modelo está mal especificado en otras palabraspermite saber si dentro del modelo existe alguna variable omitida


. estat ovtest

Figura 99. Prueba para detectar sesgo de especificación de Ramsey

Se concluye que el modelo que describe una función de salario con variables observablesomite algunas variables que afectan el salario del individuo.


by e(sample egen est store

estat

estat ovtest

hausman imtest kdensity lincom

line

mean normal

outreg2 predict

pwcorr qnorm

regress res

rvfplot sktest sort summ test

vif xb



129

Para el propósito de este ejemplo se va a considerar las variables de género, edad,estado civil, nivel de estudios, nivel de ingresos del hogar, relación con el jefe de hogar yel número de personas en el hogar. Sin embargo, en un modelo ampliado podríanconsiderarse otras variables.

Algunas de las opciones que se pueden utilizar para analizar la variable de participaciónson:

Modelo de regresión logística (el usado en el presente ejemplo)

Modelo de regresión probabilística. Los resultados bajo este tipo de análisisproducen resultados similares a los resultados de la regresión logística. Laescogencia entre uno y otro modelo depende de las preferencias del investigador.Estos dos modelos construyen una función de probabilidad acerca de la ocurrenciadel evento a describir, (en este caso que un individuo participe en el mercadolaboral) y la diferencia está en la forma funcional que asume cada modelo8.

Mínimos cuadrados ordinarios. Cuando se utiliza esta metodología sobre unavariable dicotómica se le conoce como un modelo lineal de probabilidad. Sinembargo, los residuos de la estimación violan los supuestos de homocedasticidady de normalidad del modelo clásico, lo que resulta en errores estándar y pruebasde hipótesis inválidas.

7.1 Representación de las relaciones entre variables

7.1.1 Participación y Género

Figura 100. Gráfico de barras participación por género

8La función logística es () + y la función probabilística es () Φ(z), donde z es una combinación

lineal de las variables independientes y Φ es la función cumulativa de la distribución normal.

0

Hombre Mujer



130

Participa en el MercadoLaboral

Sexo No Si Total

Hombre 1,622,038 4,303,680 5,925,718

Mujer 3,666,137 2,794,002 6,460,139

Total 5,288,175 7,097,682 12,385,857Tabla 92. Participación laboral por género.

7.1.2 Participación y Nivel Educativo

Figura 101. Gráfico de barras participación por nivel educativo y género

Comparar el número de participantes entre los diferentes niveles educativos, no hace

sentido cuando las poblaciones no son comparables en términos relativos. Si la TasaGlobal de Participación está determinada por la cantidad de personas que participan en elmercado laboral sobre el PET, para comprender el efecto del nivel educativo se debencomparar las tasas globales de participación para cada grupo. El promedio aritmético dela variable PARTI nos dará la TGP total y para diferentes grupos.

0

.2

.4

.6

.8

1

SIN

EDUC.

BASICAINC

BASICACOMP

M.HUM.INCOM

M.HUM.COMPL

TEC.O

UNI.INC.

TEC.O

UNI.COMP

SIN

EDUC.

BASICAINC

BASICACOMP

M.HUM.INCOM

M.HUM.COMPL

TEC.O

UNI.INC.

TEC.O

UNI.COMP

Hombre Mujer

Graphs by Sexo



131

7.1.3 Participación y Edad

Figura 102. Gráfico de barras participación por edad y género

7.2 El modelo tipo Logit encuesta Casen 2006.

El comando logit (probit) nos permite obtener los resultados de la estimación logística(probabilística). La estimación se hace a través de la metodología de máxima verosimilitudpor lo que en el proceso de estimación, Stata primero muestra las iteraciones necesariaspara alcanzar la convergencia.

Cuando existen variables categóricas con más de dos categorías (parentesco, estado

civil) Stata las puede codificar automáticamente para que cada una de las categoríascuente como una dummy. Para eso se antepone el prefijo “xi:” frente a toda la expresión

de la regresión y el prefijo “i.” antes de cada variable.

El comando para nuestra regresión sería:

xi: logit PARTI EDAD ESC NUMPER YTOTHAJ i.PCO1 i.ECIVIL [w=EXPR], or

En este caso las variables de parentesco con el jefe de hogar (PCO1) y de estado civil(ECIVIL) son codificadas por Stata y la codificación responde al orden en que lasvariables categóricas adoptan valores. Por ejemplo PCO1, ordinalmente la primeraetiqueta es “Jefe de Hogar” y Stata crea una dummy _IPCO1_1 para nombrarla. En la

siguiente tabla se ha cambiado los nombres por los valores de las categorías.

A través del menú se puede acceder a través de la siguiente ventana:

0

. 2

. 4

. 6

. 8

1

25 30 35 40 45 50 25 30 35 40 45 50

Hombre Mujer

T G P

EdadGraphs by Sexo



132

Figura 103. Modelo Logit.

7.2.1 Interpretación de resultados

¡Error! Vínculo no válido.Los primeros resultados observados anteriormente se refieren al

máximo de la función de verosimilitud, que puede ser utilizado como un criterio deinformación para comparar modelos anidados (nested). Por ejemplo si se adicionan másvariables a nuestro modelo y se mantienen las mismas, esos dos modelos estarán

anidados porque el modelo extendido (el nuevo) contiene al modelo reducido (con menosvariables).

También se puede observar que del total de observaciones iniciales con descripción departicipación (12,385,857) hemos perdido algunas observaciones por los missing valuesen las variables que se utilizaron para analizar el modelo.

La prueba de hipótesis de significancia conjunta del modelo está establecida por la razónde verosimilitud que se distribuye como una Chi-cuadrado con k+1 g.l.. Stata presenta elestadístico (LR chi2 (25)) y su p value. La interpretación es que nuestro modelorepresenta mejor a los datos que un modelo sin variables.

Para la interpretación de la relación entre las variables independientes e independientes,el coeficiente nos da un efecto parcial (el signo) y nos da el efecto total sobre la funciónlineal z, pero no sobre la función de probabilidad de ocurrencia de la variable dependiente.Lo anterior debido a que un cambio en una variable dependiente genera un cambio sobrela probabilidad de ocurrencia que depende del nivel de todas las demás variables



133

consideradas. La significancia de las variables está testeada individualmente en elresultado de la estimación y la interpretación es igual al caso de regresión lineal clásica.

7.2.2 Odds - Ratio (p/q)

La interpretación de los coeficientes de las variables categóricas9 viene de la relación

entre el coeficiente y el logaritmo del radio de probabilidad de ocurrencia del evento (log

odds ratio) es igual a . El odds ratio aproxima el qué tanto es más probable que elevento ocurra dado que se tiene la característica descrita por la variable categórica conrespecto a la referencia. Para observar el odds ratio, directamente se puede combinar laopción “or” con el comando “logit”.

En el caso de nuestro ejemplo, las mujeres son menos propensas a participar en elmercado laboral hasta en un 72%, teniendo en cuenta que el coeficiente fue de -1.25. Lasotras variables categóricas generaron cada una subsecuentes variables dicotómicas, y lainterpretación se hace en comparación a la referencia.

La relación entre los coeficientes y la probabilidad en el caso de las variables continuas esun poco más compleja, la comparación se hace con la distancia a la media. Sin embargo,la dirección del efecto sobre la probabilidad es igual al efecto sobre la función lineal “z”.

En el ejemplo un aumento en el salario también aumenta la participación relativa de unapersonal igual que la escolaridad. Un aumento de un 1% en el salario con respecto a lamedia ($351,000) hace que la razón de participar en el mercado laboral (vs. no participar)aumente con un factor de 1.41 (= exp(0.3447)). Un aumento de la edad aumenta laprobabilidad de participar en el mercado laboral, pero a una tasa decreciente. El númerode personas en el hogar disminuye la probabilidad de que no se participe

7.2.3 Post – estimación

Un primer paso de la post estimación consiste en probar la significancia conjunta de lasvariables dummies que conforman las categóricas. Para esto se puede correr una pruebade Wald ajustada a través del comando “test”. Por ejemplo, se puede rechazar la hipótesisnula de que la variable de estado civil es conjuntamente no significativa:

test _IECIVIL_2 _IECIVIL_3 _IECIVIL_4 _IECIVIL_5 _IECIVIL_6 _IECIVIL_7 _IECIVIL_9

chi2( 7) =60644.47

Prob > chi2 = 0.0000

Para obtener las probabilidades estimadas, que es lo que finalmente se desea saber,Stata 11 creo el comando “margins”. El siguiente comando va a modelar todas las

9 Para una prueba formal ver Applied Logistic Regression p.50.



134

probabilidades para cada valor de SEXO, empezando por el 0 hasta 1 con un ancho deintervalo de 1.

margins, at(SEXO=( 0 (1) 1)) atmeans

Predictivemargins

Number ofobs = 12350554

Model VCE :OIM

Expression :Pr(PARTI),

predict()

1._at :…(lista de

medias

SEXO= 0

…(lista de

medias

2._at :…(lista de

medias)

SEXO= 1

…(lista de

medias)

Margin Std. Err. z P>z [95%Conf.

Interval]

_at

1 0.7362227 0.0002468 2982.78 0.000 0.7357389 0.736706

2 0.4423416 0.0002768 1598.17 0.000 0.4417992 0.442884

Tabla 93. Efectos marginales para la variable sexo.

La probabilidad de que una persona trabaje siendo hombre (1. at SEXO = 0) es el 73.6%,mientras que la probabilidad de que una persona trabaje siendo mujer es de 44.2%,manteniendo todas las demás variables en su media.

Si quiere fijarse el valor de más de una variable, o fijar los intervalos de variablescontinuas, o en cortes de distribución de las variables independientes:

. margins, at(SEXO=(0(1)1) PCO1=1) atmeans noatlegend

. margins, at(ln_yh=(11 11.5 12 13 13.5) PCO1=1) atmeans noatlegend

. margins, at((p25) _all) atmeans noatlegend

. margins, at((p25) _all (mean) ESC ) atmeans noatlegend

Variablede Interés

ValorInicial

AnchoIntervalo

ValorFinal



135

7.3 Modelo Lineal de probabilidad y modelo tipo Probit

7.3.1 Modelo Lineal

A partir de la información proveniente de la base de datos “ECUACION INGRESO.dta”, se

desarrolla un modelo de participación laboral para identificar las variables que explican el

que una persona haga parte del mercado de trabajo (trabajando o buscando empleo) y elefecto de cada una de éstas variables en la probabilidad de hacer parte de la fuerzalaboral. Inicialmente, para realizar el ejercicio propuesto es necesario crear la variabledicotómica dependiente que identifique a la población económicamente activa:

. gen pea=(ocu==1|des==1)

La estimación de este modelo a través del procedimiento de Mínimos CuadradosOrdinarios (MCO) generaría una serie de problemas en los resultados. Por ejemplo,supóngase que la participación en la fuerza de trabajo está determinada únicamente porla escolaridad de las personas (variable edu007) y se utiliza el comando regress paraaplicar un modelo lineal:

. regress pea edu007

. predict p if e(sample)

Al obtener el pronóstico de la variable dependiente y representar gráficamente losresultados del modelo se puede visualizar el ajuste de la recta de regresión a la nube depuntos. A través del comando twoway se pueden representar dos series en distintos tiposde gráficos:

. tw(scatter pea edu007) (line p edu007)

Figura 104. Datos observados vs pronostico por M.C.O

El grafico anterior es una representación de los datos observados de las personasclasificadas en la pea (scatter) y los valores pronosticados por el modelo (line), según losaños aprobados de educación (eje de las abscisas). Sin embargo, a partir del gráfico es



136

fácil concluir que el procedimiento de MCO no genera un modelo capaz de explicar elcomportamiento de los datos.

Las principales problemas de la estimación de este tipo de variables a través de MCOson: i) no se garantiza que el vector de probabilidades que resulta del pronóstico delmodelo se encuentre entre 0 y 1, ii) los errores no se distribuyen normalmente, debido aque la variable dependiente solo toma dos valores, iii) no se puede suponerhomocedasticidad en los errores, y iv) el R2 del modelo es muy bajo debido a que no larecta de regresión presenta un bajo ajuste a los datos observados.

La alternativa es utilizar un modelo de regresión con una función no lineal que genere unaestimación en el rango comprendido entre 0 y 1. Las funciones de densidad acumuladanormal y logística cumplen con esta propiedad y dan origen a los modelos probit y logitrespectivamente.

7.3.2 Modelo tipo Probit

Para corregir los problemas que genera la estimación del modelo de participación laboralpor MCO, se supone la existencia de una variable latente Y* que es explicada por unconjunto de variables independientes y que determina el valor de la variable dicotómicaque se observa. A medida que el valor de la variable latente aumenta, la probabilidad departicipar en el mercado laboral Y también se incrementa así:

)()0()0()1(01 **

X F e X P Y P Y P Y siY

La teoría establece que la decisión de hacer parte de la fuerza de trabajo está

determinada por los años de educación, la condición de jefe de hogar, la edad y la formacuadrática de esta última variable, modelo que se puede especificar a través de lasiguiente ecuación:

iiiiii e jefeedad edad eduY 4

2

3210 007

Para llevar a cabo las estimaciones de este modelo primero se debe generar la variableedad al cuadrado:

. gen e02_2= e02^2

En STATA se utiliza el comando probit para estimar modelos con variable discreta a partir

del método de máxima verosimilitud. Para analizar los resultados del comando, secomienza con estimar un modelo vacío:

. probit pea, r



137

Tabla 94. Probit con restricciones

Luego, se estima el modelo completo:

. probit pea edu007 jefe e02 e02_2, r

Tabla 95. Probit sin restricciones

Además de los coeficientes de regresión, el comando probit genera una amplia gama deestadísticas:

La prueba de Wald evalúa la significancia global del modelo, es equivalente a laprueba F en MCO. Bajo la hipótesis nula de que todos los coeficientes sonestadísticamente igual a 0, el estadístico de Wald se distribuye chi2 con grados de

libertad equivalentes al número de variables del modelo. También se puede utilizarel estadístico del cociente de verosimilitud, que se puede calcular manualmentetravés del comando display , la formula se define así:

)(2 0ood Loglikelihood Loglikelih LR F

El pseudo R2 es una medida de bondad de ajuste del modelo. Se puede obtenermanualmente dividiendo el logaritmo de las verosimilitudes del modelo vacío entreel modelo completo y restado una unidad a este resultado.

Los parámetros que se obtuvieron en el modelo anterior no se pueden interpretar comoefectos esperados de los regresores en la probabilidad de hacer parte del mercado detrabajo, únicamente es posible analizar si el efecto de la variable es positivo o negativo enla probabilidad de ocurrencia del evento. Para evaluar el efecto de un cambio en unavariable independiente sobre la probabilidad de participar en el mercado de trabajo, es



138

necesario calcular el efecto marginal en varios valores de las variables. El cálculo que se

tendría que hacer es )( i X , donde corresponde a la función de densidad estándar.

La función podría ser evaluada en el valor medio de la variable X i. Por lo tanto, el primerpaso consiste en calcular el valor medio de las variables que se incluyeron en el modelo

probit a través del comando estat sum, que reporta las principales estadísticas de losdatos utilizados en el modelo de regresión:

. estat sum

Tabla 96. Estadística descriptiva de los regresores del modelo

El cálculo de las marginales se puede realizar manualmente utilizando la funciónnormalden, que toma como argumento la multiplicación del valor medio de la variable y elparámetro y devuelve la densidad normal estándar.

7.3.2.1 Ejercicio

1. Calcule los efectos marginales de las demás variables incluidas en el modeloprobit.

7.3.2.2 Efectos marginales

Una de las fortalezas de STATA es que permite calcular con un comando, el efectomarginal de cada una de las variables:

. dprobit pea edu007 jefe e02 e02_2, r



139

Tabla 97. Efectos marginales del modelo.

La interpretación de los efectos marginales es la siguiente: por un aumento en 1 año deescolaridad, la probabilidad de participar en el mercado laboral se incrementa en 2.7%;por cada año de experiencia la probabilidad de salir al mercado de trabajo se incrementa

en 1.2% y el signo negativo de la forma cuadrática de esta variable indica que a partir delvalor máximo de la variable edad, un año más reduce la probabilidad de salir deldesempleo en 0,01%.

Las columnas que le siguen a los coeficientes nos ayudan a realizar la inferencia de cadauno de ellos. La columna “Robust Std. Err.” muestra el error estándar de cada coeficiente

a partir de una matriz de varianzas y covarianzas robusta, y la columna “z” muestra el

estadístico de una normal estándar que resulta de dividir el coeficiente de cada variablesobre su propio error estándar. La columna “P>|z|” muestra la información

correspondiente a la probabilidad acumulada que le pertenece a cada estadístico z y lacolumna “[95% Conf. Interval]” nos informan sobre los límites superior e inferior en los que

podrían variar los parámetros estimados con un 95% de confianza.

7.3.3 Comprobación de supuestos

7.3.3.1 Prueba de Pearson

El estadístico de Pearson es una prueba de bondad de ajuste que se distribuye chi2 congrados de libertad igual al número de patrones de covariables menos el número deparámetros.

. estat gof

Tabla 98. Prueba Pearson.



140

Los resultados señalan que la hipótesis nula es rechazada y por lo tanto, el modelo nopresenta un buen nivel de ajuste a los valores actuales. La principal consecuencia de esteresultado, es que no se puede utilizar el modelo para hacer inferencias acerca de larelación entre las variables explicativas y la probabilidad de participar en el mercado detrabajo. Sin embargo, el modelo aún posee algún valor predictivo y puede utilizarse para

pronosticar casos.7.3.3.2 PRUEBA DE HOSMER-LEMESHOV(H-L)

Al igual que la prueba de Pearson, el estadístico de Hosmer Lemeshov es una prueba debondad de ajuste que permite comparar el valor original de los datos con el valorestimado por grupos de observación (G). En Stata la prueba de H-L puede practicarseutilizando el comando estat gof y adicionando la opción group(# ), para definir el númerode particiones de las observaciones que generalmente son 10 grupos iguales.

. estat gof, group(10)

Tabla 99. Prueba H-L

Bajo la hipótesis nula de que el modelo presenta un buen nivel de ajuste, el estadístico deH-L sigue una distribución chi2 con G-2 grados de libertad. Al comparar las frecuenciasobservadas y estimadas a través del estadístico de H-L y analizar el p-valor asociado a la

prueba, se rechaza la hipótesis nula. Una vez más, el modelo de participación laboral fallóuna prueba de bondad de ajuste.

7.3.3.3 Estadísticas de clasificación

Otra prueba de bondad de ajuste de la regresión probit es la capacidad predictiva delmodelo para clasificar correcta o incorrectamente los valores originales. A partir delpronóstico de la variable dependiente, el modelo clasifica como “1” los valores que tienen

mayor probabilidad de ocurrencia y que son superiores a un punto de corte, en casocontrario los valores se clasifican como “0”. En general, se asume que el punto de corte

es igual a 0.5. En Stata se utiliza el comando estat class para generar las estadísticas de

clasificación así:. estat class



141

Tabla 100. Estadística de clasificación

El resultado general de esta prueba es que el 66% de los valores originales estánclasificados correctamente. De la tabla de clasificación también se puede analizar lasiguiente información:

El primer cuadro de la tabla realiza una comparación entre los valores observadosy los pronosticados por el modelo. Las filas corresponden a los valores “1”(+) y

“0”(-) clasificados por el modelo, y las columnas corresponden a los valoresobservados (D=1 y ~D=0).

La sensibilidad mide el porcentaje de los valores “1” que fueron clasificados

correctamente. En nuestro ejemplo el 89.11% de la población que hace parte dela Población Económicamente Activa (PEA) fue clasificada correctamente por elmodelo.

La especificidad corresponde al porcentaje de “0” que fueron pronosticadoscorrectamente por el modelo. En el ejemplo, el 24.9% de los “0” observados ó la

población que no hace parte de la PEA, fueron clasificados correctamente por elmodelo.

La predicción de los valores positivos o negativos mide el porcentaje de valorespronosticados que acertaron correctamente en la clasificación de “1” o “0”. En el

caso de los “1” (+), el 67.9% de los datos pronosticados corresponden a los

verdaderos valores de “1”, en otras palabras, del total de personas que fueron

catalogadas como PEA por el modelo, el 67,9% de los casos realmente hacíaparte de la PEA. En caso contrario, el 56.2% de los valores “0” pronosticados

equivalen a los valores originales de los “0”. Los errores de clasificación miden el porcentaje de valores observados que fueron

incorrectamente clasificados. Por ejemplo, el 75% de los valores “0” observados

fueron clasificados incorrectamente por el modelo, es decir, del total de personas



142

que no hacen parte de la fuerza de trabajo, en el 75% de los casos el modelo lasclasifico incorrectamente como población PEA.

Una interpretación similar se realiza para el caso de los unos. El 10.8% de losvalores “1” ó de la población que en la muestra hace parte de la PEA, fueron

clasificados como 0 por la predicción del modelo.

La tasa de falsos unos (ceros) corresponde al porcentaje de valores “1” (“0”)pronosticados que en realidad son valores “0”. En el ejemplo, el 32.1% de las

personas que fueron clasificadas en la PEA por el modelo, no hacen parte de estegrupo. De manera análoga, el 43.7% de los valores “0” pronosticados, son valores

“1” De manera análoga, el 43.7% de las personas que el modelo clasificó como “0” o

que no hacían parte de la PEA, corresponden a valores “1” que debieron

pronosticarse como parte de la PEA.

7.3.3.4 CURVAS ROC

Las Curvas ROC (Receiver Operating Characteristic) son una representación gráfica detodos los pares posibles (1-especificidad, sensibilidad) que se generan con distintospuntos de corte. A medida que se incrementa el valor del punto de corte, el porcentaje de“1” clasificados correctamente por el modelo aumenta (sensibilidad), al tiempo que el

porcentaje de “0” clasificados como “1” también se incrementa (falsos positivos). En

STATA las curvas ROC se obtienen al ingresar en la ventana de comando la opción:

. lroc

Figura 105. Curva ROC

La mayor precisión del modelo para pronosticar un estado o un evento correspondería alpunto (0,1). Por lo tanto, cuanto más cercanas se encuentren las curvas a este punto,mejor es la capacidad predictiva del modelo. La forma más práctica de realizar estaprueba es calcular el área bajo la curva ROC, que puede tomar valores entre 0,5 y 1.



143

Cuando el área es equivalente a 0.5, la curva es cercana a la línea diagonal y el modeloes inútil, pero, si el área es cercana a 1, si tiene por lo tanto un buen modelo.

En nuestro ejemplo, el área bajo la cuerva ROC (0.68) estaría indicando que el modelotiene alguna capacidad predictiva.

A través del comando lsens, es posible identificar el punto óptimo de corte que resulta dela intersección de las curvas de sensibilidad y especificidad:

. lsens

Figura 106. Curvas de sensibilidad y especificidad

7.3.4 Pronóstico

El pronóstico de la probabilidad de un estado u ocurrencia de un evento se realiza

empleando el comando predict y adicionando la opción pr así: . predict prob if e(sample), pr

7.3.5 Ejercicio

2. Calcule el valor de la variable latente o la función índice. (Utilice el comandoinvnormal ).

3. Replique todo nuevamente teniendo en cuenta la variable tenencia de viviendapropia

4. Calcule el efecto de la tenencia de vivienda en la probabilidad de entrar almercado de trabajo para los jefes de hogar

5. Calcule el efecto de la tenencia de vivienda en la probabilidad de entrar almercado de trabajo para las mujeres

6. Calcule las estadísticas de clasificación 7. ¿Qué criterio emplearía para escoger entre modelos?



144


Para este ejemplo aplicado se utiliza la base de datos de calidad de vida para el país deColombia en el año 2010. Primero se evalúa un modelo lineal de probabilidad, después unmodelo tipo Logit y finalmente un modelo tipo Probit, todo esto con el fin de obtener

características de cada modelo.

7.4.1 Modelos con variable dependiente binaria MLP, Logit y Probit

5 6 ℎ_ℎ

Donde,

Edad: edad del individuo i, Edad2: edad al cuadrado del individuo i, pri, sec, uni, post:variable binaria que toman el valor de uno cuando el individuo i ha alcanzado el niveleducativo respectivo, spouse: variable binaria que toma el valor de uno si el individuo i

está casado y cero en cualquier otro caso y h_head: variable binaria que toma el valor deuno si el individuo i es jefe de hogar y cero en cualquier otro caso.

Con un simple ejemplo se puede probar porque se deben utilizar otros instrumentos deestimación diferentes a M.C.O cuando la variables dependiente es binaria es decir toma elvalor de 1 en un caso afirmativo y cero en caso contrario.

. gen Participacion= Ln_w!=.

. keep if p6040>=18 & p6040<=65

. reg Participacion p6040 edad2 pri sec uni post spouse h_head

. predict partmpl

. logit Participacion p6040 edad2 pri sec uni post spouse h_head

. predict partlogit

. sum partmpl partlogit

Tabla 101. MPL VS Logit

Para el valor de las predicciones por M.C.O existe un rango que toma valores negativos,por lo tanto no se puede evaluar la probabilidad de participar en el mercado laboral para el

año 2011, las probabilidades predichas de cualquier medida deben estar entre 0 y 1.

7.4.1.1 Prueba de Wald y prueba bondad de ajuste del modelo

. logit Participacion p6040 edad2 pri sec uni post spouse h_head,

. logit Participacion,

. display 2*(-18001.881 --18765.493)

. display 1-(-18001.881/-18765.493)



145

Tabla 102. Modelo Logit sin restricciones

Tabla 103. Modelo Logit con restricciones

7.4.1.2 Comprobación de supuestos

. probit Participacion p6040 edad2 pri sec uni post spouse h_head,r

. mfx



146

Tabla 104. Resultados modelo Probit

Los parámetros que se obtuvieron en el modelo anterior no se pueden interpretar con

efectos esperados de los regresores en la probabilidad de participar en el mercado laboralpara Colombia en 2011. Para evaluar el efecto de un cambio en una variableindependiente sobre la probabilidad de participar en el mercado laboral, es necesariocalcular el efecto marginal en varios valores de la variable. Stata 12 permite calcular estosefectos marginales con un comando que se llama mfx.

Tabla 105. Efectos marginales del modelo

1. Prueba de Pearson

. estat gof



147

Tabla 106. Prueba Pearson

2. Prueba de Hosmer-Lemeshov (H-L)

. estat gof, group(10)

Tabla 107. Prueba H-L

3. Estadística de clasificación

. estat class

Tabla 108. Estadística de clasificación

4. Curvas Roc



148

. lroc

Figura 107. Curva Lroc

Tabla 109. Estadístico Lroc

7.5 Comandos usados

atmeans

display

dprobit

estat class

estat gof

estat gof, group(10)

estat sum

gen

invnormal

keep

label define

label values

label variable

lroc

lsens

margins

mfx

normalden

predict

probit

recode

regress

tab

test

tw

w

xi: logi

t



149

8. MODELOS DE SERIES DE TIEMPO

8.1 Serie de tiempo en Stata modelos autorregresivos de media movil (arma)

Los modelos autorregresivos (AR), de media móvil (MA) y autorregresivos de media móvil(ARMA) se caracterizan por incorporar en la explicación futura de la variable dependientesu propio comportamiento pasado. Esta forma de modelar la conducta de una serie dedatos temporales hace posible, en su forma más simple en modelos univariados, lageneración de pronósticos sin emplear información adicional proveniente de otrosregresores. En las secciones siguientes se sigue la metodología de BOX y JENKINS(1976)10 para estimar y pronosticar modelos univariados de serie de tiempo a través deStata. En particular se hará uso de la información mensual de inflación contenida en labase de datos INFLACION.dta.

Antes de desarrollar la metodología de BOX y JENKINS se aprenderá a generar variablescon formato de fecha, variables rezagadas y a designar la variable que representará el

tiempo en las estimaciones. Se carga la base de datos INFLACION.dta. use INFLACION.dta

8.1.1 Generación de variables con formato de fecha

Las variables de tiempo; fechas en años, semestres, trimestres, meses, semanas y díasdeben tener un formato especial en el análisis de serie de tiempo y panel de datos. Losformatos de estas variables en cada caso se describen a continuación:

Formato Descripción Codificación

%td ó %d Diario0 =

01jan1960;

1 = 02jan1960

%tw Semanal 0 = 1960w1; 1 = 1960w2

%tm Mensual 0 = 1960m1; 1 = 1960m2

%tq Trimestral 0 = 1960q1; 1 = 1960q2

%th Semestral 0 = 1960h1; 1 = 1960h2

%ty Anual 1960 = 1960; 1961 = 1961Tabla 110. Formato de fechas

Es posible generar variables con formato de fecha a partir del comando generate. Porejemplo, para crear una variable con formato mensual se emplea la siguiente sintaxis:

10 BOX G. & JENKINS G. Time Series Analiysis, Forecasting and Control. Holden Day, San Francisco. 1976



150

Como la base de datos es relativamente pequeña se puede listar la información en labase de datos por medio del comando list así:

. list

Figura 108. Comando list.

La variable “fecha” tiene un formato numérico general que corresponde al número de

meses desde 1960. En el mes 1 del año 2001 el número de meses transcurridos desde1960 son 492. Sin embargo a la variable fecha se le puede dar un formato numéricomensual así:

8.1.2 Designando la variable que representa al tiempo

Antes de estimar cualquier modelo de serie de tiempo es necesario que Stata reconozcala variable que representa el tiempo (en nuestro ejemplo, la variable fecha). Este paso selogra a través del comando tsset así:



151

. tsset fecha, monthly

La opción monthly indica la periodicidad mensual de la variable de tiempo “fecha”.

Nota: Para hacer pronósticos varios períodos hacia delante es necesario que la variableque representa el tiempo se extienda tantos períodos hacia delante como períodos de la

variable dependiente se quieran pronosticar. En nuestro ejemplo, 7 períodos hastadiciembre de 2006. Se dispone de información de inflación hasta mayo de 2006.

8.1.3 Variables con rezago

En análisis de serie de tiempo resulta muy útil generar variables con uno o más rezagos.En estos casos suele acompañarse al comando generate con los operadores [_N] y [_n].El operador _N se usa para contar el número total de observaciones en una variable y, eloperador _n numera las observaciones dentro de una variable.

Por ejemplo, se puede generar una variable rezagada un periodo así:

. g rezago = inflacion[_n-1]

En este ejemplo se debe tener en cuenta:

“Inflación” es el nombre de la variable que será rezagada.

Los corchetes en este caso deben ser cuadrados.

No puede hacer separación entre la variable a rezagar y el corchete cuadrado deapertura.

“-1” en este caso indica que la variable “inflacion” será rezagada 1 período.

Al listar las variables “fecha”, “inflacion” y “rezago” se puede visualizar la nueva variable

“rezago” correspondiente a la inflación rezagada un período.

. list fecha inflacion rezago



152

Tabla 111. Comando list después de generar rezago.

8.2 Metodología Box Jenkins (BJ) aplicada al caso de selección y estimación deun modelo arma para pronóstico de la inflación.

BOX JENKINS difundieron una metodología en tres fases para identificar, estimar yvalidar modelos de serie de tiempo univariada y generar pronósticos. A continuación seseguirán estos pasos para obtener un modelo de pronóstico tipo ARMA para la inflaciónmensual.

8.2.1 Fase de identificación

La primera aproximación a los datos es gráfica. Al graficar la variable a pronosticarrespecto al tiempo se puede obtener información sobre posibles “outliers”, valores

perdidos “missing values” o cambios estructurales en la serie de datos. Así mi smo, si lavariable a pronosticar es no estacionaria podrán observarse tendencias pronunciadas ocomportamientos sin media y/o varianza constante a través del tiempo. Con el comandotsline es posible efectuar esta primera constatación así:

. tsline inflacion



153

Figura 109. Grafico en series de tiempo

A su vez es posible constatar si se viola el supuesto de estacionariedad comprobando laexistencia de raíces unitarias por medio de la prueba de DICKEY y FULLER DF (1979)11.

En Stata la prueba se puede efectuar a través del comando dfuller así:. dfuller inflacion, trend regress lags(7)

Nota: Previamente se comprobó que no eran significativos los rezagos 7,…,12 (se probaron 12

rezagos porque la serie es mensual). Para tener en cuenta la tendencia en la prueba se emplea laopción trend . La opción regress se puede omitir si tan sólo se desea el valor del estadístico DF.Para omitir la constante se emplea la opción noconstant .

Tabla 112. Prueba Dickey-Fuyller

11 DICKEY D. & FULLER W. 1991. Distribution of the Estimates for Autoregressive Time Series With a UnitRoot. Journal of the American Statistical Association 74.



154

Al 1% de significancia se rechaza la hipótesis de existencia de raíz unitaria, en otraspalabras, se puede pensar que la variable inflación ha sido generada por un procesoestacionario.

El paso a seguir consiste en identificar la naturaleza del proceso generador de datos (ennuestro ejemplo, la inflación). Para llevar a cabo esta tarea se suele recurrir a lasfunciones de autocorrelación (para identificar el componente de media móvil MA delmodelo) y autocorrelación parcial (para identificar el orden la parte autorregresiva AR delmodelo). En Stata ambas funciones se pueden graficar con los comandos ac y pac respectivamente así:

. ac inflación

. pac inflacion

Figura 110. Autocorrelación de la inflación Figura 111. Autocorrelación parcial de la inflación

8.2.2 Fase de estimación

Las funciones de autocorrelación y autocorrelación parcial sugieren varios procesos ARMA factibles para la inflación. La selección de los modelos debe tener en cuenta loscriterios de parsimonia (menor parametrización posible) estacionariedad einvertibilidad de la variable dependiente y bondad de ajuste del modelo. A continuaciónse presenta uno de los posibles procesos ARMA para la inflación. El comando paraestimarlos en Stata es arima y a través de las opciones ar (número de los rezagos de lavariable dependiente separados por comas) ma(número de los rezagos separados porcomas) se puede especificar el componente autorregresivo y de media móvil así:

. arima inflacion tendencia, ar(1,12) ma(5,8,11) robust



155

Tabla 113. Modelo ARIMA

Nota: El orden de integración en este caso es 0. Sin embargo a través del prefijo D1., D2.,D3.,…,etc., antecediendo la variable dependiente (por ejemplo, D1.inflacion, D2.inflacion,D3.inflacion,…) se pueden lograr diferenciaciones de orden superior . La opción robust genera unamatriz de varianzas y covarianzas consistente con posibles problemas de heteroscedasticidad.

A través del comando estat ic se puede obtener el criterio de información de Akaike (AIC)y el criterio bayesiano de Schwartz (BIC) los cuales son las dos medidas más comunes debondad de ajuste. Cuanto más pequeño es el valor de los estadísticos (AIC) y (BIC) mejorajuste tiene el modelo. Estos criterios se pueden emplear para seleccionar el modelo másapropiado de un conjunto de posibles modelos.

. estat ic

Tabla 114. Criterio de información AIC

8.2.3 Fase de verificación y diagnostico

Es muy importante que los residuales del modelo estimado no estén serialmentecorrelacionados. Cualquier evidencia de correlación serial implicaría movimientossistemáticos en la variable dependiente que no han sido tenidos en cuenta por loscoeficientes incluidos en el modelo ARMA. Para chequear correlación en los residuales sepueden construir las funciones de autocorrelación y autocorrelación parcial para losresiduales. A través del comando predict seguido de la opción res se podrá estimar losresiduales así:



157

. list fecha inflacion inf_p

Tabla 116. Comando list después del pronóstico de la serie.

Finalmente, a través del comando tsline es posible visualizar los valores observados ypronosticados de la inflación hasta diciembre de 2006.

. tsline inflacion inf_p

Figura 114. Grafica de la serie observada y pronosticada

8.2.5 Ejercicio

1. Replique las fases 7.4.1, 7.4.2 y 7.4.3 de la metodología de BJ para generar unproceso ARMA para la inflación.

2. Comparé entre varios modelos posibles la bondad de ajuste de los mismos paraseleccionar el mejor modelo.

3. Pronostique la inflación para los próximos 6 meses y grafique los resultados frentea los valores observados.



158

8.2.6 Ejemplo aplicado: FILTROS, ARIMA, SARIMA.

En esta sección de utilizará la base de datos del índice de precio del consumidor de ordenmensual para el país de México para una serie temporal de 1995 a 2013.

8.2.6.1 Generación de variables con formato de fecha

1. Utilizar el comando br para observar cómo está determinada la variable de tiempo,lo cual tiene una parámetro de meses en letras en idioma español y años ennúmeros, por lo tanto se deberá hacer un tratamiento diferente a como sepresentaría en una base de datos con tiempo January 1,1995, 1/1/1995 o 1995-1-1, lo cual se transformaría de la siguiente manera

. gen fecha=date(NOMBREDELAVARIABLEFECHA, “MDY”)

. format fecha %td

2. Por lo tanto se debe en primera instancia dividir la variable Fecha en dos partes laprimera que contenga los meses en letras y la segunda la fecha, el comando que

se utilizará es Split, después se debe renombrar las variable, respectivamenterename, segundo generar una variable de tiempo que contenga valores numéricosordenados a partir de la variable años bysort year: gen, tercero generar lavariables de tiempo con el formato año mes, ym, cuarto definir el formato de lavariable de tiempo format, y por último se designa la variable que representa altiempo con el comando tsset .

. split Fecha, gen(fecha) destring

. rename fecha1 mes

. rename fecha2 año

Tabla 117. Comando split

. bysort año: gen meses=_n

. gen fecha1=ym(año, meses)

. format fecha1 %tm



159

Tabla 118. Generar fechas en Stata.

. drop mes año meses

. tset fecha1, monthly

Figura 115. Formato fecha

8.2.6.2 Análisis de series temporales

8.2.6.2.1 Filtro de Hodrick y Prescott

La base de datos incluye 218 datos con periodicidad mensual, el objetivo de esta secciónes separar la tendencia y encontrar el componente cíclico del IPC de México entre el

primer mes de 1995 y el segundo mes de 2013 empleando el filto H-P.

El comando a utilizar es tsfilter hp, donde trend crea una nueva variable denominadatendencia atenuada y smooth representa la constate de suavizamiento que para datosmensuales es igual a 14400, en caso de trimestres es igual a 1600 y en caso de añoscorresponderá a 1000.

. gen LnIPC=ln(IPC)

. tsfilter hp IPC_hp=LnIPC, trend(tendenciaLnIPC) smooth(14400)

. tsline LnIPC tendenciaLnIPC

. tsline IPC_hp



160

Figura 116. Serie observada VS tendencia Figura 117. Filtro H-P

8.2.6.2.2 Modelos de pronósticos con tendencia determinísticaSiguiendo la base de datos del IPC para México, se proyectará su valor para los meses(marzo y abril de 2013), mediante los modelos de pronósticos con tendenciadeterminística. Para lo cual se utilizaran los comandos tsappend, add(#), el cual agregados observaciones más para su determinado pronóstico, range, el cual funciona paracrear una variable acumulada que va desde 1 hasta 220 y boxcox para determinar laforma funcional que mejor se ajuste a la tendencia del IPC.

. tsline IPC

. tsappend, add(2)

. range tendencia 1 220 220

. boxcox IPC tendencia, model(theta) lrtest

Figura 118. Gráfica IPC



161

Tabla 119. Regresión BOX-COX

Según la prueba ninguna función se ajusta a la tendencia del IPC, por lo tanto elpronóstico no se puede llevar a cabo mediante esta metodología. En caso contrario seevalúa una regresión del IPC en función de la tendencia teniendo en cuenta la hipótesisnula del anterior test de prueba. Por ejemplo, si theta=lambda=1 entonces, regress IPC

tendencia, para luego pronosticar la variable IPC con el comando, predict IPCF, xb

8.2.6.2.3 Pronóstico con atenuación exponencial

Los métodos que se utilizan dependerán de la naturaleza de la variable IPC, ya se

descarta de antemano que el IPC sigue una función con tendencia con la prueba BOX-COX, para determinar la naturaleza de la variable dependiente si es o no estacionaria seelabora la prueba de Dickey-Fuller, mediante esta prueba se rechaza la hipótesis nula deestacionariedad, por lo tanto será necesario diferenciarla n veces para volverlaestacionaria.

Para lo cual se sugieren modelos tales como promedio móvil, promedio móvil doble,atenuación simple, atenuación doble. En caso de que el modelo tenga tendencia se puedepronosticar mediante Holt-Winters no estacional, Holt-Winters estacional multiplicativo oHolt-Winters estacional aditivo.

. dfuller IPC, drift lags(14)

. dfuller D.IPC, drift lags(14)

. tsappend, add(10)

. tssmooth dexponential ADIPC=D.IPC, forecast(10)

. gen PronosticoIPC=IPC[_n-1]+ADIPC

. replace PronosticoIPC= PronosticoIPC[_n-1]+ADIPC if tin(2013m4, 2013m12)

. tsline PronosticoIPC IPC if tin(2010m1, 2013m12)



162

Tabla 120. IPC Dickey-Fuller test

Tabla 121. Primeras diferencias IPC Dickey-Fuller test

Tabla 122. Pronósticos para el IPC de México



163

Figura 119. IPC VS Pronóstico

8.2.6.3 Metodología Box-Jenkins para el pronóstico de series detiempo

8.2.6.3.1 Detectar estacionariedad

Las dos maneras más comunes de detectar este problema en series temporales esmediante la función de autocorrelación simple, en donde le criterio para detectarla sefundamenta cuando decae la función exponencialmente entre 1 y 0, otra manera esmediante el correlograma de la variable de estudio en donde el criterio para detectar

estacionariedad se fundamenta en la probabilidad de tener ruido blanco, lo que implicaautomáticamente que la series es estacionaria por lo tanto se acepta esta hipótesiscuando la probabilidad es mayor a 5%. Un segundo instrumento es el análisis de raízunitaria, en donde el estadístico de prueba más conocido es Dickey-Fuller en donde lahipótesis nula describe la presencia de raíz unitaria.

. ac IPC

. corrgram IPC

. dfuller IPC, drift lags(12) regress

. dfuller IPC, trend lags(12) regress

Las opciones de la prueba de Dickey-Fuller dfuller, corresponde a las restricciones delmodelo, se encuentra drift un modelo con intercepto o constante, trend un modeloevaluado con tendencia, noconstant un modelo que no incluye la constante.



165

Tabla 124. Prueba Dickey Fuller con tendencia

Tabla 125. Prueba Dickey Fuller con intercepto

Mediante las dos pruebas se confirma la presencia de autocorrelación serial de la serie detiempo. Para corregir este problema se pueden hacer transformaciones de la serieoriginal.



166

. gen LnIPC=ln(IPC)

. gen dLnIPC=D.LnIPC

. tsline dLnIPC

. ac dLnIPC

. corrgram dLnIPC

. dfuller dLnIPC, drift lags(12) regress

Figura 121. Variación porcentual mensual IPC Figura 122. Autocorrelación de la serie diferenciada

Tabla 126. Correlograma de la serie en diferencia logarítmica



167

Tabla 127. Prueba Dickey- Fuller de la serie diferenciada

La prueba de estacionariedad Dickey-Fuller no es válida por la presencia deestacionalidad del IPC para México El correlograma no muestra probabilidades porencima del 5% lo que demuestra el comportamiento estacional de la serie de tiempo. Lamanera para arreglar este problema es desestacionalizar la serie, calculando la diferenciaestacional de la primera diferencia logarítmica, para luego trabajar con la seriedesestacionalizada.

. gen dlnipc12=DS12.LnIPC

. tsline dlnipc12

. ac dlnipc12

. corrgram dlnipc12

. dfuller dlnipc12,lags(1) regress noconstant



168

Figura 123. Autocorrelación de la serie estacionalizada.

Tabla 128. Correlograma de la serie estacionalizada.



169

Tabla 129. Prueba Dickey- Fuller series desestacionalizada.

En la tabla 127 se puede apreciar cómo se desvaneció el efecto estacional de la serie detiempo, la gran mayoría de se encuentra dentro del intervalo de confianza. Mediante laprueba Dickey-Fuller se puede afirmar que la primera diferencia logarítmicadesestacionalizada del IPC de México es estacionaria.

8.2.6.3.2 Estimación

Ahora para modelar la variable de debe escoger el orden ARIMA y SARIMA con elcorrelograma de la diferencia logarítmica desestacionalizada.

. arima DS12.LnIPC, ar(1) sarima(0,0,1,12) noconstant

Tabla 130. Modelo arima, sarima

8.2.6.3.3 Verificación Antes de ir a la parte de pronóstico de la serie de tiempo se deben validar algunosparámetros como por ejemplo los estimadores sean estadísticamente significativos lo cualpasan la prueba al 1% de nivel de significancia, segundo se realiza una prueba de ruidoblanco para los errores.

. predict residuales, r



170

. wntestq residuales

Tabla 131. Prueba para detectar ruido blanco en los residuos

Bajo esta prueba se confirma que los residuales del modelo son ruido blanco.

8.2.6.3.4 Pronóstico

Ahora se prosigue al pronóstico de la serie para lo cual se agregan n observaciones parael pronóstico, se predicen los valores de la variables IPC y luego se halla el antilogaritmode la diferencia logarítmica con el fin de obtener el IPC en niveles.

. tsappend, add(10)

. predict forescastlnipc, y dymamic(tm(2013m3))

. gen IPCF=exp(forescastlnipc)

Tabla 132. Pronóstico de la serie IPC para el país de México.

Después de este procedimiento se hace una evaluación de la calidad del pronóstico conla serie observada, primero un análisis gráfico, segundo observar si el dato pronosticadoestá por encima o por debajo del valor real mediante el comando rmse y tercero observarsi la predicción está bien ajustada con el comando inequal7

. tsline IPC IPCf

. ssc install rmse

. ssc install inequal7

. rmse IPC IPCf

. inequal7 IPCf [weight=IPC]



171

Figura 124. Gráfica IPC VS Pronóstico Tabla 133. Prueba RMSE e INEQUAL7

Por lo tanto, al valor pronosticado de 108.573 para el mes de abril de 2013 se le deberestar 0.245356 para que la proyección se aproxime mejor a la observación de eseperiodo, es decir un IPC de 108.327. También se puede observar si el pronóstico estábien ajustado de acuerdo con el Theil index de 0.028 que se aproxima a cero.

8.3 Modelos ARCH y GARCH, modelo condicional autorregresivo generelazidadocon heterocedasticidad

8.3.1 Antecedentes

En el estudio de Engle (1982), se pretende analizar la volatilidad de la tasa de inflación ysu respectivo pronóstico para el Reino Unido con un modelo tipo ARCH, con lo cual setrataba de una crítica a los modelos básicos por M.C.O, en donde se coloca de relieve elconcepto de una varianza constante en el periodo de pronóstico. Para lo cual Engleintroduce un método econométrico basado en que la varianza no condicional es constanteen el tiempo, mientras que la varianza condicional es variable en el tiempo. Para talesprocesos, el pasado reciente da información acerca de la varianza del pronóstico de unperiodo. La eficiencia del modelo ARCH se calcula y puede ser infinita. Para comprobar silos choques siguen un proceso ARCH, el procedimiento que se emplea son losmultiplicadores de Lagrange. La prueba se basa simplemente en la autocorrelación de los

residuos al cuadrado. Por lo tanto el modelo realizado por Engle se utilizó para estimar lasmedias y las varianzas de la inflación en el Reino Unido. Este estudio obtuvo un gran éxitopara estimar la volatilidad de la serie por lo cual desde ese entonces se empezó a utilizaresto procesos para pronosticar variables que tienen periodos con bastante volatilidad.Engle concluye que el efecto ARCH es significativo y que las varianzas estimadasaumentan sustancialmente durante los años 70’s (los años setenta fueron caóticos con un

sistema de precios volátiles).



172

Después de 5 años de permanecer el modelo ARCH aparece en 1987 Bollerslev, con unmétodo innovador donde se introduce al modelo básico un término no observable aditivode error en la ecuación de la varianza condicional. En donde la evidencia empírica deestos modelos se comprueba para una conjunto de datos de tipos de cambio e índices deprecios de acciones. La principal conclusión del modelo radica en el hecho de que los

precios bursátiles y las tasas de retornos no tienen autocorrelación a través del tiempopero se caracterizan por una alta volatilidad y tiempos apacibles en el rango de la serie detiempo, la misma conclusión de las revisiones de la literatura en hallazgos previos. Elautor coloca en relieve la utilización se un modelo simple GARCH (1,1), el cual se ajusta ala serie de datos y a su descripción. Y coloca una nueva pregunta de investigación paraposteriores investigaciones y es lo concerniente a si existen otras distribucionescondicional de los errores, proporciona una mejor estimación y aún más la utilización deotro orden es la especificación GARCH, para modelar otras series de tiempo financieras.

La metodología de la teoría de la volatilidad dinámica, toma gran relevancia en la parte demodelización de los precios financieros vía los modelos ARCH-GARCH. Estos modelos

son básicamente no lineales gaussianos que surgen a partir del supuesto de nonormalidad de la serie de rendimientos financieros y en si al fenómeno de colas pesadas yde la concentración de variabilidad en choques coyunturales, esto lo hace admitiendocambios en las perturbaciones, ya que estas varían en el tiempo

8.3.2 El modelo GARCH(1,0)

−

=

Donde

; Ε() 0 ; Var()

|

=| < 1: ; ℎ ó .

8.3.2.1 Versión ARMA del GARCH

− −

=

=

1 ∑ ∑

GARCH (1,1)



174

Tabla 134. Regresión para detectar presencia de varianza condicional

Tabla 135. Prueba LM para detectar efectos ARCH

Tabla 136. Prueba Breush- Godfrey para detectar efectos ARCH

A través de las dos pruebas se confirma la presencia de un efecto Arch en el modelo, yaque la probabilidad de ocurrencia es inferior al 5% de un nivel de significancia, por lo tantose rechaza la hipótesis nula de la no presencia de autocorrelación serial entre los residuosal cuadrado.

Para seguir el ejemplo, se debe encontrar el orden de los rezagos de la variable y demedia móvil a través de los comandos pac y ac , respectivamente.

. ac rendimientos

. pac rendimientos



176

Tabla 138. Correlograma de los residuos al cuadrado

. arch D.Lncoke, ar(1) arch(1) garch(1)

Tabla 139. Modelo Ar(1) Garch(1,1)



177

8.3.4.1 Ejercicio

1. Evaluar el modelo incluyendo los parámetros ar(2) ma(2) GARCH (2,2) y verificarindividualmente la significancia de los coeficientes al 5% como nivel designificancia.

8.3.4.2 Verificación del modeloSe debe verificar si los residuos se comportan con media cero y varianza constante, loque se llama ruido blanco y además verificar si los residuos al cuadrado no muestranpatrones de volatilidad. Para esto se utiliza el comando armadiag y armadiag, arch, paralo cual se debe mirar la probabilidad del estadístico Q, debe sobrepasar los niveles del 5%para cada rezago, concluyendo que se debe aceptar la hipótesis nula de normalidad y nopresencia de volatilidad condicional.

. armadiag

. armadiag, arch

Figura 127. Diagnóstico de los residuos



178

Figura 128. Diagnóstico de los residuos al cuadrado.

8.3.4.3 Pronóstico

Por último se realiza el pronóstico para los siguientes 7 días hábiles en el mercadoaccionario, con el fin de predecir hasta el fin del mes. Además de predecir el precio seutiliza la opción variance con el fin de pronosticar la varianza sujeta a nuestro modeloeconométrico.

. tsappend, add(7)

. predict pronosticolncoke, y dynamic(1565)

. predict cond_var, variance

. gen pronosticocoke=exp(pronosticolncoke)

. tsline Coke pronosticocoke in 1400/1571

Figura 129. Datos observados vs pronóstico



179

8.4 Comandos usados

%td

_n-1

ac

add

ararch

arima

arima

armadiag

boxcox

bysort

corrgram

D.

date

destring

dfuller

drift

dropDS12

dymamic

estat archlm, lags(1)

estat bgodfrey, lags(1)

estat ic

forecast

format

g

garch

inequal7

lags(7)

list

list

lrtest

ma

model(theta)

noconstant pac

predict

range

regress

rename

res

rmse

robust

sarima

smooth(14400)

split

ssc install

tintrend

tsappend

tsfilter hp

tsline

tsset

tssmooth dexponential

use

weight

wntestq

wntestq

xb

ym



180

9. MODELOS DE DATOS PANEL O LONGITUDINALES

Un conjunto de datos panel (o longitudinales) consta de una serie temporal para cadamiembro del corte transversal en el conjunto de datos. Como ejemplo, suponga que setienen las variables de salario, educación y experiencia de un grupo de individuos a losque se les hace seguimiento por 5 años. De igual forma es posible recopilar informaciónen unidades geográficas. Por ejemplos, datos de municipios de un país sobre impuestos,salarios, gastos estatales, niveles de educación, entre otros.

La característica principal de los datos panel, que los distinguen de las combinaciones decortes transversales, es el hecho de que se da seguimiento a las mismas unidadestransversales ya sean individuos, países, regiones, entre otros, durante cierto período detiempo.

Como los datos de panel exigen la repetición de las mismas unidades con el tiempo, losconjuntos de estos datos, en particular de los individuos, hogares y empresas, son másdifíciles de conseguir que en las combinaciones de cortes transversales. La ventaja esque al tener las mismas unidades es posible controlar ciertas características inobservadasde individuos, empresas, etc.

Es decir es posible capturar inferencias causales que no es posible capturar con loscortes transversales. La segunda ventaja de los datos panel es que permite estudiar laimportancia de los rezagos en el comportamiento o el resultado de tomar una decisión.Esta información puede ser significativa, puesto que es de esperar que muchas políticaseconómicas tengan efecto sólo al paso del tiempo.

La idea de los panel es poder capturar esos factores inobservables, por ejemplo, lo que

influye en el salario de un individuo en 1990 también influirá en el mismo individuo en1991, ese factor inobservable puede ser la capacidad o habilidades.

9.1 Análisis de datos panel

El principal objetivo de aplicar y estudiar los datos en panel, es capturar la heterogeneidadno observable, ya sea entre agentes económicos o de estudio asó como también en eltiempo, dado que esta heterogeneidad no se puede detectar ni con estudios de seriestemporales ni tampoco en corte transversal.

La aplicación de esta metodología permite analizar dos aspectos de suma importancia

cuando se trabaja con este tipo de información y que forman parte de la heterogeneidadno observable: i) los efectos individuales específicos y ii) los efectos temporales.

En lo que se refiere a los efectos individuales específicos, se dice que estos son aquellosque afectan de manera desigual a cada uno de los agentes de estudio contenidos en lamuestra (individuos, empresas, bancos) los cuales son invariables en el tiempo y queafectan de manera directa las decisiones que tomen dichas unidades. Usualmente se



181

identifica este tipo de efectos con cuestiones de capacidad empresarial, eficienciaoperativa, capitalización de la experiencia, acceso a la tecnología, etc.

Los efectos temporales serían aquellos que afectan por igual a todas las unidadesindividuales del estudio pero que no varían en el tiempo. Este tipo de efectos puedenasociarse, por ejemplo, a los choques macroeconómicos que pueden afectar por igual atodas las empresas o unidades de estudio.

9.1.1 Ventajas de estimación por panel

La técnica permite al investigador económico disponer de un mayor número deobservaciones incrementando los grados de libertad y reduciendo la colinealidadentre las variables explicativas y, en última instancia, mejorando la eficiencia delas estimaciones econométricas.

Tal y como se mencionó anteriormente, la técnica permite capturar laheterogeneidad no observable ya sea entre unidades individuales de estudio como

en el tiempo. Con base en lo anterior, la técnica permite aplicar una serie depruebas de hipótesis para confirmar o rechazar dicha heterogeneidad y cómocapturarla.

Los datos en panel suponen, e incorporan en el análisis, el hecho de que losindividuos, firmas, bancos o países son heterogéneos. Los análisis de series detiempo y de corte transversal no tratan de controlar esta heterogeneidad corriendoel riesgo de obtener resultados sesgados.

Permite estudiar de una mejor manera la dinámica de los procesos de ajuste. Estoes fundamentalmente cierto en estudios sobre el grado de duración y permanenciade ciertos niveles de condición económica (desempleo, pobreza, riqueza).

Permite elaborar y probar modelos relativamente complejos de comportamiento en

comparación con los análisis de series de tiempo y de corte transversal. Unejemplo claro de este tipo de modelos, son los que se refieren a los que tratan demedir niveles de eficiencia técnica por parte de unidades económicas individuales(empresas, bancos, etc).

9.1.2 Desventajas

En términos generales, las desventajas asociadas a la técnica de datos de panelse relacionan con los procesos para la obtención y el procesamiento de lainformación estadística sobre las unidades individuales de estudio, cuando esta seobtiene por medio de encuestas, entrevistas o utilizando algún otro medio de

levantamiento de los datos. Ejemplos de este tipo de limitaciones son: coberturade la población de interés, porcentajes de respuesta, preguntas confusas,distorsión deliberada de las respuestas, etc.



182

9.2 Análisis de datos panel de dos períodos

Utilizando la base de datos CRIME2.dta, se tiene t = 1 y t = 2, la base contiene los índicesde delincuencia y de desempleo de 46 ciudades para 1982 y 1987, por lo tanto t = 1 =1982 y t = 2 = 1987. Si se elabora una regresión t = 2, qué coeficiente se esperaría para la

variable desempleo?, son significativos los coeficientes?Los resultados son:

Tabla 140. Regresión para 1987

Si se interpreta el resultado se observa que un aumento en el índice de desempleodisminuye la delincuencia. Es significativo y coherente?.

El problema puede ser causado por variables omitidas tales como edad, género,educación. Pero por medio de datos panel es posible observar como la inclusión del año82 puede ayudar a controlar el hecho de que distintas ciudades tienen históricamente

diferentes índices de delincuencia. 2 , 1,2. Por medio de análisis de datos agrupados, se hace el análisis que el efecto inobservablees de dos tipos, el constante y el que varía en el tiempo. En la ecuación anterior laconstante es t = 1, y t =2 es Bo + δo.

La variable ai captura todos los efectos inobservables constantes en el tiempo queinfluyen en Yit, ai es denominada EFECTO INOBSERVABLE, en este caso denominadaEFECTO FIJO, dado que no se modifica en el tiempo. La ecuación anterior es un modelode EFECTOS INOBSERVABLES O MODELO DE EFECTOS FIJOS. Uit , se denominaerror idiosincrático o error de variación temporal., pues representa factores inobservablesque cambian en el tiempo. De acuerdo al ejemplo anterior, el modelo a estimar es

87 , La variable d87, será el efecto fijo en este caso URBANO, que pueden ser lascaracterísticas demográficas, si no hay un cambio en las políticas puede encontrarse la

_cons 128.3781 20.75663 6.18 0.000 86.54589 170.2104

unem -4.161134 3.416456 -1.22 0.230 -11.04655 2.72428

crmrte Coef. Std. Err. t P>|t| [95% Conf. Interval]

Total 54450.5558 45 1210.01235 Root MSE = 34.6

Adj R-squared = 0.0106

Residual 52674.6465 44 1197.15106 R-squared = 0.0326

Model 1775.90927 1 1775.90927 Prob > F = 0.2297

F( 1, 44) = 1.48

Source SS df MS Number of obs = 46

. reg crmrte unem if year == 87



183

educación, la raza y la edad. Ahora por los supuestos de MCO, U no debe estarcorrelacionado con las X, por lo tanto se hace un cambio en la ecuación

2 , 1,2. Donde Vit = ai + uit, se denomina ERROR COMPUESTO. Realizando la estimación del

ejemplo

Tabla 141. Regresión con inclusión dummy 1987.

El resultado no es bueno, dados la insignificancia, lo que indica que el supuesto de nocorrelación está afectado el modelo, además, MCO con variables dicotómicas nosoluciona el problema de variables omitidas, además, uno de los objetivos de panel escapturar correlaciones entre a y X.

En la mayor parte de las aplicaciones, la razón de data panel es permitir que el efectoinobservable se correlacione con las variables explicativas. Por ejemplo, en ladelincuencia, se desea dejar que los factores urbanos no contemplados en a i que influyenen el índice de delincuencia, se correlacionen también con el índice de desempleo.

Es sencillo realizarlo: Como ai es constante en el tiempo, se diferencia a lo largo de losdos años. De manera se escribe la ecuación de esta forma

( ) ( 2 ) ( 1 )

_cons 93.42025 12.73947 7.33 0.000 68.10719 118.7333

d87 7.940416 7.975325 1.00 0.322 -7.906385 23.78722

unem .4265473 1.188279 0.36 0.720 -1.934538 2.787633

crmrte Coef. Std. Err. t P>|t| [95 Conf. Interval]

Total 81045.5167 91 890.610074 Root MSE = 29.992

Adj R-squared = -0.0100


Model 989.717223 2 494.858612 Prob > F = 0.5788

F( 2, 89) = 0.55


. reg crmrte unem d87



184

( ) ( ) ( ), ∆ ∆ ∆ ,

El efecto ai es eliminado al diferenciar, la ecuación anterior es denominada ecuación dediferencia de primer orden. Lo importante es que no exista correlación entre U y X. Para

poder estimar este modelo debe haber cambio en las X, dado que si hay una variable queno cambie, como por ejemplo el sexo de una persona la estimación es incorrecta.

Reestimando este modelo se tiene

. by var35: gen ccrmrte= crmrte - crmrte[_n-1]

Tabla 142. Regresión teniendo en cuenta la diferencia entre variables

El resultado ahora proporciona una relación positiva, entre los índices. La intercepciónrevela que cuando el cambio en el desempleo = 0, el índice delictivo es de 15.4, estorefleja un aumento secular en los índices delictivos en USA de 1982 a 1987.

9.2.1 Ejercicio

1. Use la base de datos SLP75_81.dta para estimar el intercambio entre el tiempodedicado a dormir y a trabajar. El modelo es descrito por

∆ ∆ ∆ ∆ ∆ 5∆ℎℎ ∆. Estime el modelo correspondiente e intérprete.

2. Utilice la base CRIME3.dta y estime el siguiente modelo diferenciándolo

log() 78 ,− ,− . El modelo de índice de delincuencia para Noruega, tiene como dependiente el porcentajede casos resueltos, los rezagos van a permitir que se observe si el índice de casosresueltos pasados ejerce influencia sobre el índice de hoy. Si son significativos indicaría

_cons 15.4022 4.702117 3.28 0.002 5.92571 24.8787

cunem 2.217999 .8778658 2.53 0.015 .4487771 3.987222

ccrmrte Coef. Std. Err. t P>|t| [95% Conf. Interval]

Total 20255.9871 45 450.133047 Root MSE = 20.051



Model 2566.43744 1 2566.43744 Prob > F = 0.0152

F( 1, 44) = 6.38


. reg ccrmrte cunem



185

que un mayor porcentaje de casos resueltos hace t períodos disuadiría delitos de esteaño. Qué decisión de política tomaría usted?

3. Análisis de políticas por medio de datos panel

Dado que se hace un seguimiento a los mismos individuos, nos permite analizar después

de cierta implementación de política su efecto, permitiendo tener grupos de control. Elsiguiente ejemplo es para observar el efecto de las leyes de conducir en estado deebriedad con las muertes de tránsito.

La ley implementada es la ley sobre recipientes abiertos, la cual se vuelve ilegal contenerrecipientes de bebidas alcohólicas dentro del vehículo, se desea comparar contra la leyadministrativa que cancela la licencia una vez el conductor es encontrado en estado deembriaguez, el archivo TRAFFIC1.DTA contiene datos de 1985 y 1990 para los 50estados y el distrito de Columbia. La variable dependiente es el número de muertes detransito por cada 100 millones de millas conducidas (dhrte). Estime el modelo endiferencias para dhrte con respecto a la variable open la que indica si contaba o no con laley, y la variable admin, que indica la existencia de la ley administrativa.

Cuál ley tiene mayor efecto?.

9.3 Análisis de más de dos períodos

El modelo para tres períodos es dado por

2 3. . . , El intercepto para el primer período es δ1 y para el segundo es δ1+δ2. Para hacer el

análisis de más períodos simplemente se diferencia la ecuación anterior, resultando∆ ∆2 ∆3∆. . .∆ ∆, Al realizar el procedimiento anterior el intercepto no se incluye, pero en muchas ocasioneseste intercepto es necesario, por lo tanto se reajusta la ecuación anterior y se incluyesolamente un período de tiempo.

∆ ∆2 ∆3∆. . .∆ ∆, ∆ 3∆. . .∆ ∆, 2 3.

De manera general∆ 3 4.. . ∆. . .∆ ∆, 2 , 3 , . . , . Este tipo de análisis es muy útil para análisis de políticas.

Utilizando la base de datos EZUNEM.dta, con la cual se busca capturar el efecto de laszonas empresariales en los reclamos de los seguros de desempleo, la variable ZE captura



186

el efecto del programa de zonas empresariales en los reclamos del seguro de desempleo.Se analizaron 22 ciudades de 1980 a 1988, la variable de estudio es UCLMS la cualindica el número de reclamos de seguro de desempleo del año t y la ciudad i. El modelo aestimar es

∆() 82. . .88 ∆ ∆.

La variable dependiente en la ecuación es la tasa de crecimiento anual aproximada de losreclamos del seguro de desempleo del año t- 1 a t. el tamaño de la muestra es 22*8 =176.

Tabla 143. Regresión tasa de crecimiento de reclamos del seguro de desempleo

La presencia de Zonas Empresariales hace que los reclamos del seguro se reduzcan enaproximadamente (exp(-1.818) – 1) el 16.6%. Los demás parámetros indican laintercepción en cada t, indicando si bajaron o subieron los reclamos del seguro dedesempleo.

9.3.1 Ejercicio

1. Utilizando la base CRIME4.DTA , la cual es el índice de delincuencia en Carolinadel Norte, desde 1981 a 1987, la variable a estudiar CRMRTE es el índice dedelincuencia, PRBARR es la probabilidad estimada de arresto, PRBCON es laprobabilidad de condena dado un arresto, PRBPRIS es la probabilidad de cumplir

una sentencia en prisión dada una condena, LAVGSENS es la duración de lasentencia promedio cumplida y POPLC es el número de efectivos policiacos percápita, de los 90 condados estudiados. Estime el modelo diferenciado y analice laexistencia de heterocedasticidad y corrija si es el caso.

_cons -.3216319 .046064 -6.98 0.000 -.4125748 -.2306891

cez -.1818775 .0781862 -2.33 0.021 -.3362382 -.0275169

d88 -.0170526 .0651444 -0.26 0.794 -.1456652 .1115601

d87 .0539481 .0651444 0.83 0.409 -.0746645 .1825607

d86 .292154 .0651444 4.48 0.000 .1635413 .4207666

d85 .323081 .0666774 4.85 0.000 .1914417 .4547202

d84 -.0171382 .0685455 -0.25 0.803 -.1524655 .1181891

d83 -.0331192 .0651444 -0.51 0.612 -.1617318 .0954934

d82 .7787595 .0651444 11.95 0.000 .6501469 .9073721

guclms Coef. Std. Err. t P>|t| [95% Conf. Interval]

Total 20.6784713 175 .118162693 Root MSE = .21606


Residual 7.79583815 167 .046681666 R-squared = 0.6230

Model 12.8826331 8 1.61032914 Prob > F = 0.0000

F( 8, 167) = 34.50


. reg guclms d82-d88 cez



187

9.4 Efectos fijos

La primera diferencia es sólo una de las formas de eliminar el efecto fijo, ai, el métodomás usado se denomina estimación de Efectos Fijos. El modelo consiste en realizar lasiguiente transformación para el siguiente modelo

, 1, 2 , …, . Se calcula el promedio de cada variable

, ( ) , 1 , 2 , … , .

, 1, 2 , . , . Donde en la última ecuación se encuentran los datos centrados, a ésta transformación sele denomina Transformación Intra-Grupos, que desaparece el efecto inobservable, seestima por MCO, a estos estimadores se denominan estimadores de Efectos Fijos o Intra

–Grupo (within), los cuales aprovechan la variación temporal en y y x dentro de cadaobservación transversal.

En este modelo se supone la existencia de correlación entre a i y X, en caso de no existircorrelación la estimación se realiza por Efectos Aleatorios. Lastimosamente loscoeficientes de la última ecuación no permiten una interpretación de los coeficientes.

En algunas ocasiones es de interés estimar el panel para analizar las intercepcionesestimadas, es decir, ai, esto sucede en el caso que se desee estudiar la distribuciónasociada, o si se desea tomar una determinada empresa o ciudad para ver si su a i, está

por encima o por debajo de su valor promedio muestral.

Efectos fijos o primera diferencia ?

La primera diferencia generalmente es más fácil de calcular en el caso de que elprograma econométrico no cuente con la estimación correspondiente, ambos estimadoresson insesgados y consistentes. Cuando las Uit no se correlacionan serialmente, losestimadores de EF son más eficientes, cuando T es grande y N pequeño, el estimador deEF generalmente presenta problemas dado que N hace que no se cumplan algunossupuestos y se recomienda usar primera diferencia.

9.5 Efectos aleatorios

Teniendo

, 1, 2 , …, .



188

Al utilizar efectos fijos o la primera diferencia, el objetivo es eliminar ai,dado que seconsidera que se correlaciona con una o más de las X, pero si no están correlacionadas yse estima un modelo por EF, el estimador es insesgado.

La ecuación anterior se vuelve Efectos Aleatorios cuando se supone que el efectoinobservable no se correlaciona con cada variable explicativa. El estimador de EA es dadopor

(1 ) ( ) ⋯ ( ) ( ), Donde λ es una transformación de la varianza, que permite eliminar la correlación serialen los errores. A esta transformación se le denomina datos casi centrados, estatransformación permite que las variables explicativas sean constantes en el tiempo, y estáes una ventaja de los EA sobre EF y primera diferencia.

9.5.1 Ejercicio

Usando la base de datos WAGEPAN.dta para estimar la ecuación de salario para loshombres. Debe emplear los tres métodos de estimación, MCO agrupados, EA y EF., lavariable dependiente es lwage, y las explicativas, educación (educ), la raza (black) y elorigen (hisp), la experiencia y la experiencia al cuadrado, si es casado o no (married), y sipertenece a una asociación sindical (union).

Cuál es el efecto de estar casado?, a qué se deberá?

9.6 Análisis de datos panel en Stata

Stata con un conjunto de procedimientos que le permiten al usuario trabajar bases de

datos de Stata, para ello se debe utilizar el prefijo xt , el cual le indica a Stata que se estátrabajando con datos panel. Los comandos para iniciar Stata con panel y hacer sudescripción son:

Identificador de bases de datos de Stata

. xtset id t

Descripción de bases de datos tipo panel

. xtdescribe

Resumen de estadísticas con variaciones WITHIN y BETWEEN

. xtsum id t lwage ed exp exp2 wks south tdum1

Tabulación de datos para una variable panel

. xttab south

Cálculo de probabilidades de transición para una variable



189

. xttrans south, freq

9.6.1 Estructura de bases de datos panel

Stata requiere un ajuste de la base de datos panel, dado que solo trabaja con bases dedatos micropanel, es decir con N grande y T pequeño.

Reshape

reshape long stubnames, i(varlist) [options]reshape wide stubnames, i(varlist) [options]

WIDE

i ....... x_ij ........id sex inc80 inc81 inc82

-------------------------------1 0 5000 5500 6000

2 1 2000 2200 33003 0 3000 2000 1000

Tabla Ejemplo Wide

En la base de datos en forma horizontal (wide form), existe una sola observación por id,pero más de una variable por ingreso.

LONG

i j x_ijid year sex inc-----------------------1 80 0 50001 81 0 55001 82 0 60002 80 1 20002 81 1 22002 82 1 33003 80 0 30003 81 0 20003 82 0 1000

Tabla. Ejemplo Long

En la base de datos de forma vertical (long form) se puede observar que existe unavariable que es constante al interior de un grupo, en este caso el id y una variable quevaría en el interior del grupo que es el año.

De Long a Wide



190

reshape wide stub, i(i) j(j) – j es una variable existente

De Wide a Long

reshape long stub, i(i) j(j) – j es una nueva variable

Formato de los datos WIDE (i=state). use mus08cigarwide.dta, clear

. list, clean

Transformar del formato WIDE al formato LONG (i=Stata, j=year)

. reshape long lnp lnc, i(state) j(year)

Formato de los datos LONG

. list in 1/6, sepby(state)

Retransformar del formato LONG al formato WIDE

. reshape wide lnp lnc, i(state) j(year)

9.6.1.1 Ejercicio

Replique los ejemplos presentados sobre este comando en help reshape

9.6.2 Regresión agrupada

El enfoque más simple de analizando datos tipo panel es omitir las dimensiones delespacio y el tiempo de los datos agrupados y sólo calcular la regresión MCO. Este modeloes expresado de la siguiente forma

∝ (1) Donde i significa la i-ésima unidad transversal (individuo) y t el tiempo.

Con la base nls_panel.dta, entre las variables:

lwage exper exper2 tenure tenure2 south union black educ,

Recordar hacer descripción de las variables y además decirle a Stata que es una basetipo panel.

. log using ch15_nls_re, replace text

. use nls_panel, clear



191

Tabla 144. Regresión agrupada

9.6.3 Efectos aleatorios

La ecuación (1) supone que el intercepto de la regresión es la misma para todas lasunidades transversales. Sin embargo, es muy probable que se necesite controlar elcarácter “individual” de cada individuo. El modelo de efectos aleatorios permite suponer

que cada unidad transversal tiene un intercepto diferente. Este modelo se expresa como:

∝ (2) Donde

. Es decir, en vez de considerar a α como fija, se supone que es una

variable aleatoria con un valor medio α y una desviación aleatoria ui de este valor medio.

Sustituyendo , en (2) se tiene:

(3) Stata realiza la estimación de efectos aleatorios con el comando xtreg, re.

_cons .4766 .0561559 8.49 0.000 .3664993 .5867008

educ (omitted)

union .1322432 .0149616 8.84 0.000 .102909 .1615774

south -.1060026 .0142008 -7.46 0.000 -.1338451 -.07816

black -.1167139 .0157159 -7.43 0.000 -.1475269 -.0859008

tenure2 -.000486 .0002577 -1.89 0.059 -.0009913 .0000192

tenure .01496 .0044073 3.39 0.001 .006319 .023601

exper2 -.0011475 .0003613 -3.18 0.002 -.0018559 -.0004392

exper .0556851 .0086072 6.47 0.000 .0388096 .0725605

educ .0714488 .0026894 26.57 0.000 .0661759 .0767217

lwage Coef. Std. Err. t P>|t| [95% Conf. Interval]

Total 772.56123 3579 .215859522 Root MSE = .38197



Model 251.535045 8 31.4418807 Prob > F = 0.0000

F( 8, 3571) = 215.50


note: educ omitted because of collinearity

. reg lwage educ exper exper2 tenure tenure2 black south union educ



192

Tabla 145. Regresión datos panel por efectos aleatorios

Si se analiza (3), se puede observar que si ui es igual a cero, es decir 0, no existediferencia entre (1) y (3).

Para saber si utilizó efectos aleatorios o datos agrupados entonces debo realizar laprueba de Breusch-Pagan, la prueba del Multiplicador de Lagrange para Efectos

Aleatorios. La hipótesis nula de esta prueba es que

0, entonces, si rechazo la

hipótesis, sí existe diferencia entre (1) y (3) y debo estimar efectos aleatorios.

La prueba se realiza por medio de xttest0

Tabla 146. Prueba xttest

El p –value indica que se debe rechazar Ho, por lo tanto los efectos aleatorios sonrelevantes.

rho .73986872 (fraction of variance due to u_i)

sigma_e .19511039

sigma_u .32904965

_cons .5339294 .0798828 6.68 0.000 .377362 .6904968

union .0802353 .0132132 6.07 0.000 .0543379 .1061327

south -.0818117 .0224109 -3.65 0.000 -.1257363 -.0378871

black -.1167366 .0302087 -3.86 0.000 -.1759446 -.0575286

tenure2 -.0007553 .0001947 -3.88 0.000 -.001137 -.0003737

tenure .0141541 .0031666 4.47 0.000 .0079478 .0203605

exper2 -.000561 .0002626 -2.14 0.033 -.0010757 -.0000463

exper .043617 .0063576 6.86 0.000 .0311564 .0560776

educ .0732536 .0053308 13.74 0.000 .0628055 .0837017

lwage Coef. Std. Err. z P>|z| [95% Conf. Interval]

corr(u_i, X) = 0 (assumed) Prob > chi2 = 0.0000

Random effects u_i ~ Gaussian Wald chi2(8) = 860.08

overall = 0.3191 max = 5

between = 0.3543 avg = 5.0

R-sq: within = 0.1411 Obs per group: min = 5

Group variable: id Number of groups = 716

Random-effects GLS regression Number of obs = 3580

. xtreg lwage educ exper exper2 tenure tenure2 black south union, re

.

Prob > chi2 = 0.0000

chi2(1) = 3859.28

Test: Var(u) = 0

u .1082737 .3290497

e .0380681 .1951104

lwage .2158595 .4646068

Var sd = sqrt(Var)

Estimated results:

lwage[id,t] = Xb + u[id] + e[id,t]

Breusch and Pagan Lagrangian multiplier test for random effects



193

9.6.4 Efectos fijos

Otra forma de modelar el efecto individual, es por medio de efectos fijos, este modelo nosupone que las diferencias entre individuos sean aleatorios, sino constantes o fijas y porello se debe estimar el intercepto u. Cómo se puede permitir que el intercepto varíe conrespecto a cada individuo?. Una de las formas es a través de variables dicotómicas de

intersección diferencial, expresada así

(4) Donde v i es un vector de variables dicotómicas para cada estado. El modelo se estima dela siguiente forma

Tabla 147. Regresión por efectos fijos

El cual estima una dummy para cada individuo, (la base tiene 716). Pero la opción mássencilla es por medio de xtreg

9 .0862207 .3293165 0.26 0.793 -.5595012 .7319426

8 .1714799 .3293968 0.52 0.603 -.4743996 .8173593

7 .3502798 .3298208 1.06 0.288 -.296431 .9969906

6 .2891988 .4476351 0.65 0.518 -.5885216 1.166919

5 .7703423 .2173306 3.54 0.000 .3442017 1.196483

4 .8530533 .1311647 6.50 0.000 .5958663 1.11024

3 .5301255 .1301154 4.07 0.000 .2749959 .785255

2 -.6097623 .5683056 -1.07 0.283 -1.724093 .5045682

id

educ (omitted)

union .0636972 .0142538 4.47 0.000 .0357485 .091646

south -.0163224 .036149 -0.45 0.652 -.0872031 .0545584

black .4436098 .1296263 3.42 0.001 .1894394 .6977803

tenure2 -.0008962 .0002059 -4.35 0.000 -.0012999 -.0004926

tenure .0139089 .0032778 4.24 0.000 .0074818 .0203361

exper2 -.0004091 .0002733 -1.50 0.135 -.000945 .0001269

exper .04 10832 .00 662 6.21 0.000 .02 81027 .0540637

educ .2095154 .1238721 1.69 0.091 -.0333723 .4524031

lwage Coef. Std. Err. t P>|t| [95 Conf. Interval]

Total 772.56123 3579 .215859522 Root MSE = .19511



Model 663.762704 721 .920614014 Prob > F = 0.0000

F(721, 2858) = 24.18


note: 716.id omitted because of collinearity

note: 715.id omitted because of collinearity


. reg lwage educ exper exper2 tenure tenure2 black south union educ i. id



194

Tabla 148. Regresión datos de panel por efectos fijos

Ahora se debe seleccionar ¿agrupados o fijos?, (1) ó (4), el modelo (1) es más restringidodado que asume un intercepto común para todos los estados, es decir, no incluyevariables dicotómicas individuales. Por lo tanto, utilizando la prueba F, la cual la hipótesisnula es que ⋯ 0, es decir todas las variables dicotómicas individualesson iguales a cero. Si la prueba se rechaza, significa que al menos una variable perteneceal modelo, y por lo tanto es necesario estimar el modelo por efectos fijos.

En el ejemplo el p –value es menor a 0.05 por lo tanto es preferible usar el modelo deefectos fijos.

BETWEEN = Componente TEMPORAL aleatorio que es invariante a través de losindividuos, pero que varía a través del tiempo.

WITHIN = El error Ui tiene un componente INDIVIDUAL aleatorio que es invariante através del tiempo ALPHA, que se caracteríaza a cada uno de los agentes sociales.

9.6.5 Efectos aleatorios vs fijos

Las pruebas de Breusch- Pagan para efectos aleatorios y la prueba F, para fijos nospermiten comparar entre cada uno de estos modelos y el de datos agrupados. Pero entreellos ¿cuál usar?

La respuesta depende de la correlación que exista entre las variables X y el componentede error individual ui. El modelo de efectos aleatorios supone que esta correlación es igual

F test that all u_i=0: F(715, 2858) = 15.15 Prob > F = 0.0000

rho .80959194 (fraction of variance due to u_i)

sigma_e .19511039

sigma_u .40231926

_cons 1.450034 .04014 36.12 0.000 1.371328 1.52874

educ (omitted)

union .0636972 .0142538 4.47 0.000 .0357485 .091646

south -.0163224 .036149 -0.45 0.652 -.0872031 .0545584

black (omitted)

tenure2 -.0008962 .0002059 -4.35 0.000 -.0012999 -.0004926

tenure .0139089 .0032778 4.24 0.000 .0074818 .0203361

exper2 -.0004091 .0002733 -1.50 0.135 -.000945 .0001269

exper .0410832 .00662 6.21 0.000 .0281027 .0540637

educ (omitted)


corr(u_i, Xb) = 0.0952 Prob > F = 0.0000

F(6,2858) = 79.46


between = 0.1162 avg = 5.0



Fixed-effects (within) regression Number of obs = 3580


note: black omitted because of collinearity


. xtreg lwage educ exper exper2 tenure tenure2 black south union educ, fe



195

a cero, el no incluir a u en el modelo puede generar problemas de omisión de variablesocasionando un sesgo de variable omitida en los coeficientes de X.

Hausman demostró que la diferencia entre los coeficientes de efectos fijos y aleatorios( ) puede ser usada para probar la hipótesis nula de que ui y las variables X noestán correlacionadas. Por lo tanto la hipótesis nula del test de Hausman es

Ho: Los estimadores de efectos fijos y aleatorios no difieren sustancialmente.

Si se rechaza Ho, hay diferencia entre ellos y la conclusión es que los efectos fijos sonmás convenientes que los efectos aleatorios. Si no se puede rechazar Ho., no hay sesgode que preocuparse y es preferible los efectos aleatorios que al no estimar con dummies,es un modelo más eficiente.

Utiliza para ello una prueba Chi-cuadrado con la hipótesis nula de que el modelo deefectos aleatorios es el que mejor explica la relación de la variable dependiente con lasexplicativas, y por tanto se tiene la hipótesis alternativa de que el mejor método que se

ajusta es el de efectos fijos.

Tabla 149. Prueba de Hausman

En el ejemplo se rechaza Ho., es decir la diferencia entre los coeficientes de efectos fijos

y aleatorios es sistemática, por lo tanto se debe estimar efectos fijos.

Si se desea hacer inferencias con respecto a la población, es decir que se trabaja con unamuestra aleatoria, lo mejor es utilizar una especificación del tipo aleatoria. En caso de queel interés sea limitado a una muestra que se ha seleccionado a conveniencia o bien quese está trabajando con la población, la estimación de efectos fijos será la correcta.

Prob>chi2 = 0.0021

= 20.73

chi2(6) = (b-B)'[(V_b-V_B)^(-1)](b-B)

Test: Ho: difference in coefficients not systematic

B = inconsistent under Ha, efficient under Ho; obtained from xtreg

b = consistent under Ho and Ha; obtained from xtreg

union .0636972 .0802353 -.0165381 .0053462

south -.0163224 -.0818117 .0654893 .0283637

tenure2 -.0008962 -.0007553 -.0001409 .0000668

tenure .0139089 .0141541 -.0002452 .0008468

exper2 -.0004091 -.000561 .0001519 .0000758

exper .0410832 .043617 -.0025338 .0018455

fijos aleatorios Difference S.E.

(b) (B) (b-B) sqrt(diag(V_b-V_B))

Coefficients

. hausman fijos aleatorios

. estimates store aleatorios



196

Adicionalmente, si el interés del estudio particular está puesto en los coeficientes de laspendientes de los parámetros, y no tanto en las diferencias individuales, se debería elegirun método que relegue estas diferencias y tratar la heterogeneidad no observable comoaleatoria.

El modelo de efectos fijos se ve como un caso en que el investigador hace inferenciacondicionada a los efectos que ve en la muestra. El de efectos aleatorios se ve como unoen el cual el investigador hace inferencia condicional o marginal respecto a una población.

Se deja al investigador que decida si hace inferencia con respecto a las características deuna población o solo respecto a los efectos que están en la muestra.

9.6.6 Autocorrelación y heteroscedasticidad

Los modelos de datos panel, modelan tanto la heterogeneidad temporal y la espacial, deacuerdo a los supuestos de MCO los errores deben ser independientes entre si y sedeben distribuir idénticamente con varianza constante.

. Pero los datos panel

generalmente presentan problemas en el cumplimiento de este supuesto. Laindependencia se viola cuando los errores de diferentes individuos se correlacionen entreellos, es decir correlación contemporánea, o cuando los errores dentro de cada unidad secorrelacionan temporalmente, correlación serial, o ambos. De igual forma en el momentode la presencia de heteroscedasticidad no se cumple la distribución idéntica.

Solo se tratará el tema de la correlación temporal es decir la autocorrelación, es muyprobable que existan correlaciones entre los salarios durante los períodos de estudio.

Existen varias pruebas para verificar autocorrelación entre ellas panelauto, pantest2 y xtserial . La prueba más robusta es la xtserial desarrollada por Wooldridge, la hipótesis

nula consiste en que No existe Autocorrelación, el comando xtserial requiere el listado devariables dependientes e independientes.

Si se rechaza la hipótesis nula entonces hay problemas de autocorrelación, y paracorregirlo se hace a través de un modelo de efectos fijos o aleatorios con término p

autorregresivo de grado AR(1) que controla la dependencia de t a t -1 . El modelo es dadopor

Donde − , es decir, los errores tienen una correlación de primer grado. Elmodelo AR1 es ejecutable con xtregar



197

Tabla 150. Regresión datos panel por efectos fijos corregido por autocorrelación

La correlación contemporánea se da cuando ciertos individuos están correlacionados conlas observaciones de otros individuos en el mismo período de tiempo. El problema de lacorrelación contemporánea se refiere a la correlación de los errores en al menos dosunidades en el mismo tiempo t. Es decir existen características inobservables de ciertosindividuos que se relacionan con las características inobservables de otros individuos.

El comando xttest2 ejecuta la prueba de Breusch-Pagan para identificar autocorrelacióncontemporánea en los residuales de efectos fijos. La hipótesis nula es que existenIndependencia Transversal, es decir que los errores son independientes entre sí.

Figura 130. Prueba Xttest2

En este caso se rechaza Ho. Por lo tanto es necesario corregir la correlacióncontemporánea.

En el momento de que la varianza de los errores no sea constante en cada unidadtransversal, se está violando uno de los supuestos, para verificar si existe o noheteroscedasticidad es por medio del test de Lagrange de Breusch-Pagan. La Ho consiste

en que No hay Heteroscedasticidad, es decir, , para todo i . Para verificar laviolación de este supuesto se utiliza el comando xttest3 después de estimar efectos fijos.

F test that all u_i=0: F(715,2143) = 4.13 Prob > F = 0.0000

rho_fov .81283897 (fraction of variance because of u_i)

sigma_e .20057178

sigma_u .41798855

rho_ar .60413957

_cons .3561069 .0216711 16.43 0.000 .3136082 .3986055

educ (omitted)

black (omitted)

union .0569314 .0160276 3.55 0.000 .0255002 .0883627

south -.0334198 .0483105 -0.69 0.489 -.1281602 .0613205

tenure .0026851 .0027579 0.97 0.330 -.0027233 .0080935

exper2 -.0062753 .0003279 -19.14 0.000 -.0069184 -.0056323

exper .2108687 .0074041 28.48 0.000 .1963487 .2253888


corr(u_i, Xb) = -0.1087 Prob > F = 0.0000

F(5,2143) = 281.50


between = 0.1091 avg = 4.0



FE (within) regression with AR(1) disturbances Number of obs = 2864

note: educ dropped because of collinearity

note: black dropped because of collinearity

. xtregar lwage exper exper2 tenure south union black edu, fe

Based on 5 complete observations

Breusch-Pagan LM test of independence: chi2(255970) = 3.92e+05, Pr = 0.0000



198

Figura 131. Prueba Xttest3

La prueba indica que no existe homocedasticidad.

9.6.6.1 CORRECCIÓN DE HETEROCEDASTICIDAD YAUTOCORRELACIÓN

La solución se realiza por medio de Mínimos Cuadrados Generalizados Factibles (FGLS)o por medio de Errores Estándar Corregidos para Panel (PCSE), algunos estudios han

demostrado que PCSE es más preciso que FGLS pero para muestras pequeñas.Los comandos son:

. xtgls

. xtpcse

Estos modelos no estimando efectos fijos, por lo tanto es necesario incluir variablesdicotómicas con el comando xi.

De acuerdo al problema la solución es dada de acuerdo al siguiente cuadro:

PROBLEMA HETEROSCEDASTICIDAD

CORRELACI NCONTEMPORAN

EA

AUTOCORRELACIÓN

HETEROSCEDASTICIDAD

xtgls vardep varsind,panel(h)xtpcse vardep varsind,het

xtgls vardepvarsind, p(c)xtpcse vardepvarsind,

xtgls vardep varsind,p(h) c(ar1)xtpcse vardepvarsind, het c(ar1)

CORRELACIÓNCONTEMPORANEA

xtgls vardep varsind, p(c)xtpcse vardep varsind,

AUTOCORRELACIÓN xtgls vardep varsind, p(h)c(ar1)xtpcse vardep varsind,

het c(ar1)

xtregar vardepvarsind, fe ó re

Tabla 151

En caso de presentar los tres problemas Heterocedasticidad, correlación contemporáneay autocorrelación se corrige por:

. xtgls vardep varsind, p(c) c(ar1)

. xtpcse vardep varsind, c(ar1)

Prob>chi2 = 0.0000

chi2 (716) = 1.6e+06

H0: sigma(i)^2 = sigma^2 for all i

in fixed effect regression model

Modified Wald test for groupwise heteroskedasticity

. xttest3



199

9.6.7 Ejercicio

1. Usando la base de datos nls_panel.dta, que es un panel de datos para 716mujeres por 5 años.

a. Abra la base de datos y realice análisis descriptivo de las variables claves

(lwage, exper, exper2, tenure, tenure2, south, union, black y educ)

b. Utilizando el archivo Ejemplo datos panel.do, realice los procedimientospara calcular el modelo por MCO Agrupados, EF y EA y seleccione el mejormodelo.


Para esta última sección se utilizará la base de datos de la encuesta de caracterizaciónsocioeconómico nacional (Casen) para los años 1996, 2001, 2006, con el objetivo deestimar la ecuación de ingresos con respecto a algunas variables que poseen los

individuos como es la experiencia, los años de educación y las horas dedicadas al trabajo.De esta manera la ecuación objetivo sigue la siguiente forma.

En primera instancia se delimita que se va a trabajar con una base de datos de ordenpanel con el comando xtset(i,j), donde i denota la variable que determina el cortetransversal y j determina el periodo con que se denomina la base de datos. Es pertinenteque la variable de serie de tiempo debe ir organizada en fila y no en columnas, elcomando que se utiliza es reshape.

Al igual que series de tiempo con el comando ts, datos de panel trabaja con un comandoespecial xt, por ejemplo si se desea describir las variables de la base de datos de xtdes,

para hacer algún tipo de estadística descriptiva xtsum, para realizar tablas de frecuencias xttab y para calcular matrices de transición se utilizará el comando xttrans.

. by idpersona: gen fecha=_n

. xtset idpersona fecha

. gen lwage=ln( ytrabcor)

. gen exp2=exp*exp

. xtdes

. xtsum

. xttab econyugal

. xttrans econyugal,freq

Tener en cuenta que overrall hace referencia a todos los individuos de la muestra en todo

los n periodos, between es una muestra entre individuos y within es una variación entre lavariable de tiempo, manteniendo a los mismos individuos.



200

Tabla 152. Frecuencia para el estado conyugal

Para entender un poco mejor el anterior análisis, preste atención a la columna overall freq,quiere decir que sobre todas las observaciones se encontraron 3640 ocasiones donde elindividuo está casado, 456 ocasiones donde los individuos se encontraron solteros. Ahoraobserve la columna between freq. Por ejemplo el número 406, indica que 406 individuosestuvieron solteros alguna vez. Ahora observe la columna within percent, indica que deltotal de la muestra el 89.68% de las personas estaban alguna en otro estado conyugal

diferente al casado.

Tabla 153. Matriz de transición para el estado conyugal

También se puede mirar matrices de probabilidades entre el cambio de estado conyugalen el periodo observado, por ejemplo del total de la muestra el 95.23% de las personassiempre estuvo casada y el 19.01% de las personas pasaron de estar casados a estarsolteros. Del total de la muestra el 2% de las personas cambiaron de estar solteras a estarcasadas.

9.7.1 Gráficos de evolución

El comando xtline permite hacer grafico de evolución de aquellas variables que que sequieren analizar, por ejemplo si se quiere saber la dinámica del comportamiento dellogaritmo del salario y la dinámica de las horas de trabajo al mes;

. xtline lwage if idpersona<=39, overlay title("Logaritmo salario") name(lwage, replace)

. xtline horas if idpersona<=39, overlay title("Horas de trabajo al mes") name(hora, replace)



201

. graph combine lwage hora

Figura 132. Gráfico de evolución entre el salario y las horas de trabajo

Ahora para la realizar gráficos de dispersión scatter con ajustes paramétricos qfit y noparamétricos lowess se utilizará el comando graph twoway. Por ejemplo se quiere elgráfico del comportamiento del salario con respecto a los años de experiencia de losindividuos de la muestra, con un ajuste cuadrático para observar si existe un efecto linealy un ajuste no paramétrico para observar que tanto se desvía del ajuste paramétrico.

. graph twoway (scatter lwage exp) (qfit lwage exp) (lowess lwage exp), title(Dinamica: Salario vs experiencia)

ytitle(Logaritmo Salario) xtitle(Años de experiencia) legend(label(1 "Datos reales") label(2 "Ajuste Cuadratico")

label(3 "Lowess")) name(Gráfico)



202

Figura 133. Ajustes de la gráfica de dispersión entre el salario y la experiencia

Por otro lado también se pueden realizar gráficos en donde solo se incluya el efecto withiny between de la muestra que se elige. Por ejemplo si se quisiera realizar el anterior graficopero solo entre el cambio de cada individuo a través del tiempo se utilizará el comando

xtdata, fe, mientras que para realizar análisis entre individuos between se utilizará xtdata,

be.

*variacion within*

. snapshot save, label("Snapshot 1")

. xtdata idpersona anos lwage exp, fe

. graph twoway (scatter lwage exp) (qfit lwage exp) (lowess lwage exp), title(Dinamica: Salario vs experiencia)ytitle(Logaritmo Salario) xtitle(Años de experiencia) legend(label(1 "Datos reales") label(2 "Ajuste Cuadratico")

label(3 "Lowess")) name(Gráficowithin)


*variacion between*

. xtdata idpersona anos lwage exp, be

. graph twoway (scatter lwage exp) (qfit lwage exp) (lowess lwage exp), title(Dinamica: Salario vs experiencia)

ytitle(Logaritmo Salario) xtitle(Años de experiencia) legend(label(1 "Datos reales") label(2 "Ajuste Cuadratico")

label(3 "Lowess")) name(Gráficobetween)


. graph combine Gráficowithin Gráficobetween, title(“Logaritmo del salario vs experiencia”)



203

Figura 134. Análisis comparativo between y within

9.7.2 Modelos econométricos para datos de panel

El modelo general viene determinado de la siguiente manera:

Bajo supuestos distintos sobre el intercepto y los componentes de error, el modelo puedeser

Modelo agrupado (pooled)

Si el intercepto es constante, y no hay heterogeneidad entre individuos.Exogeneidad (, ) 0.El modelo resultante es el modelo agrupado.

Modelo de efectos fijos (fixed effects, FE)

Si el intercepto no es constante, hay heterogeneidad entre individuos.(, ) ≠ 0.Exogeneidad (, ) 0.

El modelo resultante es el modelo de efectos fijos.

Modelo de efectos aleatorios (random effects, RE)

Si el intercepto no es constante, hay heterogeneidad entre individuos.(, ) 0.Exogeneidad (, ) 0.



204

El modelo resultante es el modelo de efectos aleatorios.

9.7.2.1 Regresion Pooled

La regresión agrupada se evalúa sin tener en cuenta de que los datos son datos de panelagrupados. En este parte, primero se crea una variable categórica de género, toma el

valor de 1 si es hombre y 0 en caso contrario, segundo se crea una variable global quecontenga todas la variables independientes y al momento de requerirla se utilizará elnombre del global antecedido del signo $, tercero se evalúa la función de los ingresos delindividuo, cuarto se examina si los residuos tienen algún tipo de autocorrelación serial.

. gen sexo=genero==1

. global xvarlist exp exp2 horas esc sexo

*Regresion agrupada pooled*

. sort idpersona fecha

. reg lwage $xvarlist

. reg lwage $xvarlist, vce(cluster idpersona). predict uhat, resid

. correlate uhat L.uhat

Tabla 154. Matriz de correlaciones entre los residuales y su rezago

9.7.2.2 Estimación del modelo de efectos fijos

Es una estimación a través de la transformación within, tomando la desviación respecto ala media en el tiempo para cada individuo.

∝ ( ) ( ) ( )

Con este método no se pueden estimar los coeficientes de aquellas variables que novarían en el tiempo. El comando que se utiliza es xtreg, fe. Para detectarheterocedasticidad se utiliza el comando xttest3, para corregir el efecto deheterocedasticidad se utiliza el comando vce(cluster idpersona). Para detectarautocorrelación en los residuos se utiliza el comando xtserial, para corregir este problemase utiliza el comando xtregar.

. xtreg lwage $xvarlist, fe

. xttest3

. xtserial lwage $xvarlist



205

. xtreg lwage $xvarlist, fe vce(cluster idpersona)

Tabla 155. Regresión datos de panel por efectos fijo

Tabla 156. Prueba para detectar heterocedasticidad

Tabla 157. Prueba para detectar autocorrelación

Por medio de las anteriores pruebas se demuestra que por medio de la regresión porefectos fijos existe presencia de heterocedasticidad y la no presencia de autocorrelaciónseria.l



206

Tabla 158. Regresión datos de panel por efectos fijos y corrección de heterocedasticidad.

Se puede observar que Stata 12 omite la variable que no cambia a través del tiempoentre los individuos, que es el género. A diferencia del modelo por mínimos cuadradosordinarios las variables de años de escolaridad y de experiencia al cuadrado no sonsignificativas al 5%.

9.7.2.3 Estimación del modelo de efectos aleatorios

La estimación se puede realizar mediante tres métodos el primero hace énfasis en

evaluarlo en primeras diferencias, segundo, por el método de mínimos cuadradosgeneralizados y tercero con el método between. El comando que se utiliza es xtreg, re.

. xtreg lwage $xvarlist, re vce(cluster idpersona)

. xttest1



207

Tabla 159. Regresión datos de panel por efectos aleatorios y corrección de heterocedasticidad.

Figura 135. Prueba conjunta para detectar autocorrelación y heterocedasticidad

Con la anterior prueba que demuestra que al evaluar el modelo por efectos aleatoriosexiste presencia de heterocedasticidad y autocorrelación, para corregir estos dosproblemas se utiliza la opción vce(cluster idpersona) y el comando xtregar.



208

9.7.3 Comparación de modelos

En esta parte se utilizaran los comando quietly para realizar la estimación sin que muestrelos resultados en la pantalla, est store para que guarde en memoria los resultados de laestimación y est table para mostrar los resultados en una tabla con las opciones que sequieran mostrar, por ejemplo b, se, r2, para los coeficientes, la desviación estándar y el r

cuadrado, respectivamente.

. quietly regress lwage $xvarlist, vce(cluster idpersona)

. est store MCO

. quietly xtreg lwage $xvarlist, fe

. est store FE

. quietly xtreg lwage $xvarlist, fe vce(robust)

. est store FE_rob

. quietly xtreg lwage $xvarlist, re

.. est store RE

. quietly xtreg lwage $xvarlist, re vce(robust)

. est store RE_rob

. est table MCO FE FE_rob RE RE_rob

Tabla 160. Comparación de modelos datos de panel

Para elegir el mejor modelo a estimar se puede hacer una prueba con el comandohausman.

. hausman FE RE, sigmamore



209

Tabla 161. Prueba Hausman

La hipótesis nula de esta prueba es que la diferencia de los coeficientes no essistemática, de otra manera no existe diferencia entre los modelos fijos y aleatorios, por lotanto no hay diferencia entre un modelo y el otro, se podría evaluar cualquiera de los dos.Por otro lado, si se rechaza esta hipótesis nula, la mejor manera para estimar el modeloseria efectos fijos. En este orden de ideas para el modelo para la base de datos CASEN elmejor modelo a estimar sería el de efectos fijos ya que la prueba de Hausman arroja un p-valor por debajo del 5% del nivel de significancia.

9.7.4 Interpretación de los parámetros de efectos fijos.

A través de la prueba de Hausman se estima el modelo por efectos fijos, por lo tanto si la

experiencia se incrementa en una años adicional, manteniendo las demás variablesconstantes, los individuos de la muestra incrementarían su nivel de salario en un 2,7%.Por un incremento de un año de escolaridad de cada individuo, manteniendo las demásvariables constantes, el salario se incrementaría en un 3.5%.

9.8 Comandos usados

$

by

clean

est store

gen

global

graph combine

hausman

list

predict

quietly

reshape

reshape long

reshape wide

resid

sigmamore

usevce(cluster

xtdata, be.

xtdata, fe

xtdescribe

xtgls

xtline

xtpcse



210

xtregar

xtse

xtserial

xtset

xtsum

xttab

xttest0

xttest1

xttest3

xttrans



211

10. INTRODUCCIÓN A LA PROGRAMACIÓN

Help comments

Capture

Ejecuta el comando y no muestra resultados ni errores

10.1 Local macros

Las macros locales de Stata le van a permitir trabajar más fácilmente con Stata, estasmacros le permitirán alojar objetos como números, variables o varios conjuntos deobjetos. Estos objetos pueden contener caracteres alfanuméricos y hasta 8000caracteres. El comando para definir una macro es con local seguido por el nombre delobjeto y sus características.

Ejemplos:

local country US UK DE FR

local ctycode 111 112 136 134

display “`country’”

US UK DE FR

El comando global le permite crear nombres de listas de variables, para así poderreferirse a ellas de forma conjunta y evitar tener que escribir cada una de ellas cada vezque se vayan a utilizarlas.

Por ejemplo

global grupo1 var1 var2 var3

Luego para hacer referencia al grupo de variable utilizando algún comando, se debeanteponer el símbolo $ al nombre del grupo

Por ejemplo

keep $grupo1

10.2 Creando ciclos

Una de las utilidades principales de la programación es la creación de loops estos lepermiten al usuario crear rutinas para evaluar diferentes alternativas o para crear ciclos decomandos. Los comandos más importantes para estos ciclos son forvalues y foreach.

10.2.1 Comando IF

If expression {

Comandos Stata

}

else if expression {

comandos stata



212

}

else {

comandos stata

10.2.2 Comando For

set obs 100

For new u1-u10: gen x=uniform()

For any . : replace z=. If y= X

For new x2-x5 \ num 2/5: gen X =variable^Y

10.2.3 Comando Forvalues

forvalues nueva_macro = rango {

comandos referidos a nueva_macro

}

program define diez

forvalues i = 1(1)10 {display "ì'"

}

End

10.2.4 Comando While:

while condicion {

comandos Stata

}

local i = 1

while ì' <= 10 {

display ì'local i = ì' + 1

}

10.3 ESCALARES Y MATRICES

scalar raiz2 = sqrt(9)generate raizPIB = PIB*raiz2

Los estadísticos, pruebas y resultados que genera Stata es posible visualizarlos pormedio del comando return y ereturn. Por ejemplo



213

Tabla 162. Comando sum, detail

Luego se obtienen los resultados

Tabla 163. Comando return

Vea en este caso, que al hacer un comando de sum e indicando la opción de detail , Stata se muestran los resultados generales más otras medidas de percentiles, la curtosis y lasimetría. Ahora suponiendo que se quiere armar una tabla que muestre para la base denlsw.dta, por raza, el promedio del salario, la mediana, la varianza y el número deobservaciones. Para ello se usará la construcción de una matriz.

Para la creación de la matriz se construye indicando el tamaño que se quiere.

La matriz que se debe construir es la siguiente:

BLACK WHITEPromedioVarianzaMedianaNo. Observaciones

Tabla 164. Tabla de ejemplo

Se utiliza el comando matrix, help matrix_functions

99% 15906 15906 Kurtosis 4.819188

95% 13466 14500 Skewness 1.653434

90% 11385 13594 Variance 8699526

75% 6342 13466

Largest Std. Dev. 2949.496

50% 5006.5 Mean 6165.257

25% 4195 3748 Sum of Wgt. 74

10% 3895 3667 Obs 74

5% 3748 3299

1% 3291 3291

Percentiles Smallest

Price

. sum price, detail

r(p99) = 15906

r(p95) = 13466

r(p90) = 11385

r(p75) = 6342

r(p50) = 5006.5

r(p25) = 4195

r(p10) = 3895

r(p5) = 3748

r(p1) = 3291

r(max) = 15906

r(min) = 3291

r(sum) = 456229

r(kurtosis) = 4.819187528464004

r(skewness) = 1.653433511704859

r(sd) = 2949.49588476892

r(Var) = 8699525.97426879

r(mean) = 6165.256756756757

r(sum_w) = 74

r(N) = 74

scalars:

. return list



214

matrix define A=J(4,2,0)

Tabla 165. Comando sum del salario cuando la raza es blanco

matrix A[1,1] = r(mean)

matrix A[2,1] = r(p50)

matrix A[3,1] = r(Var)

matrix A[4,1] = r(N)

Debe hacer lo mismo para los negros

Tabla 166. Matriz A

Ahora para generar el nombre de las filas y las columnas

matrix rown A = Promedio Media Varianza Observaciones

matrix coln A = Blanco Negro

Tabla 167. Matriz A con rótulos

Para pasar de matriz a variable, se usa el comando svmat .

. svmat A

99% 38.70926 40.19808 Kurtosis 14.74577

95% 17.34411 40.19808 Skewness 3.00474

90% 13.14009 40.19808 Variance 35.46285

75% 9.758451 40.19808

Largest Std. Dev. 5.955069

50% 6.545891 Mean 8.082999

25% 4.516906 1.501798 Sum of Wgt. 1637

10% 3.344482 1.392914 Obs 1637

5% 2.875546 1.032247

1% 2.090301 1.004952

Percentiles Smallest

hourly wage

. sum wage if race ==1, d

r4 1637 583

r3 35.462848 25.767671

r2 6.5458913 5.434783

r1 8.0829994 6.8445578

c1 c2

A[4,2]

. matrix list A

Observacio~s 1637 583

Varianza 35.462848 25.767671

Media 6.5458913 5.434783

Promedio 8.0829994 6.8445578

Blanco Negro

A[4,2]

. matrix list A



215

10.3.1 Ejercicio

1. Ahora haga una prueba de igualdad de medias de los salarios, por la raza2. Cree una tabla de resultados tal como se presenta a continuación

BLANCO NEGRO ESTADÍSTICASPromedio Observaciones Promedio Observaciones Diferencia Error

std

T-test

Tabla 168. Ejercicio de matrices

La primera fila no es posible crearla en Stata, entonces solamente ingrese como nombresla segunda fila.

Ahora utilizando loops realice la siguiente tabla por las variables tenure, hours, wagegrade

SINGLE MARRIED ESTADÍSTICAS

Promedio Observaciones Promedio Observaciones Diferencia Errorstd T-testtenureHoursWageGrade

Tabla 169. Ejercicio 2 de matrices

. global grupo tenure hours wage grade

Se define una matriz 4x7

. matrix def C=J(4,7,0)

Se genera el indicador del loop i que comience desde cero

. local i = 0

Utilizando el comando foreach me dice que para cada variable en el grupo que acabo deformar realice los comandos dentro del loop.

foreach var in $grupo {

local i = ì'+1

preserve

qui ttest `var', by(married)

matrix C[ì',1]=r(mu_1)

matrix C[ì',2]=r(N_1)

matrix C[ì',3]=r(mu_2)

matrix C[ì',4]=r(N_2)

matrix C[ì',5]=r(mu_1) - r(mu_2)

matrix C[ì',6]=r(se)

matrix C[ì',7]=r(t)

restore



216

}

matrix rown C = tenure hours wage grade

matrix coln C = Prom1 Obs1 Prom2 Obs2 Dif ErrSt T-test

matrix list C



217

11. TRUCOS CON STATA

11.1 Algunos consejos con Stata12

1. Si quiere redondear los números en su base de datos podrá usar los comandosfloor(), round() y ceil().

Ejemplo:

. sysuse auto

. gen g_ratio = floor(gear_ratio)

. gen g_ratio = ceil(gear_ratio)

2. En algunas ocasiones se recomienda que el usuario antes de ejecutar algúncomando o un archivo .do, verifique que las condiciones se cumplan, una de lasformas para verificarlo es usando el comando assert.

Ejemplo:

. sysuse bplong

. assert sex == 0 | sex ==1

. replace sex = 3 in 1

. assert sex == 0 | sex == 1

3. Para ingresar caracteres de texto en gráficas, crear variables, tablas, puede utilizarel comando char() , en su interior debe ingresar el código ASCII

Ejemplo:

. gen arroba = char(64)

. global copyr = char(169)

. scatter price mpg, xtitle(MPG) ytitle(Precio $copyr)

4. El comando creturn, c(), le permite al usuario obtener la información parametrizadadel sistema, tal como, meses, días, fecha actual, versión de Stata. Algunosejemplos son:

display “`c(alpha) ’”

Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec

di “`c(ALPHA) ’”

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

12 Retomado del libro “Seventy-six of Stata tips”.



218

di “`c(Mons) ’”

Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec

di “`c(current_date) ’”

di “`c(current_time) ’”

di “`c(sysdir_stata) ’”

di “`c(N) ’” di “`c(k) ’”

di “`c(memory) ’”

di “`c(more) ’”

di “`c(virtual) ’”

di “`c(pi) ’” - Genera el número Pi –

5. Fillin

. clear

. set obs 3

. gen y = _n

. gen x = y

. fillin y x

Tabla 170. Comando fillin

6. Predefiniendo teclas, Stata, le permite al usuario la posibilidad de usar las teclasfuntions, para el llamado de comandos, funciones, caracteres, entre otros.

Ejemplo:

. global F4 = char(96)

. global F4 = char(180)

. global F4 = “list;”

7. Si desea ejecutar un comando y que el resultado no aparezca utilice el comando

quietly

Ejemplo

. quietly summarize x

8. Descargar programas escritos por usuarios



219

net from http://www.stata.com

. net cd stb

. net cd stb42

. net install sbe16_1

9. Actualización Menores de Stata

Stata es un programa que continuamente se encuentra en desarrollo, además, alcontar con una amplia comunidad de usuarios en diferentes partes del mundo lebrinda la oportunidad de estar frecuentemente mejorado por los Statistical Software

Components (SSC) que continuamente generan los usuarios.

Pero Stata en su versión 11.0 ha generado ya dos actualizaciones menores dentro deesta versión, siendo la más actual la versión 11.2, los usuarios que tengan registradoel software y que cuenten con una conexión a Internet podrán acceder a la últimaactualización de forma gratuita, lo primero que debe verificar es la conexión a internet,

si se encuentra en un equipo que pertenece a una red deberá consultar si su conexiónrequiere proxy, para configurar el proxy en Stata debe ir a Edit – Preferences –

General Preferences

Figura 136. Preferencias generales

Posteriormente en la pestaña de Internet, configuré el proxy, el puerto y el usuario ycontraseña en caso de ser necesario.






220

Figura 137. Pestaña Internet

En la misma pestaña de Internet podrá activar la opción de actualización automática, siactiva esta opción debe tener en cuenta que cada vez que Stata se inicie se actualizarácon la frecuencia que usted seleccione y el tiempo de la actualización dependerá de suconexión a internet.

En caso de no activar la actualización automática, usted podrá realizar la actualización enel momento que lo desee, ingresando en la ventana de comandos el comando update all

el cual le indicará paso a paso las instalaciones que desea.Se recomienda también ver la ayuda de

. help update

. help ssc

. help net

. help sj

11.2 Ejecutando comandos en Stata sin resultados (quietly)

El comando quietly de Stata permite ejecutar otros comandos de Stata sin presentar losresultados o salidas en la ventana de resultados, la instrucción se ubica como prefijo alcomando principal. Esta es una herramienta clave si se requiere retornar algunosresultados por ejemplo: media, varianza, coeficientes, etc., (ver listado de la opción r() pormedio de help return list ) sin necesidad de ver la salida completa.

Ejemplo 1:



224

Figura 142. Exportar reporte

Para mayor información diríjase a http://www.stata.com/support/installation-qualification/

11.4 Archivos en PDF de logs y gráficas con Stata 12

En Stata 12 los archivos log (archivos de registro) se siguen generando como SMCL otexto. Pero en esta última versión estos archivos pueden ser convertidos a formato PDF.Esto se puede hacer fácilmente con el comando translate, por ejemplo:

. log using C:\Users\Soporte\Desktop\logfile.smcl, replace


. tab rep78 foreign

. log close

.translate C:\Users\Soporte\Desktop\logfile.smcl C:\Users\Soporte\Desktop\logfile.pdf, translator(smcl2pdf)

La visualización del PDF será la siguiente:

http://www.stata.com/support/installation-qualification/






225

Figura 143. Comando translate

Además, en Stata 12 se puede producir un PDF de un gráfico desde Stata. Por ejemplo:


. gladder price

. graph export C:\Users\Soporte\Desktop\graph.pdf //name(scatter)

Figura 144. Exportar gráficos en formato PDF

Para ayuda sobre un comando específico digite:



226

. help

Y por ejemplo especifique un comando

. help translate

. help graph export

11.5 Material de apoyo

Algunos recursos en Internet para usuarios Stata:

http://www.ats.ucla.edu/stat/stata/ http://econpapers.hhs.se/paper/bocbocoec/531.htm

http://fmwww.bc.edu/ec/res.info.php http://ideas.repec.org/s/boc/bocins.html



12. BIBLIOGRAFIA

[1] Adkins, L. & Hill, R. (2008). Using Stata for Principles of Econometrics. Wiley, ThirdEdition.

[2] Baum, Christopher. (2006). An Introduction to Moderm Econometrics Using Stata.Stata Press, Second Edition.

[3] Baum, Christopher. (2009). An Introduction to Stata Programming.. Stata Press, FirstEdition

LIBRO STATA 12_Software Shop

Documents

Transcript of LIBRO STATA 12_Software Shop