de Datos Economía y Cienciaa y Ciencia de Datos.pdf · data analysis, which I take to include,...

Post on 10-Aug-2020

4 views 0 download

Transcript of de Datos Economía y Cienciaa y Ciencia de Datos.pdf · data analysis, which I take to include,...

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 1/48

Economía y CienciaEconomía y Ciencia

de Datos de Datos

Reproducibilidad y RepetibilidadReproducibilidad y Repetibilidad

Arturo Chian Arturo Chian @besteamperu@besteamperu

Un presentación BEST Un presentación BEST http://besteamperu.org/http://besteamperu.org/

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 2/48

¿Qué se nos viene a la mente con Ciencia de Datos? 🤔

Imagen extraída de Learning Tree 2 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 3/48

¿Qué se nos viene a la mente con Ciencia de Datos? 🤔

Imagen extraída de VSPS Education 3 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 4/48

De�niendo Data Science 🤓

“For a long time I have thought I was a statistician, interested in inferences from theparticular to the general. But as I have watched mathematical statistics evolve, I have hadcause to wonder and to doubt. …All in all I have come to feel that my central interest is indata analysis, which I take to include, among other things: procedures for analyzing data,techniques for interpreting the results of such procedures, ways of planning the gatheringof data to make its analysis easier, more precise or more accurate, and all the machineryand results of (mathematical) statistics which apply to analyzing data.

Tukey (1962). The future of Data Analysis, The Annals of Mathematical Statistics

4 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 5/48

De�niendo Data Science 🤓

‘Hace 50 años, John Tukey llamó a una reforma académica en estadística, a través de unode los más importantes papers de esa época, llamado “The Future of Data Analysis”,donde señalaba la necesidad futura de una ciencia cuyo interés sea aprender de la data oanálisis de datos. Hace unos 20 a 10 años, John Chamber, Jeff Wu, Bill Cleveland y LeoBreiman, dieron una serie de argumentos, de forma independiente sobre expandir loslímites de la estadística teórica: Chambers enfatizaba la importancia de la preparación dedatos, más que el modelaje estadístico; Breiman, prefería enfatizar la predicción antesque la inferencia; y Cleveland y Wu sugerían llamar a este nuevo campo Data Science porsu estrecha relación a la data.

Arturo Chian (2018). A propósito de los 25 años de R y 50 años de Data Science (Parte1), Blog de Behavioral Economics & Data Science Team

5 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 6/48

Diagrama de Venn - Drew Conway 1 . Hacking Skills: Capacidad de

resolver problemas programando.

2 . Math & Statistics knowledge:

Aplicar de forma correcta

estadística.

3 . Conocimiento de experto:

Comprender la data en su campo

de investigación (economía,

biología, psicología, derecho, etc).

De�niendo Data Science 🤓

Fuente: Drew Conway 6 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 7/48

¿Qué hace un Data Scientist en el día a día? 🤔

Fuente: IIO-World 7 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 8/48

¿Qué hace un Data Scientist en el día a día? 🤔

Fuente: IIO-World 8 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 9/48

El Ciudadano (¿Economista?) Data Scientist 🤔

Imagen extraída de VSPS Education 9 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 10/48

¿Cómo muchos economistas hemos aprendido Data Science en lapráctica?

10 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 11/48

¿Y qué tan útil puede ser Data Science para un economista?

11 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 12/48

Creación de libros abiertos 😃

Fuente: Forecasting: Principles and Practice 12 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 13/48

Nuevas formas de hacer tesis 😃

Fuente: ThesisDown 13 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 14/48

Promueve la investigación reproducible 🤓

Fuente: ThesisDown 14 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 15/48

Grá�cos Dinámicos 😎

Fuente: Mages Blog 15 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 16/48

Desarrollo de aplicaciones fácil de realizar 😎

Fuente: Pasa Segura Medellin16 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 17/48

Y otras más potentes... El límite es tu imaginación 😎

Analytic Health Demo Sep 18Analytic Health Demo Sep 18

Fuente: Analytic Health17 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 18/48

La llave 🔑 para desbloquear el poder del ultra instinto del economistadel siglo XXI

18 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 19/48

El poder del Guantalete del Data Science

En manos de un economista para dominar al universo: Consultorías, academia,trabajos, etc. Las posibilidades son in�nitas. 😎

19 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 20/48

Reproducibilidad y RepetibilidadReproducibilidad y Repetibilidad

20 / 4820 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 21/48

Conociendo los conceptos

21 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 22/48

¿Por qué sería importante para economía?

22 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 23/48

¿Crisis de replicabilidad/reproducibilidad en economía?

Fuente: Bloomberg opinion 23 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 24/48

¿Crisis de replicabilidad/reproducibilidad en economía?

Fuente:Vox 24 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 25/48

Tipos de reproducibilidad en Economía

1 . Reproducirlo con otra población/tiempo/espacio.

2 . Usar la misma data, pero modi�car la metodología de datos cualitativos.

3 . Replicar el paper sin modi�car la metodología ni la data.

25 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 26/48

Perú Alemania

Tipo 1: Reproducibilidad en otra población

26 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 27/48

Tipo 2: Variación metodológica en de�niciones cualitativas

¿Cómo de�nir qué es pobre?

¿Cómo de�nir qué es feliz?

¿Cómo de�nir qué es bienestar?

¿Cómo de�nir qué es un buen estudiante?

27 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 28/48

Tipo 3: Replicación al 100%

Se debe realizar de preferencia con el mismo software.

Se debe realizar con la base de datos en bruta.

De preferencia sí, con el mismo código, en caso aplique.

28 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 29/48

Tipo 3: Replicación al 100%

¿Esto sería relevante en Economía?

29 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 30/48

Tipo 3: Replicación al 100%

En el 2016, los economistas Andrew Chang y Phillip Li trataron de

reproducir los resultados de 65 papers publicados en importantes Journals.

Ellos usaron la data original e incluso contactaron a los autores para que les

señalen los pasos que usaron. Sólo lograron replicar el 49%.

Uno de los casos más conocidos es la replicación de un paper del 2013 de

Reinhart y Rogoff, los cuales alegaban una correlación alta entre alta deuda de

gobierno y crecimiento; pero encontraron errores/manipulaciones en la base

de datos que usaron vs la original.

30 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 31/48

Otros problemas en las investigaciones: El p-hacking

Es un problema que afecta a la ciencia.

Se trata de buscar p value signi�cativo probando diversas técnicas sin rigor

cientí�co.

Hay muchas publicaciones cientí�cas que se desarrollan y se publican

usando el p-hacking.

31 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 32/48

Rmarkdown: ¿Una solución?Rmarkdown: ¿Una solución?

32 / 4832 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 33/48

El inicio: knitr

El paquete que dio inicio a todo se llama knitr.

33 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 34/48

El creador de knitr: Yihui Xie

Creador de diversos paquetes de R y uno de los más relevantes Data Scientist delmundo de R. Actualmente cuenta con un PhD y trabaja en RStudio.

34 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 35/48

Rmarkdown vs Latex

¿Qué ventajas tiene markdown sobre Latex?

Rápido de aprender: En minutos lo aprendes.

Variedad de outputs: No sólo latex, word, ppt, html, markdown, etc.

�exible a tu medida: Si necesitas más detalles especí�cos, puedes usar

CSS o incluso Latex.

Combinar lenguajes de programación: No sólo R, sino Python, Julia, C,

etc.

Fuente: Blog Yihui Xie en inglés

35 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 36/48

Estructura de un RMD

YAML: Lenguaje de serialización. Sirve para meter datos como autor, fecha,

opciones avanzadas, etc.

Títulos: Usando michi para título 1, 2 michis para título 2, así

sucesivamente.

Textos: Tan fácil como tipear normal. En caso de negritas, poner 1, 2 o 3

subrayado o negritas (lo veremos en la práctica!).

Chunks: Puedes correr código de R y otros lenguajes en este espacio, y

puedes con�gurar de tal forma que sólo sea necesario.

Código en texto: Aplica a tu paper o reporte un código de tal forma que te

salga, por ejemplo, el coe�ciente de regresión y no tengas que tipearlo.

36 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 37/48

¿Y qué tan difícil es programar?

37 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 38/48

¿Y qué tan difícil es programar?

38 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 39/48

Programación funcional (Ejm: Excel)

arrange( summarize( group_by( filter(mtcars, carb > 1), cyl ), Avg_mpg = mean(mpg) ), desc(Avg_mpg) )

39 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 40/48

Programación funcional (Ejm: Excel)

arrange(summarize(group_by(filter(mtcars, carb > 1),cyl),Avg_mpg = mean(mpg))

40 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 41/48

Programación basada en objetos (Stata)

a <- filter(mtcars, carb > 1)b <- group_by(a, cyl)c <- summarise(b, Avg_mpg = mean(mpg))d <- arrange(c, desc(Avg_mpg))print(d)

41 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 42/48

Programación con pipas (R + Tidyverse)

library(magrittr)library(dplyr)

mtcars %>% filter(carb > 1) %>% group_by(cyl) %>% summarise(Avg_mpg = mean(mpg)) %>% arrange(desc(Avg_mpg))

42 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 43/48

Posibles soluciones

Promover tesis reproducibles.

Promover más Journals que sean reproducibles.

Promover el uso de software libre.

43 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 44/48

Posibles soluciones

BEST aportando a la comunidad del software libre y a la comunidad de cienciaabierta.

44 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 45/48

Posibles soluciones

BEST aportando a la comunidad del software libre y a la comunidad de cienciaabierta.

45 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 46/48

Posibles soluciones

BEST aportando a la comunidad del software libre y a la comunidad de cienciaabierta.

46 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 47/48

Economía y Ciencia de datos

BEST

47 / 48

11/4/2019 Economía y Ciencia de Datos

file:///C:/Users/Arturo/OneDrive/best/conferencias/ESAN/2 introduccion a DS y R/index.html#1 48/4848 / 4848 / 48