Módulo 7: Recopilación de datos posteriores Vídeo 2 ...

33
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas Módulo 7: Recopilación de datos posteriores Vídeo 2: Sintetización, visualización y edición Sharan Sharma

Transcript of Módulo 7: Recopilación de datos posteriores Vídeo 2 ...

Page 1: Módulo 7: Recopilación de datos posteriores Vídeo 2 ...

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

Módulo 7: Recopilación de datos posteriores

Vídeo 2: Sintetización, visualización y edición

Sharan Sharma

Page 2: Módulo 7: Recopilación de datos posteriores Vídeo 2 ...

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

1. Codificación de respuestas abiertas

2. Preparación de los datos

3. Sintetización y visualización

4. Edición de datos

5. Imputación y ponderación

6. Control de divulgación

7. Procesamiento final, documentación y difusión

2

Muchas actividades...

Page 3: Módulo 7: Recopilación de datos posteriores Vídeo 2 ...

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

1. Datos faltantes

• Aunque se supervisan durante la recopilación de datos (→ módulo 6,

vídeo 4), también deberían analizarse en esta fase.

• ¿Faltan debido a patrones de exclusión (NA)? ¿O debido a DK/RF?

¿O a cualquier otro problema?

– Es útil analizar estas cuestiones por separado.

• En primer lugar, calcular el % de datos faltantes para cada variable.

– Centrarse en variantes con un índice de datos faltantes >___ %.

– Comparar con rondas anteriores en el caso de encuestas panel o

transversales repetidas.

3

Page 4: Módulo 7: Recopilación de datos posteriores Vídeo 2 ...

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

Datos faltantes...

• Revisar también los patrones de datos faltantes. ¿Vemos algún

problema aparente?

– P. ej., todos los valores faltantes para una variable ocurren en PSU 10.

– ¿Hay valores faltantes cuando no debería haber ninguno? P. ej., se

debería hacer la pregunta al encuestado (no omitirla), pero mostrarla

como NA.

• Visualizar datos faltantes

4

Page 5: Módulo 7: Recopilación de datos posteriores Vídeo 2 ...

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas 5

ID

Vivienda Ingresos

• Correlación entre casos que registran datos

faltantes en variables de vivienda e ingresos.

- Algunas identificaciones tienden a tener más

datos faltantes; ¿cuáles son las características

de estas identificaciones?

• Esta visualización puede resultar difícil con

cientos de variables; lo mejor es analizar

mediante algunos grupos de variables sensibles.

• Varias visualizaciones posibles:

Page 6: Módulo 7: Recopilación de datos posteriores Vídeo 2 ...

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas 6

Véase https://cran.r-

project.org/web/packages/naniar/vignette

s/naniar-visualisation.html para otros

ejemplos útiles.

Variable

Estado marital

Page 7: Módulo 7: Recopilación de datos posteriores Vídeo 2 ...

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

2. Tener una idea de los datos agregados

Tablas resumen: resumen de cinco números

7

Datos adaptados del juego de datos «mpg» disponible en el paquete ggplot2 en R. Las variables

se reetiquetaron para esta presentación («cty», «hwy»). n = 234.

• ¿Tienen sentido estos datos?

• ¿Cómo se comparan con

rondas anteriores de la

encuesta?

• ¿Cómo se comparan con otros

datos de referencia?

Page 8: Módulo 7: Recopilación de datos posteriores Vídeo 2 ...

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

Visualizaciones univariantes: diagrama de caja

8

Mediana

Q1

Q3

«Máximo» = Q3 + 1,5*IQR

«Mínimo» = Q1 - 1,5*IQR

Rango intercuartílico (IQR)

«Valor

atípico»

Page 9: Módulo 7: Recopilación de datos posteriores Vídeo 2 ...

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas 9

Si también le interesa ver

la forma de la distribución

Visualizaciones univariantes: Histogramas o diagramas de densidad

Distancia al centro de atención primaria de salud

Page 10: Módulo 7: Recopilación de datos posteriores Vídeo 2 ...

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

¿De dónde provienen esos grandes valores?

10

Page 11: Módulo 7: Recopilación de datos posteriores Vídeo 2 ...

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas 11

Dis

tancia

al centr

ode a

tenció

nprim

aria

de s

alu

d

Page 12: Módulo 7: Recopilación de datos posteriores Vídeo 2 ...

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

Visualizaciones bivariantes: Gráfica de dispersión

¡El color puede añadir información!

12

SEC -> clase socioeconómica

Distancia al centro de atención primaria de saludDistancia al centro de atención primaria de salud

Dis

tancia

a la s

ede a

dm

inis

trativa d

e P

SU

Dis

tancia

a la s

ede a

dm

inis

trativa d

e P

SU

Page 13: Módulo 7: Recopilación de datos posteriores Vídeo 2 ...

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas 13

Fuente: Ghahroodi et al. 2015

Visualizar

conjuntamente

distribuciones

univariantes y

bivariantes

Page 14: Módulo 7: Recopilación de datos posteriores Vídeo 2 ...

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

Software de visualización

• El software estadístico estándar (p. ej., SAS, STATA, SPSS)

puede producir estos resultados.

• El software de código abierto, como R, ha contribuido mucho, p.

ej., el paquete ggplot2.

• También se pueden utilizar visualizaciones interactivas basadas

en la web. Los diagramas de las diapositivas anteriores se

hicieron con: https://shiny.gmw.rug.nl/ggplotgui/

14

Page 15: Módulo 7: Recopilación de datos posteriores Vídeo 2 ...

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

Para variables categóricas

• Las variables categóricas suelen usarse para dividir el juego de datos con el

fin de analizarlo. Pero también hay que analizarlas independientemente.

• Sintetizar/representar gráficamente una distribución por categoría (gráfica de

barras). Comparar con olas anteriores o datos externos si es posible. ¿Algo

que sorprenda? P. ej., % de graduados >% de ellos inferior a escuela

secundaria.

• Las tablas de contingencia se usan cuando hay más de una variable

categórica.

– Categorías SEC x ingresos

– ¿Alguna combinación incoherente? P. ej., casos con «Mayor nivel de educación alcanzado»

= Licenciados, pero «cursando actualmente» = educación secundaria superior.

15

Page 16: Módulo 7: Recopilación de datos posteriores Vídeo 2 ...

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

Controles de coherencia

• Algunos controles se incorporan automáticamente al instrumento

informatizado.

– Controles de rango, p. ej., edad del hijo menor <18 años

– Tipo de respuesta, p. ej., el número de hijos debe ser un número entero;

una pregunta abierta sobre ocupación debe contener algunos valores de

texto, etc.

– Controles lógicos (p. ej., número de años de matrimonio < edad)

• Pero no es posible tener todos los controles posibles integrados.

Es necesario ejecutar controles de coherencia después de la

recopilación de datos...

16

Page 17: Módulo 7: Recopilación de datos posteriores Vídeo 2 ...

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

Ejemplos de

controles de

coherencia para

el Programa

Internacional

para la

Evaluación de

Estudiantes

(2018).

17

https://www.oecd.org/pisa/data/pisa2018technicalreport/PISA2018%20TecReport-Ch-10-Data-Management.pdf

Secuencia Descripción Código de SAS

Invalidar si el número del peso de una persona es negativo

Invalidar si el número de la altura de una persona es negativo.

Invalidar si el número de períodos de clase por semana en las lecciones de idioma de prueba (ST059Q01TA) es mayor que 40

Invalidar si el número de períodos de clase por semana en if (5 matemáticas (ST059Q0RTA) es mayor que 40

Invalidar si el número de períodos de clase por semana en si (S ciencia (ST059Q03TA) es mayor que 40

Invalidar si el número de <períodos de clase> por semana si (S en idioma extranjero es mayor que 40. Invalidar si el número total de períodos de clase en una semana (ST060Q01NA) es mayor que 120 o menos de 10

Invalidar si el número de períodos de clase por semana en lengua extranjera es mayor que 40

Page 18: Módulo 7: Recopilación de datos posteriores Vídeo 2 ...

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

1. Codificación de respuestas abiertas

2. Preparación de los datos

3. Sintetización y visualización

4. Edición de datos

5. Imputación y ponderación (tratado en el módulo 2)

6. Control de divulgación

7. Procesamiento final, documentación y difusión

18

Muchas actividades...

Page 19: Módulo 7: Recopilación de datos posteriores Vídeo 2 ...

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

3. Edición de datos

• ¿Qué deberíamos hacer con esos valores «extremos» o incoherentes que hemos visto anteriormente?

• ¿Son plausibles? – Valores atípicos «representativos» (extremos pero válidos) frente a

valores atípicos «no representativos» (errores)

• «numéricamente alejados del resto de datos». ¿Pero qué datos? – Numerosos algoritmos

• Más formalmente: datos que no encajan en un modelo.

19

Page 20: Módulo 7: Recopilación de datos posteriores Vídeo 2 ...

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas 20

Fuente de gráficos: r-statistics.co/Outlier-Treatment-With-R.html

Después de eliminar «valores atípicos»

Es peligroso hacerlo automáticamente:

• El modelo que plantee (quizás de forma

simplista) no necesita ser «verdadero».

• No hay una definición estándar de lo que

es un «valor atípico».

Datos completos

Page 21: Módulo 7: Recopilación de datos posteriores Vídeo 2 ...

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

Detección de valores atípicos: cuestiones

prácticas1. No hay una definición clara de lo que es un valor atípico.

– Aguinis et al. (2013): revisión bibliográfica de 46 fuentes metodológicas,

232 artículos de revistas científicas institucionales.

Resultado: 14 definiciones de valores atípicos, 39 técnicas de detección

de valores atípicos y 20 formas distintas de gestionar valores atípicos

detectados.

– Sea cual sea la definición aplicada, hay que ser coherente.

2. Distribuciones sesgadas

– Se puede seguir usando el diagrama de caja, pero con una

transformación Box-Cox aplicada a los datos.

21

Page 22: Módulo 7: Recopilación de datos posteriores Vídeo 2 ...

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

Detección de valores atípicos: cuestiones prácticas

3. Muchos ceros.

– Describir/representar gráficamente sin los ceros.

– Para acontecimientos muy poco comunes, los procesos habituales de detección de

valores atípicos pueden no ser válidos.

4. ¿Ponderados o sin ponderar?

– Empezar con los no ponderados, pero no ignorar la detección de valores atípicos

ponderados

5. Error común: eliminar valores atípicos. Repetir análisis. Surgirán algunos

más. Volver a eliminar -> La propia edición de datos es una fuente de error.

6. No detenerse en el análisis univariante...

22

Page 23: Módulo 7: Recopilación de datos posteriores Vídeo 2 ...

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

Diagramas de cajas univariantes...

23

Alt

ura

en

Pes

o e

n

Page 24: Módulo 7: Recopilación de datos posteriores Vídeo 2 ...

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

Dispersión bivariante

24

Alt

ura

en

Peso en

Page 25: Módulo 7: Recopilación de datos posteriores Vídeo 2 ...

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

Valores atípicos multivariantes

• Dado que la mayoría de las encuestas recopila muchas

(cientos/miles) variables, teóricamente pueden tener 3D, 4D...

– Se necesita una solución automática.

• Varios algoritmos disponibles para detectar valores atípicos

multivariantes, p. ej., Epidemia, BACON-EEM

– Usar una estimación sólida para evitar que el «centro» de los datos se

distorsione a sí mismo con valores extremos.

– También tiene en cuenta las ponderaciones muestrales.

Para más información, véase Filzmoser et al. (2016) y Todorov et al. (2009)

25

Page 26: Módulo 7: Recopilación de datos posteriores Vídeo 2 ...

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

¿Qué hacemos con los valores atípicos o con los

valores que no pasan los controles de coherencia?

1: Mantener

Si los valores son consecuencia de un error de introducción de

datos verificado, ¿deberíamos mantenerlos? Puede dañar el

análisis.

En algunos casos se puede llamar al encuestado para confirmar

la respuesta.

Para estudios panel, también vale la pena comprobar valores

pasados facilitados por el encuestado para la/s misma/s

variable/s.

26

Page 27: Módulo 7: Recopilación de datos posteriores Vídeo 2 ...

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

¿Qué hacemos con los valores atípicos o con los

valores que no pasan los controles de coherencia?

1: Mantener

2: Borrar

• Aunque se necesitan métodos de detección automática para

una encuesta típica, la eliminación automática basada en un

umbral ad hoc no es buena idea.

• Los valores atípicos deben investigarse.

• Normalmente, los valores atípicos son una parte informativa de

los datos...

27

Page 28: Módulo 7: Recopilación de datos posteriores Vídeo 2 ...

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

Una lección de una configuración no basada en encuestas

¿Por qué no descubrieron este fenómeno antes? Por desgracia, el

software Transacciones en software matemático de análisis de datos

se programó para marcar y apartar puntos de datos que se desviaban

considerablemente de las mediciones previstas, por lo que las

mediciones iniciales que deberían haber disparado las alarmas

simplemente se ignoraron. En resumen, el equipo Transacciones en

software matemático no fue capaz de detectar el agotamiento de la

capa de ozono años antes porque era mucho más grave de lo que los

científicos esperaban.

28

https://earthobservatory.nasa.gov/features/RemoteSensingAtmosphere/remote_sensing5.php

Page 29: Módulo 7: Recopilación de datos posteriores Vídeo 2 ...

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

¿Qué hacemos con los valores atípicos o con los

valores que no pasan los controles de coherencia?

1: Mantener

2: Borrar

3: Winsorizar/ajuste estadístico

4: Imputar

29

Page 30: Módulo 7: Recopilación de datos posteriores Vídeo 2 ...

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

Winsorizar/ajuste estadístico

• Los valores por encima/debajo de un valor discriminatorio se

ajustan en función de este valor.

• Nadie regala nada: puede estar reduciendo la varianza, pero es

posible que el sesgo aumente (→ módulo 1 para conceptos de

sesgo y varianza).

• Se pueden usar procedimientos como el diagrama de Pareto para

distribuciones sesgadas. Los valores por encima del umbral

definido por la distribución se sustituyen por un valor estimado.

30

Page 31: Módulo 7: Recopilación de datos posteriores Vídeo 2 ...

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

¿Qué hacemos con los valores atípicos o con los

valores que no pasan los controles de coherencia?

1: Mantener

2: Borrar

3: Winsorizar

4: Imputar

31

Page 32: Módulo 7: Recopilación de datos posteriores Vídeo 2 ...

Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas

1. Codificación de respuestas abiertas

2. Preparación de los datos

3. Sintetización y visualización

4. Edición de datos

5. Imputación y ponderación (ponderación tratada en el módulo 2)

6. Control de divulgación

7. Procesamiento final, documentación y difusión

32

Muchas actividades...

Page 33: Módulo 7: Recopilación de datos posteriores Vídeo 2 ...

FIN DEL vídeo 2