MÉTODOS DE INVESTIGACIÓN BASADOS EN EL ANÁLISIS DE VARIABLES. ESTADÍSTICA DESCRIPTIVA...
-
Upload
cleto-rascon -
Category
Documents
-
view
110 -
download
1
Transcript of MÉTODOS DE INVESTIGACIÓN BASADOS EN EL ANÁLISIS DE VARIABLES. ESTADÍSTICA DESCRIPTIVA...
MÉTODOS DE INVESTIGACIÓN BASADOS EN EL MÉTODOS DE INVESTIGACIÓN BASADOS EN EL ANÁLISIS DE VARIABLES. ANÁLISIS DE VARIABLES.
ESTADÍSTICA DESCRIPTIVAESTADÍSTICA DESCRIPTIVA
ESTADISTICA APLICADAESTADISTICA APLICADA
Medición de variablesMedición de variables Variable: cualidad o característica de un objeto (o evento) que
contenga, al menos, dos atributos en los que pueda clasificarse un objeto o evento
Medición de una variable: asignar valores o categorías a las distintas características que conforman el objeto de estudio
Requisitos básicos:
Exhaustividad: Exhaustividad: debe comprender el mayor número de atributos posible. Toda observación debe ser clasificada
Exclusividad: Exclusividad: los distintos atributos de la variable deben ser mutuamente excluyentes. Una observación solo puede clasificarse en términos de un solo atributo
Precisión: Precisión: realizar el mayor número de distinciones posibles. Las categorías pueden agruparse más tarde, el camino inverso no es posible...
Tipología según el nivel de mediciónTipología según el nivel de medición
Variables Nominales:Variables Nominales: Ejemplos: sexo, nacionalidad, estado ocupacional, grupo
sanguíneo, partido político, estado civil, religión, plan social al que pertenece, localidad donde reside, etc.
No se puede establecer ningún tipo de relación
Análisis estadístico limitado
Tipología según el nivel de mediciónTipología según el nivel de medición
Variables Ordinales:Variables Ordinales: Ejemplos: estrato social, orden de mérito, nivel educativo,
opinión acerca de un hecho/situación/gobierno
Los atributos, además de poseer las características mencionadas, tienen la propiedad de poder establecer un orden
No puede conocerse la magnitud de la diferencia entre un atributo y otro
Son variables no métricas o cualitativas
Análisis estadístico limitado
Tipología según el nivel de mediciónTipología según el nivel de medición
Variables Cuantitativas o métricas:Variables Cuantitativas o métricas:
Variables de intervalo:Variables de intervalo: Además de establecer un orden, la diferencia entre dos atributos
puede cuantificarse
La distancia que separa a personas de 15 y 16 años, es la misma que la existente entre personas de 72 y 73 años
Permite realizar la mayoría de las operaciones aritméticas
Ejemplos: temperatura en ºC
No tiene cero absoluto. El cero no implica la ausencia de atributo
Tipología según el nivel de mediciónTipología según el nivel de medición
Variables Cuantitativas o métricas:Variables Cuantitativas o métricas:
Variables de razón:Variables de razón: Además de las características de las variables de intervalo, se
suma la posibilidad de contar con un cero absoluto
El cero absoluto indica ausencia de la característica
Permite cálculo de proporciones
Permite realizar cualquier operación aritmética
Ejemplos: ingreso, altura, peso, número de habitantes, todas las variables que consideren tiempo y distancia
Tipología según el nivel de mediciónTipología según el nivel de medición
Variables Cuantitativas o métricas:Variables Cuantitativas o métricas:
Variables discretas:Variables discretas: Entre dos valores dados, no existen valores intermedios
Ejemplos: número de hijos, número de elementos vendidos, número de beneficiarios de un plan
Variables continuas:Variables continuas: Entre dos valores dados, existen valores intermedios
Ejemplos: edad, peso, altura, ingreso
HERRAMIENTAS BÁSICAS EN LA ESTADÍSTICA DESCRIPTIVAHERRAMIENTAS BÁSICAS EN LA ESTADÍSTICA DESCRIPTIVA
La organización de los datosLa organización de los datos
Distribución de frecuenciasDistribución de frecuencias Distribución porcentualDistribución porcentual Distribución acumuladaDistribución acumulada ProporcionesProporciones RazonesRazones Representaciones gráficasRepresentaciones gráficas
HERRAMIENTAS BÁSICAS EN LA ESTADÍSTICA DESCRIPTIVAHERRAMIENTAS BÁSICAS EN LA ESTADÍSTICA DESCRIPTIVA
Cúantos jóvenes de 15 a 29 años del total del país Cúantos jóvenes de 15 a 29 años del total del país están en hogares en situación de pobreza?están en hogares en situación de pobreza?
Indicador: hogares por debajo de la línea de Pobreza
Fuente: EPH
Variable : lphogD85 (hogar bajo la línea de pobreza)
Valores : 1 SI (hogar pobre) 2 NO (hogar no pobre)
N número de casos
suma de las respectivas frecuencias de cada dato (N=ΣXi).
frecuencia total
Tabla de distribución de frecuenciasTabla de distribución de frecuencias
Frecuencias Estadísticos LPHOGD85
Válidos 23523661 N
Perdidos
0
Resume en una tabla la información de la muestra
Valores / Categorías
frecuencias absolutas frecuencias absolutas ::(fi.) representan el número de veces
que aparece cada valor de la variable
Tabla de distribución de frecuenciasTabla de distribución de frecuencias
LPHOGD85
Frecuencia Porcentaje Porcentaje
válido Porcentaje acumulado
1 7389959 31,4 31,4 31,4 2 16133702 68,6 68,6 100,0
Válidos
Total 23523661 100,0 100,0
Variable
frecuencias relativasfrecuencias relativas: (fr)
Representan la relación entre la frecuencia absoluta y el tamaño de la muestra. (porcentajes y proporciones)
Tabla de distribución de frecuenciasTabla de distribución de frecuencias
LPHOGD85
Frecuencia Porcentaje Porcentaje
válido Porcentaje acumulado
1 7389959 31,4 31,4 31,4 2 16133702 68,6 68,6 100,0
Válidos
Total 23523661 100,0 100,0
frecuencia relativa acumuladafrecuencia relativa acumulada: relación entre la frecuencia absoluta
acumulada dividido por el tamaño de la muestra (N).
Tabla de distribución de frecuenciasTabla de distribución de frecuencias
LPHOGD85
Frecuencia Porcentaje Porcentaje
válido Porcentaje acumulado
1 7389959 31,4 31,4 31,4 2 16133702 68,6 68,6 100,0
Válidos
Total 23523661 100,0 100,0
Otras medidas resumenOtras medidas resumenLPHOGD85
Frecuencia Porcentaje Porcentaje
válido Porcentaje acumulado
1 7389959 31,4 31,4 31,4 2 16133702 68,6 68,6 100,0
Válidos
Total 23523661 100,0 100,0
Proporciones:Proporciones: es el cociente entre la
frecuencia absoluta del valor y el N
fi Valor (1) 7389959
N 23523661
La proporción de jóvenes póbres es de 0,31
Razones:Razones: es el cociente entre la frecuencia
absoluta de un valor y la frecuencia absoluta del
otro
fi Valor 2 16133702
fi Valor 1 7389959 2,18
Hay 1 jóven pobre por cada 2 jóvenes no pobres
GRÁFICOS ESTADÍSTICOSGRÁFICOS ESTADÍSTICOS
Diagrama de barras:Diagrama de barras: Se utilizan rectángulos separados, que tienen como base a cada uno de los datos y como altura la frecuencia absoluta
o relativa de ese dato.
LPHOGD85
Casos ponderados por PONDIH
LPHOGD85
21
Fre
cue
nci
a
20000000
10000000
0
LPHOGD85
Casos ponderados por PONDIH
LP
HO
GD
85
1
2
Porcentaje
806040200
69
31
fi
fr
HISTOGRAMA:HISTOGRAMA: es una representación gráfica de
una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. Sirven para obtener una "primera vista"
general, o panorama, de la distribución de la población, o la
muestra, respecto a una característica, cuantitativa y
continua, de la misma y que es de interés para el observador (como la longitud o la masa)
GRÁFICOS ESTADÍSTICOSGRÁFICOS ESTADÍSTICOS
Fuente: http://www.disfrutalasmatematicas.com/definiciones/histograma-de-frecuencia.html
GRÁFICOS ESTADÍSTICOSGRÁFICOS ESTADÍSTICOS
POLIGONO DE FRECUENCIA:POLIGONO DE FRECUENCIA: Uniendo los puntos medios del
extremo superior de las barras del histograma, se
obtiene una imagen que se llama polígono de frecuencias,
es decir, éste se construye con las marcas de clases y las frecuencias absolutas de los
datos en la tabla de distribución de frecuencias
Fuente: http://www.fisterra.com/mbe/investiga/graficos/graficos.asp
Gráfica de TortaGráfica de Torta:: Se forma al dividir un círculo en sectores de manera que: a) cada sector equivale al porcentaje correspondiente al dato o grupo que representa; y b) la unión de los sectores forma el círculo y la suma de sus porcentajes es 100.
GRÁFICOS ESTADÍSTICOSGRÁFICOS ESTADÍSTICOS
LPHOGD85
Casos ponderados por PONDIH
2
1
GRÁFICOS ESTADÍSTICOSGRÁFICOS ESTADÍSTICOS
OJIVASOJIVAS es el polígono de frecuencias acumuladas, es decir, que en ella se permite ver cuántas observaciones se
encuentran por encima o debajo de ciertos valores, en
lugar de solo exhibir los números asignados a cada
intervalo. Se construye uniendo los puntos de la
marca de clase y la frecuencia absoluta acumulada
Fuente: http://descriptiva2010.blogspot.com/2010_02_01_archive.html
HERRAMIENTAS BÁSICAS EN LA ESTADÍSTICA DESCRIPTIVAHERRAMIENTAS BÁSICAS EN LA ESTADÍSTICA DESCRIPTIVA
INFORMACIÓN RESUMEN DE VARIABLES ALEATORIAS
Formas más compactas para caracterizar las distribuciones
TENDENCIA CENTRAL
HETEROGENEIDAD O DESVÍO
FORMA DE LA DISTRIBUCIÓN
Medidas de tendencia central
Refiere a los valores de las variables que suelen estar en el centro de la distribución.
Posición donde se centra una distribución en una escala de valores
ModaMediana Media
TEMPORARY .SELECT IF (h12>25 AND h12<45) .FREQUENCIES VARIABLES=cdea /STATISTICS=MODE /BARCHART FREQ /ORDER ANALYSIS .
Medidas de tendencia centralMedidas de tendencia central
Variable nominal
Statistics
PEA5907235
0
1,00
Valid
Missing
N
Mode
PEA
4699861 79,6 79,6 79,6
1207374 20,4 20,4 100,0
5907235 100,0 100,0
Activo
Inactivo
Total
ValidFrequency Percent
ValidPercent
Cumulative Percent
PEA
Cases weighted by PONDERA
PEA
InactivoActivo
Fre
quen
cy
5000000
4000000
3000000
2000000
1000000
0
ModaModaValor que presenta la mayor concentración de frecuencia
Unimodal Bimodal
MedianaMediana Es el punto o valor numérico que deja por debajo (y
por encima) a la mitad de las puntuaciones de la de la distribución
La mediana se calcula en primer lugar ordenando los datos y luego:
- Si el número de datos es impar, la mediana es el dato central - Si el número de datos es par, la mediana se considera como el
promedio de los dos datos centrales
Medidas de tendencia centralMedidas de tendencia central
MedianaMediana
Medidas de tendencia centralMedidas de tendencia central800 150 150 900 680 40 510 120 480 850800 500 450 700 760 200 2440 120 480 250
1000 900 800 980 800 300 1200 160 300 200960 300 800 800 500 280 320 540 280 900
1000 330 600 1500 500 960 650 570 500 580150 500 700 1100 400 1150 600 300 600 1200
1000 300 20 750 600 300 300 550 500 400550 350 300 640 120 100 650 150 800 300550 700 400 360 250 600 1000 400 380 200250 1800 400 72 160 90 150 220 450 1000
20 150 250 300 400 500 600 700 800 100040 150 250 300 400 500 600 700 850 100072 150 280 300 400 500 600 750 900 100090 160 280 320 450 510 600 760 900 1100100 160 300 330 450 540 600 800 900 1150120 200 300 350 480 550 640 800 960 1200120 200 300 360 480 550 650 800 960 1200120 200 300 380 500 550 650 800 980 1500150 220 300 400 500 570 680 800 1000 1800150 250 300 400 500 580 700 800 1000 2440
Medidas de tendencia centralMedidas de tendencia central
VARIABLE CUANTITATIVA
edad
Frecuencia Porcentaje Porcentaje
válido Porcentaje acumulado
15 439878 7,1 7,1 7,1 16 427380 6,9 6,9 14,0 17 412200 6,7 6,7 20,6 18 419529 6,8 6,8 27,4 19 415349 6,7 6,7 34,1
20 399023 6,4 6,4 40,6 21 428206 6,9 6,9 47,5 22 378808 6,1 6,1 53,6 23 461983 7,5 7,5 61,0 24 408871 6,6 6,6 67,6
25 415516 6,7 6,7 74,3 26 430316 6,9 6,9 81,3 27 407540 6,6 6,6 87,9 28 385408 6,2 6,2 94,1 29 367549 5,9 5,9 100,0
Válidos
Total 6197556 100,0 100,0
Estadísticos edad
Válidos 6197556 N
Perdidos 0 Media 21,89 Mediana 22,00
Moda 23
MedianaMediana
Medidas de tendencia centralMedidas de tendencia central
MediaMedia
La MEDIA ARITMÉTICA O PROMEDIO es una medida estadística de tendencia central. De una cantidad finita de números, es igual a la suma de todos ellos dividida entre el número de sumandos.
También la media aritmética puede ser denominada como centro de gravedad de una distribución, el cual no es necesariamente la mitad.
Propiedades de la media
La media es sensible al valor exacto de todos los datos en la distribución
La suma de las desviaciones con respecto a la media es cero
La media es muy sensible a los datos extremos
NOTA:NOTA:Dado que cualquier valor extremo distorsiona la media aritmética, no es una buena medida de tendencia central en esas circunstancias. Por ello en presencia de valores extremos, es mas apropiado usar la mediana como medida de tendencia central. La mediana no se afecta con la presencia de valores extremos.
Medidas de posición no centralesMedidas de posición no centrales
Percentiles/cuartiles/deciles/n tilesPercentiles/cuartiles/deciles/n tiles
800 150 150 900 680 40 510 120 480 850800 500 450 700 760 200 2440 120 480 250
1000 900 800 980 800 300 1200 160 300 200960 300 800 800 500 280 320 540 280 900
1000 330 600 1500 500 960 650 570 500 580150 500 700 1100 400 1150 600 300 600 1200
1000 300 20 750 600 300 300 550 500 400550 350 300 640 120 100 650 150 800 300550 700 400 360 250 600 1000 400 380 200250 1800 400 72 160 90 150 220 450 1000
Medidas de posición no centralesMedidas de posición no centrales
Percentiles/cuartiles/deciles/n tilesPercentiles/cuartiles/deciles/n tiles
20 150 250 300 400 500 600 700 800 100040 150 250 300 400 500 600 700 850 100072 150 280 300 400 500 600 750 900 100090 160 280 320 450 510 600 760 900 1100100 160 300 330 450 540 600 800 900 1150120 200 300 350 480 550 640 800 960 1200120 200 300 360 480 550 650 800 960 1200120 200 300 380 500 550 650 800 980 1500150 220 300 400 500 570 680 800 1000 1800150 250 300 400 500 580 700 800 1000 2440
Percentil 1
Percentil 99
2° CuartilPercentil 50
5° decil
1° Cuartil 3° Cuartil
1° decil Decil 10
Medidas de posición. Ejemplo. Ingreso Medidas de posición. Ejemplo. Ingreso horariohorario
• Las distribuciones del ingreso de dos provincias con el mismo ingreso medio por hogar son muy distintas si una de ellas tiene extremos de pobreza y de riqueza, mientras que la otra tiene poca variación de ingresos entre familias.
• Estamos interesados en la dispersión o variabilidad de los ingresos,
además de estarlo en sus centros. Distribución con baja dispersión Distribución con alta dispersión
Medidas de DispersiónMedidas de Dispersión
Medidas de DispersiónMedidas de Dispersión
Los datos también se deben caracterizar en términos de su dispersión o variabilidad.
Las medidas de variabilidad cuantifican la extensión de la dispersión
La variabilidad tiene que ver con qué tan alejados están los datos de la media.
Medidas de dispersión / desviación Medidas de dispersión / desviación respecto a la mediarespecto a la media
Miden el grado de cercanía o lejanía de las puntuaciones respecto a la mediaPermiten describir el grado de homogeneidad / heterogeneidad de la distribución de una variable
Máximo y MínimoRangoAmplitud IntercuartílicaVarianzaDesvío típicoCoeficiente de variabilidad
Medidas de dispersión / desviación Medidas de dispersión / desviación respecto a la mediarespecto a la mediaMínimo Máximo rango o recorrido y amplitud intercuartílicaMínimo Máximo rango o recorrido y amplitud intercuartílica
20 150 250 300 400 500 600 700 800 100040 150 250 300 400 500 600 700 850 100072 150 280 300 400 500 600 750 900 100090 160 280 320 450 510 600 760 900 1100100 160 300 330 450 540 600 800 900 1150120 200 300 350 480 550 640 800 960 1200120 200 300 360 480 550 650 800 960 1200120 200 300 380 500 550 650 800 980 1500150 220 300 400 500 570 680 800 1000 1800150 250 300 400 500 580 700 800 1000 2440
MínimoMínimo
MáximoMáximo
Máximo - Mínimo
2240 - 20 = 22202220
rango o recorridorango o recorrido
Distancia entre el máximo valor y el mínimo valor que puede asumir la variable
Amplitud intercuartílicaAmplitud intercuartílica
Distancia entre el valor del primer cuartil y el valor del tercero
3°cuartil - 1°cuartil
800 - 300 = 500500
Medidas de dispersión / desviación Medidas de dispersión / desviación respecto a la mediarespecto a la mediaVarianza y desvío típicoVarianza y desvío típico
La desviación estándar (o desviación típica) y la varianza son medidas de dispersión para variables de razón y de intervalo. Son medidas que informan acerca del promedio de distancias que tienen los datos respecto de su media aritmética, expresada en las mismas unidades de medida que la variable de origen. Ambas medidas están estrechamente relacionadas ya que se define una a partir de la otra.
100120120120 1100
20 150 200 115040 150 200 1000 1200 244072 150 200 560 33512 760 1000 120090 150 220 500 600 620,5926 650 800 1000 1500
150 250 500 600 680 800 900 1800160 400 850 900160 500 900
500 960400 960
98010001000
N: 54
(Xi – u)2
Medidas de dispersión / desviación Medidas de dispersión / desviación respecto a la mediarespecto a la media
Varianza y desvío típicoVarianza y desvío típico
(Xi – u)2
Expresión de la varianza:
(Xi – u)2
(Xi – u)2
(Xi – u)2
(Xi – u)2
X
Expresión de la desviación estándar:
N: 54
Informe
P21 Monto de ingreso de la ocupación principal perc ibido en ese mes
628,94 8931 723,011 522745,3 2 20000 450,00 98,879 6,526
441,68 6705 477,588 228089,9 2 6600 300,00 25,366 3,743
548,64 15636 636,363 404957,8 2 20000 400,00 100,206 6,301
CH04 Sexo1 Varón
2 Mujer
Total
Media N Desv. típ. Varianza Mínimo Máximo Mediana Curtos is Asimetría
Medidas de dispersión / desviación Medidas de dispersión / desviación respecto a la mediarespecto a la media
En dos poblaciones con distinta media qué grupo presenta mayor heterogeneidad ???????
Es de particular utilidad comparar la variabilidad de 2 o mas conjuntos de datos con medias diferentes.
El coeficiente de variabilidad es una medida relativa que se expresa en porcentaje en vez de en términos de las unidades de los datos.
Es una forma de estandarizar el desvío
Indica la relación entre el desvío y la media
Medidas de dispersión / desviación respectoMedidas de dispersión / desviación respectoa la mediaa la media
Coeficiente de variabilidadCoeficiente de variabilidad
Coeficiente de variabilidadCoeficiente de variabilidad
Medidas de dispersión / desviación Medidas de dispersión / desviación respecto a la mediarespecto a la media
S
X
Si se multiplica por 100 se obtiene el grado de variabilidad Si se multiplica por 100 se obtiene el grado de variabilidad respecto de la mediarespecto de la media
Estadísticos
edad6197556
0
,002
4,297
18,465
14
15
29
Válidos
Perdidos
N
Error típ. de la media
Desv. típ.
Varianza
Rango
Mínimo
Máximo
Estadísticos edad
Válidos 6197556 N
Perdidos 0 Media 21,89 Mediana 22,00
Moda 23
4,3 / 21,9= 0,19
Existe una variabillidad de + - Existe una variabillidad de + - 19% respecto de la media19% respecto de la media
El coeficiente de variación mide la dispersión con relación a la media y se calcula dividiendo la desviación estándar por la media, multiplicando este resultado por 100.
Informe
P21 Monto de ingreso de la ocupación principal perc ibido en ese mes
628,94 8931 723,011 522745,3 2 20000 450,00 98,879 6,526
441,68 6705 477,588 228089,9 2 6600 300,00 25,366 3,743
548,64 15636 636,363 404957,8 2 20000 400,00 100,206 6,301
CH04 Sexo1 Varón
2 Mujer
Total
Media N Desv. típ. Varianza Mínimo Máximo Mediana Curtos is Asimetría
CV= S/X CV= S/X
M= 477,6 / M= 477,6 / 441,7 441,7
V= 723 / V= 723 / 688,9 688,9
1,051,05
1,081,08
Medidas de dispersión / desviación Medidas de dispersión / desviación respecto a la mediarespecto a la media
Una tercera característica de un conjunto de datos es la forma, es decir, la manera en que están distribuidas las observaciones.
La distribución de los datos puede ser o no simétrica. Si la distribución de los datos no es simétrica, se llama asimétrica o sesgada.
Para describir la forma se puede comparar la media y la mediana.
También puede observarse a través del coeficiente de asimetría Mide el grado de Simetría / Asimetría de la distribución
La Forma de la distribuciónLa Forma de la distribución
Mdn
Media
Si es + indicará muchos casos en los valores más bajos y pocos en los más altos positivamente asimétrica .
Media > Mediana: Positivos o con sesgamiento a la derecha
La Forma de la distribuciónLa Forma de la distribución
.
MdnMdnMediaMedia
Si es - indicará muchos casos en los valores más altos y pocos en los más bajos negativamente asimétrica.
Media < Mediana: Negativos o con sesgaminto a la izquierda.
La Forma de la distribuciónLa Forma de la distribución
Mdn = MediaMdn = Media
En la distribución Normal es 0 Simétrica
Media = Mediana: Simétricos o con sesgamiento cero.
La Forma de la distribuciónLa Forma de la distribución
.
La Forma de la distribuciónLa Forma de la distribución
El coeficiente de kurtosis kurtosis mide el grado de apuntamiento de la curva
mesocúrticaleptocúrtica (menor dispersión)
Platicúrtica (mayor dispersión)
Otra manera de apreciar la forma de una distribución es observar el nivel de apilamiento o llanura de la curva
Si es + indicará un grado de apilamiento mayor que en la normal leptocúrtica (menor dispersión)
Mide el grado de apuntamiento de la curva
En la distribución Normal es 0 mesocúrtica
Si es – indicará que es más aplanada que la normal platicúrtica (mayor dispersión)
El coeficiente de kurtosiskurtosis
La Forma de la distribuciónLa Forma de la distribución
UN TIPO PARTICULAR DE DISTRIBUCIÓN PARA VARIABLES
ALEATORIAS MÉTRICAS
LA CURVA NORMAL
SUS PROPIEDADES
HERRAMIENTAS BÁSICAS EN LA ESTADÍSTICA DESCRIPTIVA
ESTADÍSTICA DESCRIPTIVA – LA ESTADÍSTICA DESCRIPTIVA – LA DISTRIBUCIÓN NORMALDISTRIBUCIÓN NORMAL
Es un tipo particular de distribución de frecuencias.
En los casos en que los valores que asume una variable depende de múltiples factores sin que ninguno de ellos sesgue la distribución, es de esperar que los valores se distribuyan homogéneamente alrededor de la media la mediana y la moda.
Estas variables aleatorias presentan una distribución que es aproximadamente simétrica y cuya gráfica tiene forma de campana (mesocúrtica).
Esta distribución es utilizada en aplicaciones estadísticas como modelo o parámetro de comparación dada la frecuencia o normalidad con la que ciertos fenómenos tienden a parecerse a esta distribución.
ESTADÍSTICA DESCRIPTIVA – LA DISTRIBUCIÓN NORMALESTADÍSTICA DESCRIPTIVA – LA DISTRIBUCIÓN NORMAL
La distribución normal queda definida por dos parámetros:
LA MEDIA Y EL DESVIACIÓN ESTÁNDAR
El área total bajo la curva es igual a 100 % o 1. El área bajo la curva comprendido entre los valores situados a una desviaciones estándar de la media es aproximadamente igual al 68%.
El área bajo la curva comprendido entre los valores situados a dos desviaciones estándar de la media es aproximadamente igual al 95%.
ESTADÍSTICA DESCRIPTIVA – LA DISTRIBUCIÓN NORMALESTADÍSTICA DESCRIPTIVA – LA DISTRIBUCIÓN NORMAL
σ =1σ= -1
σ = -3
σ =-2
2,142,14
σ =2
σ =3
ESTADÍSTICA DESCRIPTIVA – LA DISTRIBUCIÓN NORMALESTADÍSTICA DESCRIPTIVA – LA DISTRIBUCIÓN NORMAL
σ =1σ= -1
σ = -3
σ =-2
2,14
σ =2
σ =3
Se puede determinar el área entre dos ordenadas cuales quiera a través del calculo de las unidades de desviación en que se encuentra una porción de la población y su correspondencia en la tabla de áreas bajo la curva normal
Z = X – X
S
Refiere al número de unidades de desviación típica que un individuo o caso queda por encima o por debajo de la media de su grupo
Puntuaciones ZPuntuaciones Z
ESTADÍSTICA DESCRIPTIVA – LA DISTRIBUCIÓN NORMALESTADÍSTICA DESCRIPTIVA – LA DISTRIBUCIÓN NORMAL
X= 143
2,14
2,14
Z = X – X
S
168
S= 12
Se requiere conocer la porción de población que gana hasta $143
a) Cálculo de Z Z= (143 – 168) / 12 Z= -2,08
c) 0,5 – 0,4812 = 0,0188 aprox 1,9%
b) Correspondencia en la tablaDe áreas bajo la curva normal
0,4812 48%
TIPO DE ANÁLISIS QUE PERMITE UNA TABLA DE CONTINGENCIA
ANÁLISIS DE PERFILES O CARACTERÍSTICAS POBLACIONALES
ANÁLISIS DESCRIPTIVO DE GRUPOS O SEGMENTOS DE POBLACIÓN
Análisis de tablas de contingenciaAnálisis de tablas de contingencia
Componentes Tabla de una contingenciaComponentes Tabla de una contingencia
PobresPobres No pobresNo pobres TotalTotal
AprobaronAprobaron 40
No No aprobaronaprobaron
60
TotalTotal 1003070
N: total poblacional o N: total poblacional o muestralmuestral
MarginaleMarginaless(de fila)(de fila)
MarginalesMarginales(de columna)(de columna)
Celdas condicionalesCeldas condicionales
DISTRIBUCIONES MARGINALES DISTRIBUCIONES CONDICIONALES
UN TOTAL POBLACIONAL O MUESTRAL
Análisis bivariados Tablas de Análisis bivariados Tablas de contingenciacontingencia
Función descriptivaRendimiento educativo/cond. Socioec.
PobresPobres No pobresNo pobres TotalTotal
15 25 40
55 5 60
TotalTotal 70 30 100
AprobaronAprobaron100
100
37,5 62,5
% fila
% fila 91,6 8,4
%Col
%Col
%Col
21,4
78,6
70100
40
60
100100100
30
83,3
16,7
No aprobaronNo aprobaron
% fila
% del total
% del total 15
% del total
TIPO DE ANÁLISIS QUE PERMITE UNA TABLA DE CONTINGENCIA
ANÁLISIS DE ASOCIACIÓN
Análisis de tablas de contingenciaAnálisis de tablas de contingencia
Análisis bivariados Tablas de Análisis bivariados Tablas de contingenciacontingencia
Existe una relación entre los logros educativos de los alumnos y su contexto
sociofamiliar.
hipótesishipótesis
Variables:
aprobó
Situación de pobreza
Si
no
Si
no
categorías
v. Nominal dicotómica
v. Nominal dicotómica
Análisis bivariados Tablas de Análisis bivariados Tablas de contingenciacontingencia
HipótesisHipótesis Existe una relación entre los logros educativos de los alumnos y su
contexto sociofamiliar.
Análisis bivariados Tablas de Análisis bivariados Tablas de contingenciacontingencia
H1: H1: Los niños que no hayan aprobado el exámen se Los niños que no hayan aprobado el exámen se encontrarán mayoritariamente en situación de pobrezaencontrarán mayoritariamente en situación de pobreza
No PobresNo Pobres PobresPobres TotalTotal
AprobaronAprobaron XX x
No No aprobaronaprobaron
XX XXXXXXXX
TotalTotal
Hipótesis rinconalHipótesis rinconal
Análisis bivariados Tablas de Análisis bivariados Tablas de contingenciacontingencia
H2: H2: Los niños que no hayan aprobado el exámen se Los niños que no hayan aprobado el exámen se encontrarán mayoritariamente en situación de pobreza encontrarán mayoritariamente en situación de pobreza Mientras que los que lo han aprobado se encontrarán en Mientras que los que lo han aprobado se encontrarán en hogares por encima de la línea de pobrezahogares por encima de la línea de pobreza
No PobresNo Pobres PobresPobres TotalTotal
AprobaronAprobaron XXXXXXXX
XX
No No AprobaronAprobaron
XX XXXXXXXX
TotalTotal
Hipótesis Hipótesis DiagonalDiagonal
Análisis bivariados Tablas de Análisis bivariados Tablas de contingenciacontingencia
La idea de asociación / relación entre La idea de asociación / relación entre variables se define por lo general en variables se define por lo general en oposición al de independencia estadística oposición al de independencia estadística y se evalúa examinando el sentido y la y se evalúa examinando el sentido y la fuerza de las regularidades empíricas fuerza de las regularidades empíricas
Análisis bivariados Tablas de Análisis bivariados Tablas de contingenciacontingencia
PobresPobres No pobresNo pobres TotalTotal
AprobaronAprobaron 25 25 50
No aprobaronNo aprobaron 25 25 50
TotalTotal 50 50 100
Si conozco la distribución esperada bajo el supuesto de independencia estadística Si conozco la distribución esperada bajo el supuesto de independencia estadística lo puedo contrastar con la distribución real y ver si las diferencias son lo puedo contrastar con la distribución real y ver si las diferencias son estadísticamente significativas estadísticamente significativas
XXXXXX XXXXXX
XXXXXX XXXXXX
Análisis bivariados Tablas de Análisis bivariados Tablas de contingenciacontingencia
PobresPobres No pobresNo pobres TotalTotal
Aprobaron Aprobaron (Y1)(Y1)
(40 * 70) / 10028
(40 * 30) / 10012
40
No aprobaron No aprobaron (Y2)(Y2)
(60 * 70) / 10042
(60 * 30) / 10018
60
TotalTotal 70 30 100
““Las variables X e Y (Las variables X e Y (situación de pobrezasituación de pobreza y y aprobación del exámen aprobación del exámen ) son ) son estadísticamente independientes si el porcentaje estadísticamente independientes si el porcentaje o número de o número de de observaciones de observaciones que poseen el atributo Y1 (que poseen el atributo Y1 ( no no aaprobóprobó) es el mismo entre X1 () es el mismo entre X1 (pobrespobres) que entre ) que entre
X2 (X2 (no pobresno pobres)”.)”.
Análisis bivariados Tablas de Análisis bivariados Tablas de contingenciacontingencia
PobresPobres No pobresNo pobres TotalTotal
Aprobaron Aprobaron (Y1)(Y1)
2815
1225
40
No aprobaron No aprobaron (Y2)(Y2)
4255
185
60
TotalTotal 70 30 100
““Las variables X e Y (Las variables X e Y (situación de pobrezasituación de pobreza y y aprobación del exámen aprobación del exámen ) son ) son estadísticamente independientes si el porcentaje estadísticamente independientes si el porcentaje o número de o número de de observaciones de observaciones que poseen el atributo Y1 (que poseen el atributo Y1 ( no no aaprobóprobó) es el mismo entre X1 () es el mismo entre X1 (pobrespobres) que entre ) que entre
X2 (X2 (no pobresno pobres)”.)”.
Análisis bivariados Tablas de Análisis bivariados Tablas de contingenciacontingencia
Para medir el grado de dependencia o asociación entre las variables X e Y sePara medir el grado de dependencia o asociación entre las variables X e Y se utillizan medidas de asociaciónutillizan medidas de asociación
Si existe la relación ¿cúal es la fuerza y el sentido de dicha Si existe la relación ¿cúal es la fuerza y el sentido de dicha relación?relación?
Existen diferentes medidas según las características de la tabla, el tipo de hipótesis y las Existen diferentes medidas según las características de la tabla, el tipo de hipótesis y las características de las variablescaracterísticas de las variables
Coeficiente Coeficiente phiphiMedida de asociación para dos variables
dicotómicasBasada en el coeficiente ji cuadradoAsume valores entre 0 y 1
Coeficiente V de CramerCoeficiente V de Cramer
Extensión de PHIVariables nominales de más de 2 categAsume valores entre 0 y 1
Medidas de asociación para dos variables Medidas de asociación para dos variables de escala nominalde escala nominal
Coeficientes LambdasCoeficientes Lambdas Coeficiente Coeficiente KappaKappa
Basada en reducción del errorInterpretación distinta de los anterioresAsume valores entre 0 y 1 Proporción en que se reduce el error al
predecir los valores de una variable a partir de los de la otra
Compara los valores de dos variables nominales tales que sus valores pueden ser los mismos
Tablas cuadradasMide el grado de acuerdo entre las dos
variables Asume valores entre -1y 1 Valores
próximos a 1 : total acuerdo. Valores próximos a -1 : total desacuerdo
Medidas de asociaciónMedidas de asociación
Medidas de asociación para dos variables de Medidas de asociación para dos variables de escala ordinalescala ordinal
Coeficiente GammaCoeficiente Gamma
Medida de asociación para dos variables cualitativas de escala ordinalAsume valores entre -1 y 1 Valores próximos a 1 : fuerte asociación positiva: a medida que aumentan los valores de una
variable aumentan los de la otraValores próximos a -1 : fuerte asociación negativa: a medida que aumentan los valores de una
variable disminuyen los de la otra0 indica que no hay relación ni positiva ni negativa aunque puede haber otro tipo de relación.Puede alcanzar valores extremos cuando la asociación no es total
Medidas de asociaciónMedidas de asociación
Medidas de asociación para dos variables de Medidas de asociación para dos variables de escala ordinalescala ordinal
Coeficiente Tau-b de KendallCoeficiente Tau-b de Kendall
Extensión del GammaAsume valores entre -1 y 1 Alcanza valores extremos (-1 y 1) cuando la asociación es totalAlcanza valores extremos (-1 y 1) sólo cuando las dos variables tienen el mismo número de
categorías (la tabla es cuadrada)
Coeficiente Tau-c de KendallCoeficiente Tau-c de Kendall
Corrección del tau-b para variables con distinto tipo de categoríasPuede subestimar el grado de asociación.
Medida deasociación
TablaEscala deMedida
Observaciones
Phi
V de Cramer
2 x 2
f x c
Nominales
Nominales
Medidas basadas en chi cuadrado.Toman valores comprendidos entre 0 y 1.Evalúa hipótesis lineales (diagonal principal). Son útiles para estimar grados de asociaciónentre pares de variables, sobre un mismoconjunto de individuos para n filas y columnas.
Lambda f x c Nominales Toma valores entre 0 y 1. Disponen versión asimétrica.Es fácil de interpretar en términos de laproporción que se reduce le error depredicción del valor de una variable a partirde los valores de la otra (pero puede tomarvalores muy bajos en tablas con asociación).
Gamma
Tau b / c de Kendall
f x c
f x c
Ordinales
Ordinales
Toma valores entre -1 y 1, pasando por 0. Gamma es más fácil de interpretar. Asumerelaciones curvilineales. Tau b sólo alcanza valores extremos cuandohay asociación total y f y c son iguales.Tau c tiende a subestimar la relación.
MEDIDAS DE ASOCIACIÓN