Ejercicio sobre ANOVA SIMPLE (I) - Universidad de … Alcala/Practica...  · Web...

14
Ejercicio sobre ANOVA SIMPLE (I) 02/04/2009 1. A partir de los datos del fichero FICHERO EXAM SEPT07, sobre usuarios de la biblioteca de la Escuela Politécnica de la UAH, queremos estudiar la existencia o no de relación entre la renta anual de las familias de los estudiantes de la Escuela, y su hábito de lectura (registrado a partir de la variable cualitativa lectura) (NOTA: recuerda excluir del estudio a aquellos alumnos que declararon que su renta anual era nula) a. Indica claramente quiénes son: la variable respuesta, el factor, los niveles del factor. - la variable respuesta es la renta anual - el factor es el hábito de lectura - son 4 los niveles del factor: 1 - 4 b. Indica si a un 5% de significación puede admitirse que ambas variables (renta y hábito de lectura), están relacionadas. Comparación > Análisis de la Varianza > ANOVA Simple

Transcript of Ejercicio sobre ANOVA SIMPLE (I) - Universidad de … Alcala/Practica...  · Web...

Ejercicio sobre ANOVA SIMPLE (I) 02/04/2009

1. A partir de los datos del fichero FICHERO EXAM SEPT07, sobre usuarios de la biblioteca de la Escuela Politécnica de la UAH, queremos estudiar la existencia o no de relación entre la renta anual de las familias de los estudiantes de la Escuela, y su hábito de lectura (registrado a partir de la variable cualitativa lectura) (NOTA: recuerda excluir del estudio a aquellos alumnos que declararon que su renta anual era nula)

a. Indica claramente quiénes son: la variable respuesta, el factor, los niveles del factor.

- la variable respuesta es la renta anual- el factor es el hábito de lectura- son 4 los niveles del factor: 1 - 4

b. Indica si a un 5% de significación puede admitirse que ambas variables (renta y hábito de lectura), están relacionadas.

Comparación > Análisis de la Varianza > ANOVA Simple

Tabla ANOVA para renta anual según lectura

Análisis de la Varianza------------------------------------------------------------------------------Fuente Sumas de cuad. Gl Cuadrado Medio Cociente-F P-Valor------------------------------------------------------------------------------Entre grupos 1,14206E9 3 3,80687E8 1,50 0,2205Intra grupos 2,20958E10 87 2,53974E8------------------------------------------------------------------------------Total (Corr.) 2,32378E10 90

El StatAdvisor-------------- La tabla ANOVA descompone la varianza de renta anual en doscomponentes: un componente entre grupos y un componente dentro de losgrupos. El F-ratio, que en este caso es igual a 1,49892, es elcociente de la estimación entre grupos y la estimación dentro de losgrupos. Puesto que el p-valor del test F es superior o igual a 0,05,no hay diferencia estadísticamente significativa entre las renta anualmedias de un nivel de lectura a otro para un 95,0%.

H0 = μ1 =μ2 =μ3 =μ4 (no existen diferencias significativas entre las rentas de individuos con diferentes hábitos de lectura)H1 = alguna μ es significativamente diferente

Rechazaremos la H0 (hipótesis nula) si p-valor < αp-valor= 0,2205 > α= 5%= 0,05

Resultado: Aceptaremos la H0 puesto que el p-valor es superior a α, es decir, aceptamos que no existe relación entre la Renta y el Hábito de lectura en los

usuarios de la Biblioteca de la Escuela Politécnica de la UAH, para un nivel de significación del 5%.

c. Indica cuánto valen la variabilidad total, residual y explicada; calcula el porcentaje de variabilidad explicada, y relaciónalo con el resultado del apartado anterior.

Tabla ANOVA para renta anual según lectura

Análisis de la Varianza------------------------------------------------------------------------------Fuente Sumas de cuad. Gl Cuadrado Medio Cociente-F P-Valor------------------------------------------------------------------------------Entre grupos 1,14206E9 3 3,80687E8 1,50 0,2205Intra grupos 2,20958E10 87 2,53974E8------------------------------------------------------------------------------Total (Corr.) 2,32378E10 90

El StatAdvisor-------------- La tabla ANOVA descompone la varianza de renta anual en doscomponentes: un componente entre grupos y un componente dentro de losgrupos. El F-ratio, que en este caso es igual a 1,49892, es elcociente de la estimación entre grupos y la estimación dentro de losgrupos. Puesto que el p-valor del test F es superior o igual a 0,05,no hay diferencia estadísticamente significativa entre las renta anualmedias de un nivel de lectura a otro para un 95,0%.

- Variabilidad Total= SCT =VT = 2’32378E10 = 1762963520- Variabilidad Residual= VR= VNE= SCR= 2,20958E10 = 620963520- Variabilidad Explicada= VE= SCE= 1’14206E9 = 1142060000

- Porcentaje de variabilidad explicada=

Dado que el porcentaje de variabilidad explicada es muy pequeño, no es de extrañar que la hipótesis nula haya sido aceptada

2. A partir del mismo fichero de datos,

a. Indica si puede admitirse, al 10% de significación, que el número de préstamos solicitados por los estudiantes sea independiente de su hábito de lectura.

Comparación > Análisis de la Varianza > ANOVA Simple

Tabla ANOVA para #_prest según lectura

Análisis de la Varianza------------------------------------------------------------------------------Fuente Sumas de cuad. Gl Cuadrado Medio Cociente-F P-Valor------------------------------------------------------------------------------Entre grupos 137,844 3 45,9482 2,24 0,0892Intra grupos 1911,25 93 20,5511------------------------------------------------------------------------------Total (Corr.) 2049,09 96

El StatAdvisor-------------- La tabla ANOVA descompone la varianza de #_prest en doscomponentes: un componente entre grupos y un componente dentro de losgrupos. El F-ratio, que en este caso es igual a 2,2358, es elcociente de la estimación entre grupos y la estimación dentro de losgrupos. Puesto que el p-valor del test F es superior o igual a 0,05,no hay diferencia estadísticamente significativa entre las #_prestmedias de un nivel de lectura a otro para un 95,0%.

H0 = μ1 =μ2 =μ3 =μ4 (no existen diferencias significativas entre el nº medio de préstamos solicitado por individuos con diferentes hábitos de lectura)H1 = alguna μ es significativamente diferente

Rechazaremos la H0 (hipótesis nula) si p-valor < αp-valor= 0,08 < α= 10%= 0,10

Resultado: Rechazaremos la H0 ya que el p-valor < α, es decir, existe relación entre el número de préstamos de los estudiantes de la Escuela Politécnica de la UAH y el hábito de lectura de éstos, a una significación del 10%

b. Da una estimación puntual y mediante un intervalo LSD, del número de préstamos solicitado por aquellos que tienen un hábito de lectura muy bajo (lectura= 4)

Opciones Tabulares > tabla de Medias

Tabla de Medias para #_prest según lecturacon 95,0 intervalos LSD-------------------------------------------------------------------------------- Error Estándarlectura Frec. Media (s agrupada) Límite inf. Límite sup.--------------------------------------------------------------------------------1 25 8,72 0,906665 7,44688 9,993122 40 8,375 0,716782 7,36851 9,381493 26 10,0 0,889059 8,7516 11,24844 6 4,83333 1,85072 2,23459 7,43208--------------------------------------------------------------------------------Total 97 8,68041

El StatAdvisor-------------- Esta tabla muestra la #_prest media para cada nivel de lectura. También muestra el error estándar de cada media, que es la medida desu variabilidad en la muestra. El error estándar es el resultado dedividir la desviación típica agrupada por la raiz cuadrada del númerode observaciones en cada nivel. La tabla también muestra un intervaloque incluye cada media. Los intervalos mostrados actualmente se basanen el procedimiento de las menores diferencias significativas deFisher (LSD). Se construyen de tal manera que si dos medias soniguales, sus intervalos se solaparán 95,0% de las veces. Puede verlos intervalos gráficamente seleccionando Gráfico de Medias en lalista de Opciones Gráficas. En los Tests de Rangos Múltiples, estosintervalos se utilizan para determinar las medias que sonsignificativamente diferentes unas de otras.

- Estimación puntual= 4,8333- LSD= Least Significant Differences= [2,234 ; 7,432]

c. Estima la media globalμ= 8,680

d. Calcula el error experimental, e interprétaloError experimental= raíz cuadrada de la suma de los cuadrados medios intragrupos= = 4,5333

e. Calcula el porcentaje de variabilidad explicada por la introducción del factor lectura.

Tabla ANOVA para #_prest según lectura

Análisis de la Varianza------------------------------------------------------------------------------Fuente Sumas de cuad. Gl Cuadrado Medio Cociente-F P-Valor------------------------------------------------------------------------------Entre grupos 137,844 3 45,9482 2,24 0,0892Intra grupos 1911,25 93 20,5511------------------------------------------------------------------------------Total (Corr.) 2049,09 96

El StatAdvisor-------------- La tabla ANOVA descompone la varianza de #_prest en doscomponentes: un componente entre grupos y un componente dentro de losgrupos. El F-ratio, que en este caso es igual a 2,2358, es elcociente de la estimación entre grupos y la estimación dentro de losgrupos. Puesto que el p-valor del test F es superior o igual a 0,05,no hay diferencia estadísticamente significativa entre las #_prestmedias de un nivel de lectura a otro para un 95,0%.

- Porcentaje de variabilidad explicada=

El % explicado de la variable hábito de lectura a partir de la variable préstamo es del 6,72%, vemos que el % de variabilidad explicada es bastante bajo, a pesar de que la hipótesis nula ha sido rechazada.

f. Da una estimación puntual y mediante un intervalo LSD, del número de préstamos solicitado por aquellos que tienen un hábito de lectura muy alto (lectura= 1)

Tabla de Medias para #_prest según lecturacon 95,0 intervalos LSD-------------------------------------------------------------------------------- Error Estándarlectura Frec. Media (s agrupada) Límite inf. Límite sup.--------------------------------------------------------------------------------1 25 8,72 0,906665 7,44688 9,993122 40 8,375 0,716782 7,36851 9,381493 26 10,0 0,889059 8,7516 11,24844 6 4,83333 1,85072 2,23459 7,43208--------------------------------------------------------------------------------Total 97 8,68041

El StatAdvisor-------------- Esta tabla muestra la #_prest media para cada nivel de lectura. También muestra el error estándar de cada media, que es la medida desu variabilidad en la muestra. El error estándar es el resultado dedividir la desviación típica agrupada por la raiz cuadrada del númerode observaciones en cada nivel. La tabla también muestra un intervaloque incluye cada media. Los intervalos mostrados actualmente se basanen el procedimiento de las menores diferencias significativas deFisher (LSD). Se construyen de tal manera que si dos medias soniguales, sus intervalos se solaparán 95,0% de las veces. Puede verlos intervalos gráficamente seleccionando Gráfico de Medias en lalista de Opciones Gráficas. En los Tests de Rangos Múltiples, estosintervalos se utilizan para determinar las medias que sonsignificativamente diferentes unas de otras.

- Estimación puntual= 8,72- LSD= Least Significant Differences= [7,446 ; 9,993]

3. De nuevo con los mismos datos,

a. ¿Hay diferencias significativas en el número de consultas que realizan los estudiantes, según su hábito de lectura? (responde utilizando niveles de significación del 10% y el 5%)- Y= Consulta- F= Hábito de lectura- N.S= 10% y 5%

H0 = μ1 =μ2 =μ3 =μ4 (no existen diferencias significativas entre el número de consultas realizado por individuos con diferente hábito de lectura) H1 = alguna μ es significativamente diferente

Rechazaremos la H0 (hipótesis nula) si p-valor < α

p-valor= 0,056 < α= 10%= 0,10Resultado: Rechazaremos la H0 ya que el p-valor < α, es decir, sí existe relación entre el número de consultas de los estudiantes de la Escuela Politécnica de la UAH y el hábito de lectura de éstos, a un 10% de significación; en otras palabras, a ese nivel de significación sí hay diferencias significativas según el hábito de lectura.

p-valor= 0,056 > α= 5%= 0,05Resultado: Aceptaremos la H0 ya que el p-valor > α, es decir, no existe relación entre el número de consultas de los estudiantes de la Escuela Politécnica de la UAH y el hábito de lectura de éstos, a un 5% de significación.

b. Da una estimación puntual y mediante un intervalo LSD, del número de consultas realizadas por aquellos que tienen un hábito de lectura muy bajo (lectura=4)

Opciones Tabulares > Tabla de Medias

Tabla de Medias para #_consul según lecturacon 95,0 intervalos LSD-------------------------------------------------------------------------------- Error Estándarlectura Frec. Media (s agrupada) Límite inf. Límite sup.--------------------------------------------------------------------------------1 25 14,52 2,15902 11,4884 17,55162 40 20,975 1,70685 18,5783 23,37173 26 18,7308 2,11709 15,758 21,70354 6 11,6667 4,40708 5,47835 17,855--------------------------------------------------------------------------------Total 97 18,134

El StatAdvisor-------------- Esta tabla muestra la #_consul media para cada nivel de lectura. También muestra el error estándar de cada media, que es la medida desu variabilidad en la muestra. El error estándar es el resultado dedividir la desviación típica agrupada por la raiz cuadrada del númerode observaciones en cada nivel. La tabla también muestra un intervaloque incluye cada media. Los intervalos mostrados actualmente se basanen el procedimiento de las menores diferencias significativas deFisher (LSD). Se construyen de tal manera que si dos medias soniguales, sus intervalos se solaparán 95,0% de las veces. Puede verlos intervalos gráficamente seleccionando Gráfico de Medias en lalista de Opciones Gráficas. En los Tests de Rangos Múltiples, estosintervalos se utilizan para determinar las medias que sonsignificativamente diferentes unas de otras.

- Estimación puntual (lectura=4) = 11,667- LSD = [5,478 ; 17,855]

c. Calcula el error experimental, e interprétalo

Tabla ANOVA para #_consul según lecturaError experimental= raíz cuadrada de la suma de los cuadrados medios intragrupos= = 10,795

d. Calcula el coeficiente de determinación (también llamado porcentaje de variabilidad explicada)Tabla ANOVA para #_consul según lectura

Porcentaje de variabilidad explicada=

El % explicado de la variable hábito de lectura a partir de la variable consultas es del 7,74%.

e. Indica claramente: la variable respuesta, el factor, los niveles del factor- variable respuesta= Y= Número de Consultas- variable factor= hábito de lectura- niveles de factor= 4; [1,4]

f. Da una estimación de la media globalTabla Medias para #_consul según lectura.μ= 18,134

4. ¿Puedes decir a partir de los datos que la afición al cine (media a partir de la variable cualitativa cine) tiene alguna relación con la renta de las familias de los encuestados? (NOTA: recuerda excluir del estudio a aquellos alumnos que declararon que su renta anual era nula)

Tabla ANOVA para #_cine según renta anual

Análisis de la Varianza------------------------------------------------------------------------------Fuente Sumas de cuad. Gl Cuadrado Medio Cociente-F P-Valor------------------------------------------------------------------------------Entre grupos 215,252 25 8,61008 0,74 0,7966Intra grupos 756,506 65 11,6386------------------------------------------------------------------------------Total (Corr.) 971,758 90

El StatAdvisor-------------- La tabla ANOVA descompone la varianza de #_cine en dos componentes:un componente entre grupos y un componente dentro de los grupos. ElF-ratio, que en este caso es igual a 0,739789, es el cociente de laestimación entre grupos y la estimación dentro de los grupos. Puestoque el p-valor del test F es superior o igual a 0,05, no haydiferencia estadísticamente significativa entre las #_cine medias deun nivel de renta anual a otro para un 95,0%.

H0 = μ1 =μ2 =μ3 =μ4 (no existen diferencias significativas entre la afición al cine y la renta anual) H1 = alguna μ es significativamente diferente

Rechazaremos la H0 (hipótesis nula) si p-valor < α

p-valor= 0,7996 > α= 5%= 0,05Resultado: Aceptamos la H0 ya que el p-valor > α, es decir, no existe relación entre la afición al cine de los estudiantes de la Escuela Politécnica de la UAH y la renta anual de éstos.

5. Utiliza un ANOVA para estudiar si el sexo influye o no en el NUMERO DE PRESTAMOS de los usuarios de la biblioteca. Realiza el mismo estudio utilizando las herramientas vistas en el tema de tests no paramétricos. ¿Coinciden las conclusiones en uno y otro caso?

El p-valor obtenido es 0’1078 > 0,05. Por lo tanto, a un nivel de significación del 5% rechazamos la existencia de diferencias significativas en el número medio de préstamos que solicitan hombres y mujeres. En consecuencia, no parece que el sexo de los individuos tenga influencia en el número de préstamos que solicitan.

Puesto que lo que deseamos aquí es comparar dos poblaciones (“# préstamos de los hombres”, y “# préstamos de las mujeres”), podemos utilizar las herramientas del tema anterior para comparar poblaciones. Observamos en primer lugar que los datos no son pareados. Por otra parte, debemos estudiar la normalidad de las variables: si ambas son normales, comparamos sus medias, y si alguna no es normal, sus medianas. La variable “# préstamos de los hombres” no es normal (basta ejecutar los tests de bondad de ajuste a una distribución normal: rechaza el test chi-cuadrado y el test de Shapiro-Wilks). En consecuencia, compararemos medianas.

H0 = M1 =M2 (no existen diferencias significativas entre las medianas de los préstamos de hombres y mujeres) H1 = las medianas son distintas

Rechazaremos la H0 (hipótesis nula) si p-valor < α

p-valor= 0,1531 > α= 5%= 0,05

Resultado: Aceptamos la H0 ya que el p-valor > α, es decir, las medianas son iguales. Por lo tanto, la conclusión coincide con la del ANOVA.

6. ¿Sería apropiado utilizar un ANOVA para estudiar la existencia de relación entre la afición a la lectura (medida a través de la variable lectura) y la afición al cine (medida a través de la variable cine)? ¿Por qué? Realiza este contraste por el método que te parezca más apropiado, y explica tus conclusiones.

Puesto que las variables implicadas son cualitativas, utilizaremos un contraste de independencia chi-cuadrado.

Contraste de Chi-cuadrado------------------------------------------ Chi-cuadrado GL P-Valor------------------------------------------ 26,81 9 0,0015------------------------------------------Precaución: La frecuencia de alguna celda es inferior a 5.

El StatAdvisor-------------- El test chi-cuadrado realiza un contraste de hipótesis paradeterminar si se rechaza o no la idea de que la fila y la columnaseleccionadas son independientes. Dado que el p-valor es inferior a0.01, podemos rechazar la hipótesis de que las filas y columnas sonindependientes con un nivel de confianza del 99%. En consecuencia, elvalor observado de cine para un caso particular tiene relación con suvalor en lectura.

H0: Lectura y Cine son independienes.H1: Lectura y Cine no son independientes.

Resultado: Como p-valor = 0,0015< 0’05, utilizando un nivel de significación del 5%, rechazaremos la hipótesis de que existe independencia, por lo tanto, hay dependencia entre ambas, es decir sí están relacionadas. No obstante, vemos que, según nos indica Statgraphics, existen celdas con frecuencias esperadas menores que 5, lo cuál pone en cuestión la conclusión del test. Si inspeccionamos la tabla de frecuencias,

Tabla de Frecuencias para lectura según cine

Fila 1 2 3 4 Total -----------------------------------------------------1 | 5 | 6 | 12 | 2 | 25 | 5,15% | 6,19% | 12,37% | 2,06% | 25,77% -----------------------------------------------------2 | 0 | 12 | 26 | 2 | 40 | 0,00% | 12,37% | 26,80% | 2,06% | 41,24% -----------------------------------------------------3 | 0 | 16 | 8 | 2 | 26 | 0,00% | 16,49% | 8,25% | 2,06% | 26,80% -----------------------------------------------------4 | 2 | 2 | 2 | 0 | 6 | 2,06% | 2,06% | 2,06% | 0,00% | 6,19% -----------------------------------------------------Columna 7 36 48 6 97Total 7,22% 37,11% 49,48% 6,19% 100,00%

encontramos no obstante que en el caso de lectura = 3 (es decir, para los que leen más), la afición al cine es claramente menor que en los casos de lectura = 1 ó lectura = 2. Por lo tanto, a priori parece que efectivamente la afición al cine se comporta de un modo diferente en usuarios con distinta afición a la lectura, y en consecuencia parece razonable aceptar la conclusión del contraste.