Manual_R_2

28
Pr´ acticas de Estad´ ıstica con R Parte II Escuela T´ ecnica Superior Ing. Industrial y Qu´ ımica Universidad de Cantabria Fco Javier Glez Ortiz Curso 2007–2008

description

manual del programa R

Transcript of Manual_R_2

  • Practicas de Estadstica con R

    Parte II

    Escuela Tecnica Superior

    Ing. Industrial y Qumica

    Universidad de Cantabria

    Fco Javier Glez Ortiz

    Curso 20072008

  • 2

  • Indice general

    3. Variables aleatorias 5

    3.1. Variabilidad a corto plazo. Regularidad a la larga . . . . . . . . . . . . . . . . . . . . 5

    3.1.1. Variabilidad a corto plazo: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    3.1.2. Variabilidad a largo plazo: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

    3.1.3. Concepto frecuentista de la probabilidad . . . . . . . . . . . . . . . . . . . . . 8

    3.1.4. Es siempre admisible el concepto clasico de probabilidad? . . . . . . . . . . 8

    3.2. Simulacion del problema del aniversario . . . . . . . . . . . . . . . . . . . . . . . . . 9

    3.3. Simulacion del problema de los dados de Galileo . . . . . . . . . . . . . . . . . . . . 10

    4. Distribuciones discretas y continuas 11

    4.1. Distribuciones de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    4.1.1. Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    4.1.2. Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    4.1.3. Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    4.2. Distribucion de la media muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    5. Bondad de Ajuste 17

    5.1. Contraste Chi-cuadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

    5.1.1. Es un dado regular? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

    5.1.2. Bombardeo de Londres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

    5.2. Contraste de Shapiro-Wilk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

    5.3. Contraste de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

    5.3.1. Contraste de normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

    5.4. Mas ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

    7. Intervalos de confianza y contrastes de hipotesis 21

    7.1. Intervalo de confianza de la media. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    7.2. Intervalos de confianza y contraste de la proporcion. . . . . . . . . . . . . . . . . . . 24

    3

  • 4 INDICE GENERAL

    7.3. Intervalos de confianza y contraste de diferencia de dos medias: . . . . . . . . . . . . 25

    7.4. Intervalos de confianza y contraste de diferencia de dos proporciones. . . . . . . . . . 27

  • Tema 3

    Variables aleatorias

    3.1. Variabilidad a corto plazo. Regularidad a la larga

    3.1.1. Variabilidad a corto plazo:

    Simular 12 lanzamientos de un dado regular (no trucado), almacenando los resultados de loslanzamientos en la columna 1 (dado_1).

    Repetir el apartado anterior almacenando los resultados en la columna 2 (dado_2) y(dado_3).

    Dibujar diagramas de barras de los datos de las dos columnas.

    >barplot(table(LosDados$dado3))

    Calcular las frecuencias relativas de los 6 sucesos posibles. Son estas frecuencias relativasiguales a 16?

    >table(LosDados$dado 3)/12

    5

  • 6 TEMA 3. VARIABLES ALEATORIAS

    1 2 3 4 5 6

    05

    1015

    2025

    Figura 3.1: Diagrama de barras de tirada de un dado 120 veces

    3.1.2. Variabilidad a largo plazo:

    Simular 1200 lanzamientos de un dado regular (no trucado), almacenando los resultados delos lanzamientos en la columna 4 (dado_4).

    El entorno grafico nos impide obtener los 1200 datos, como lo hacemos? Se puede entrar enel editor y avanzar paginas hasta la fila de datos 1200, e introducir en esta casilla un NA.

    Otra posibilidad desde la lnea de comandos, es escribir

    LosDados[1200,] barplot(table(LosDados$dado_4))

    Calcular las frecuencias relativas de los 6 sucesos posibles. Son estas frecuencias relativasiguales a 16?

  • 3.1. VARIABILIDAD A CORTO PLAZO. REGULARIDAD A LA LARGA 7

    Figura 3.2: Diagrama de barras de tirada de un dado 1200 veces

    OJO! con el valor NA

    Por ejemplo si ejecutamos desde el resumen numerico y hay valores de NA no hay problemas,pero si lo realizamos desde la linea de comandos necesitamos algo as como

    mean(LosDados$dado 1,na.rm=TRUE)

    pues

    mean(LosDados$dado 1)

    devuelve el valor NA.

  • 8 TEMA 3. VARIABLES ALEATORIAS

    Otra posibilidad para evitar los valores omitidos y poder calcular con datos que incluyen unNA es,

    x[!is.na(x)]

    ya que, este comando elimina del vector x todos aquellos el mentos que sean NA o NaN. Lafuncion which(is.nan(x)) nos devolvera las posiciones de los elementos de x que toman el valorNaN.

    3.1.3. Concepto frecuentista de la probabilidad

    La concepcion frecuentista interpreta que la probabilidad de un suceso es el lmite de lafrecuencia relativa de dicho suceso cuando el numero de veces que se repite el experimento asociadotiende a infinito.

    Por ejemplo, que la probabilidad de sacar cruz al tirar una moneda es 0,5 significa que, en unasucesion de tiradas, la frecuencia relativa de las cruces obtenidas se ir aproximando paulatinamentea 0,5 segun avanza la sucesion.

    Generamos un vector que represente la sucesion de tiradas; suponiendo n = 500 tiradas.

    dadoplot

  • 3.2. SIMULACION DEL PROBLEMA DEL ANIVERSARIO 9

    sample(1:6,120,replace=TRUE,c(0.5,0.25,0.15,0.04,0.03,0.03))

    Repetir el apartado anterior almacenando los resultados en la columna dado8.

    Dibujar diagramas de puntos de los datos de las dos columnas.

    Son aproximadamente iguales las frecuencias relativas de los 6 sucesos posibles? A que con-cepto de la probabilidad conduce este experimento aleatorio?

    3.2. Simulacion del problema del aniversario

    1. Extraer1 una muestra con reemplazamiento de tamano 40. grupo.1

    nacidos

  • 10 TEMA 3. VARIABLES ALEATORIAS

    3.3. Simulacion del problema de los dados de Galileo

    1. Cargar un conjunto nuevo de datos en R. Simular el lanzamiento de un dado 1000 vecesvariable dado.1

    2. Realizar lo mismo para las columnas dado.2 y dado.3

    3. Establecer en la columna suma, la suma de las tres dados.

    4. Estimar la probabilidad de que la suma de los dados sea 10. 0.126

    5. Estimar la probabilidad de que la suma de los dados sea 9. 0.118

  • Tema 4

    Distribuciones discretas y continuas

    4.1. Distribuciones de probabilidad

    El menu Distribuciones de R-Commander permite trabajar con todas las distribuciones es-tadsticas vistas en clase de teora. Para cada una de ellas, se puede obtener:

    Cuantil El menor valor c tal que, para un probabilidad dada p, se cumple que P (x c) = pprobabilidad Discretas: valores de la funcion masa de probabilidad.

    probabilidad acumulada Para un cuantil c dado, da el valor P (x c) (cola inferior) o bienP (x > c) (cola superior).

    grafico Se representa la funcion de densidad (masa de probabilidad en las distribuciones discretas)o la funcion de distribucion.

    muestra aleatoria Permite generar un juego de datos aleatorio especificando el numero de mues-tras (numero de filas) y el tamano muestral (numero de columnas).

    A cada uno de los nombres en R, se le anade por delante la letra

    d para funcion de densidad (masa de probabilidad en discretas)p para funcion de distribucionq para cuantilr para generar numeros aleatorios

    4.1.1. Binomial

    pbinom(c(45), size=100, prob=0.5, lower.tail=TRUE)

    1. Sea X B(p = 0,5, n = 100), np = 50, npq = 25. Hallar:

    a) p(X 45), p(X 52) p(X < 60)0.1841 0.6914 0.9716

    11

  • 12 TEMA 4. DISTRIBUCIONES DISCRETAS Y CONTINUAS

    b) Calcular las probabilidades anteriores con la aproximacion binomial-normal.

    0.1841 0.6915 0.9713

    c) Calcular las probabilidades anteriores con la aproximacion binomial-Poisson.

    0.0 1 1

    y analiza porque es mala la aproximacion utilizada.

    4.1.2. Poisson

    P (X n) =n

    k=0

    ek

    k!

    ppois(c(2), lambda=0.5, lower.tail=TRUE)

    2. La centralita telefonica de un hotel recibe un numero de llamadas por minuto que sigue unaley de Poisson con parametro = 0,5. Determinar la probabilidad de que en un minuto alazar:

    a) Se reciba una unica llamada. 0.303

    b) Se reciban un maximo de dos llamadas. 0.9856

    c) La centralita quede bloqueada, sabiendo que no puede realizar mas de 3 conexiones por

    minuto. 0.00175

    4.1.3. Normal

    pnorm(c(40), mean=50, sd=5, lower.tail=TRUE)

    3. Sea X una variable aleatoria normal con = 50 y 2 = 25. Calcular:

    a) p(X 40) p(X 60) p(X > 65)0.02275 0.9772 0.0013

    b) p(X > 35) p(40 < X < 60) p(30 < X < 42)

    0.9986 0.9544 0.05476

  • 4.1. DISTRIBUCIONES DE PROBABILIDAD 13

    Parametros de N(;)

    Ejecutar en R el siguiente script y obervar el efecto del valor de los parametros.

    x

  • 14 TEMA 4. DISTRIBUCIONES DISCRETAS Y CONTINUAS

    4.2. Distribucion de la media muestral

    4. Abrir un fichero nuevo:

    a) Abrimos un nuevo conjunto de datos o data.frame de nombre media.muestra y gener-amos1 mediante muestreo aleatorio una muestra de tamano 100 de la variable Altura delos alumnos de una poblacion con distribucion N( = 1, 75; = 0,05).

    media.muestra

  • 4.2. DISTRIBUCION DE LA MEDIA MUESTRAL 15

    l

    l

    l

    l

    l

    l

    l

    ll

    l

    l

    l

    l

    l

    l

    X1 X2 X3 X4 X5 X6 X7 X8 X9 X11 X13 X15

    1.6

    1.7

    1.8

    1.9

    N(1.

    75;0.

    05)

    Figura 4.1: Diagrama de las 15 muestras de la altura N(1,75; 0,05)

  • 16 TEMA 4. DISTRIBUCIONES DISCRETAS Y CONTINUAS

    l

    l

    l

    ll

    X1 X2 X3 Media.n25

    1.60

    1.65

    1.70

    1.75

    1.80

    1.85

    1.90

    N(1.

    75;0.

    05)

    Figura 4.2: Boxplot de X1, X2 y X3 junto a x25

  • Tema 5

    Bondad de Ajuste

    En el caso de contrastes de normalidad, se recomienda el uso del test de Shapiro-Wilk paramuestras pequenas n 50, mientras que si las muestras son grandes es preferible utilizar el test deKolmogorov-Smirnov, salvo que los datos vengan dados en una distribucion de frecuencias en cuyocaso emplearemos la distribucion 2

    5.1. Contraste Chi-cuadrado

    La distancia 2 entre la distribucion de frecuencias observada en la muestra y la distribucionde probabilidad especificada por la hipotesis nula se define como

    2 =ki=1

    (ni npi)2npi

    =ki=1

    (Oi Ei)2Ei

    , (5.1)

    donde n1, n2, . . . , nk son las frecuencias absolutas de los k posibles resultados y p1, p2, . . . , pk sonlas probabilidades de dichos resultados si es cierta la hipotesis nula.

    5.1.1. Es un dado regular?

    Se lanza un dado 1200 veces y se obtienen los siguientes resultados:

    Xi 1 2 3 4 5 6Oi: frecuencia 175 215 220 190 170 230

    1. Calcular el estadstico de contraste 2. 2g.l. 15.75

    2. Hallar el nivel de significacion (P-valor) de la prueba y decidir si se acepta que el dado esregular.

    P-valor 0.007595

    Abrimos un conjunto de datos nuevo con dos columnas. En frec almacenamos las frecuencias ob-servadas y en prob las probabilidades teoricas respectivas para cada cara del dado 16 .

    17

  • 18 TEMA 5. BONDAD DE AJUSTE

    >chisq.test(frec,p=prob)

    Chi-squared test for given probabilitiesdata: frec X-squared = 15.75, df = 5, p-value = 0.007595

    5.1.2. Bombardeo de Londres

    Durante la Segunda Guerra Mundial se dividio el mapa de Londres en cuadrculas de 1/4 kmy se conto el numero de bombas cadas en cada cuadrcula durante un bombardeo aleman. Losresultados fueron:

    x: Impactos en cuadrcula 0 1 2 3 4 5Oi: frecuencia 229 211 93 35 7 1

    Se quiere contrastar la hipotesis de que los datos siguen una distribucion de Poisson. Se pide:

    1. Disenar las columnas adecuadas que registren las frecuencias observadas y las esperadas.

    lambda

  • 5.2. CONTRASTE DE SHAPIRO-WILK 19

    5.2. Contraste de Shapiro-Wilk

    Con Datos - Conjunto de datos en paquetes Leer conjunto de datos.. del paquete datasetscargar el fichero de nombre trees.

    1. Efectuar el contraste de normalidad para la variable volumen de madera Volumen.

    Con Estadsticos Resumenes. y Test de normalidad de Shapiro-Wilk. obtenemos

    W 0.8876

    Como el p-value = 0.003579 rechazamos que sea una distribucion normal.

    2. Efectuar el contraste de normalidad para la variable logaritmo del volumen de madera Volu-men.

    Con Estadsticos Resumenes. y Test de normalidad de Shapiro-Wilk. obtenemos para lanueva variable log(Volume)

    W 0.9643

    Como el p-value = 0.3766 aceptamos que el logaritmo del volumen sea normal.

    5.3. Contraste de Kolmogorov-Smirnov

    5.3.1. Contraste de normalidad

    Vamos a realizar el contraste de normalidad de la variable PESO del fichero pesoaltura.rdat.Dado que el numero de individuos es grande, n = 100, se utilizara el test de Kolmogorov-Smirnov.

    1. Con Datos - Cargar conjunto de datos ... incorporamos el fichero pesoaltura.rdat en Rcom-mander con el nombre de peso.altura.

    2. Calculamos los estimadores de y

    attach(peso.altura)mean(PESO)sd(PESO)

    resultando x = 73,37 y s = 12,69.

    3. A continuacion se contrastan las diferencias entre la funcion de distribucion emprica muestraly la distribucion teorica normal de parametros, N(73,37; 12,69). Para ello se empleara elprocedimiento ks.test.

    ks.test(PESO,pnorm,73.37,12.69)

    >ks.test(PESO,pnorm,73.37,12.69)One-sample Kolmogorov-Smirnov testdata: PESO D = 0.136, p-value = 0.04939 alternative hypothesis: two-sided

    En este caso y para un = 0,05 se rechaza la hipotesis de que los pesos sigan una distribucionnormal.

  • 20 TEMA 5. BONDAD DE AJUSTE

    5.4. Mas ejemplos

    1. Los siguientes datos corresponden a la duracion de diez pilas de cierta marca en cientos dehoras.

    i 1 2 3 4 5 6 7 8 9 10xi 0,023 0,406 0,538 1,267 2,343 2,563 3,334 3,491 5,088 5,587

    Se quiere contrastar si la variable aleatoria duracion de vida de las pilas se ajusta a unadistribucion de tipo exponencial. Se pide:

    a) Sabiendo que la funcion de distribucion exponencial es FX(x) = 1 ex, determinarsu expresion si se estima con = x1.

    0.40584

    b) Determinar la distancia de Kolmogorov. D 0.2136

    c) Concluir si los datos se ajustan a la distribucion exponencial dada.

  • Tema 7

    Intervalos de confianza y contrastesde hipotesis

    7.1. Intervalo de confianza de la media.

    44. Cargar (abrir) el conjunto de Datos ElPulso.rda. Se pide:

    a) Calcular el intervalo de confianza para el peso medio de todos los individuoscon = 0,05.Para realizar el contraste de la media o hallar el intervalo de confianza, se elige en elMenu, Medias->Test para una muestra

    21

  • 22 TEMA 7. INTERVALOS DE CONFIANZA Y CONTRASTES DE HIPOTESIS

    t.test(Pulso$Peso, alternative=two.sided, mu=0.0, conf.level=.95)

    One Sample t-testdata: Pulso$Peso t = 58.6473, df = 91, p-value

  • 7.1. INTERVALO DE CONFIANZA DE LA MEDIA. 23

    45. Se espera que la resistencia en kg/cm2 de cierto material suministrado por un proveedor sedistribuya normalmente, con media 220 y desviacion tpica 7.75. Se toma una muestra de 9elementos y se obtiene: 203, 229, 215, 220, 223, 233, 208, 228, 209. Se pide:

    a) Contrastar la hipotesis = 220 y cualquiera.

    En la Ventana de instrucciones asignamos la variable resistencia conresistencia

  • 24 TEMA 7. INTERVALOS DE CONFIANZA Y CONTRASTES DE HIPOTESIS

    7.2. Intervalos de confianza y contraste de la proporcion.

    47. Cargar (abrir) el conjunto de Datos Pulso.rda y calcular el intervalo de confianza parala proporcion pF de individuos que fuman con = 0,05.

    Para realizar el contraste de la proporcion o hallar el intervalo de confianza, se elige en elMenu, Proporciones->Test de Proporciones para una muestra

    > .Table .Table Fumarfuma no fuma28 64

    > prop.test(rbind(.Table), alternative=two.sided, p=.5, conf.level=.95, correct=FALSE)1-sample proportions test without continuity correctiondata: rbind(.Table), null probability 0.5X-squared = 14.087, df = 1, p-value = 0.0001746 alternative hypothesis: true p is notequal to 0.5 95 percentconfidence interval: 0.2197369 0.4046427 sample estimates: p 0.3043478

    prop.test(c(28),c(92) alternative=two.sided, p=.5, conf.level=.95, correct=FALSE)

  • 7.3. INTERVALOS DE CONFIANZA Y CONTRASTE DE DIFERENCIA DE DOS MEDIAS:25

    7.3. Intervalos de confianza y contraste de diferencia de dosmedias:

    52. Cargar (abrir) el conjunto de Datos Pulso.rda y determinar si hay diferencia signi-ficativa entre la altura media de hombres y mujeres con un nivel de significacion = 0,05.

    Si llamamos a la altura media de hombres H y a la altura media de mujeres M , se trata derealizar el contraste

    H0 H = M = 0H1 H 6= M

    }

    Este ejercicio lo vamos a resolver de 2 formas.

    La primera acudimos en el Menu, a Medias->Test de para muestras indepeendientes. Acontinuacion elegimos la variable explicada Altura desglosada por la variable de GruposSexo, dejando por defecto la opcion de contraste Bilateral y tambien por defecto nosuponer varianzas iguales (21 6= 22)

    La salida en la Ventana de resultados nos dice que el p-value = 9.778e-15 muy inferiorque el = 0,05 que habamos fijado. Por ello se rechaza la igualdad de medias. A suvez, llegamos a la misma conclusion, si nos fijamos en queconfidence interval: 10.80570 16.39458, no incluye el valor nulo.

  • 26 TEMA 7. INTERVALOS DE CONFIANZA Y CONTRASTES DE HIPOTESIS

    > t.test(Altura~Sexo, alternative=two.sided, conf.level=.95,var.equal=FALSE, data=Pulsaciones)

    Welch Two Sample t-test

    data: Altura by Sexo t = 9.7007, df = 72.514, p-value = 9.778e-15alternative hypothesis: true difference in means is not equal to 095 percent confidence interval:10.80570 16.39458sample estimates: mean in group hombre mean in group mujer

    179.7161 166.1160

    El metodo anterior con menus requiere tener los valores de las dos variables en unamisma columna y a su vez desglosada con otra columna que hace de factor. La segundaforma es mas versatil.A partir del comando t.test de arriba bastara escribir:

    t.test(Altura[Sexo==hombre],Altura[Sexo==mujer],var.equal=FALSE, alternative=two.sided, conf.level=.95,

    Teniendo en cuenta que la seleccion de las variables puede ser mas complicado que las opcionesque ofrece el Menu de Rcommander, la segunda forma es mas flexible que la primera.

  • 7.4. INTERVALOS DE CONFIANZA Y CONTRASTE DE DIFERENCIA DE DOS PROPORCIONES.27

    7.4. Intervalos de confianza y contraste de diferencia de dosproporciones.

    52. Cargar (abrir) el conjunto de Datos Pulso.rda y determinar si hay diferencia signi-ficativa entre la proporcion de hombres y mujeres que fuman con un nivel designificacion = 0,05.

    Si llamamos a la proporcion de hombres que fuman pF |H y a la proporcion de mujeres quefuman pF |M , se trata de realizar el contraste

    H0 pF |H = pF |M = p0H1 pF |H 6= pF |M

    }

    Este ejercicio lo vamos a resolver de 2 formas.

    La primera acudimos en el Menu, a Proporciones->Test de Proporciones para dos mues-tras. A continuacion elegimos la variable explicada Fumar desglosada por la variable deGrupos Sexo, dejando por defecto la opcion de contraste Bilateral y tambien por defectola aproximacion normal

    La salida en la Ventana de resultados nos dice que el p-value = 0.2158 mayor que el = 0,05 que habamos fijado. Por ello se acepta la igualdad de proporciones. A su vez,

  • 28 TEMA 7. INTERVALOS DE CONFIANZA Y CONTRASTES DE HIPOTESIS

    llegamos a la misma conclusion, si nos fijamos en queconfidence interval: -0.06398087 0.30859240, incluye el valor nulo,

    > .Table rowPercents(.Table)

    FumarSexo fuma no fuma Total Counthombre 35.1 64.9 100 57mujer 22.9 77.1 100 35

    > prop.test(.Table, alternative=two.sided, conf.level=.95, correct=FALSE)2-sample test for equality of proportions without continuity correction

    data: .Table X-squared = 1.5321, df = 1, p-value = 0.2158alternative hypothesis: two.sided 95 percent confidence interval:-0.06398087 0.30859240sample estimates:

    prop 1 prop 20.3508772 0.2285714

    La segunda es hacer el recuento de las frecuencias respectivas, con:x1