estadistica u-4

download estadistica u-4

of 37

Transcript of estadistica u-4

Estadstica Inferencial I Unidad 4UNIDAD IVPRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO PARAMETRICAS 4.1 BONDAD DE AJUSTE Las pruebas de bondad de ajuste tratan de verificar si el conjunto de datos se puede ajustar o afirmar que proviene de una determinada distribucin. Las pruebas bsicas que pueden aplicarse son: la ji-cuadrada y la prueba de Smirnov-Kolmogorov. Ambas pruebas caen en la categora de lo que en estadstica se denominan pruebas de Bondad de Ajuste y miden, como el nombre lo indica, el grado de ajuste que existe entre la distribucin obtenida a partir de la muestra y la distribucin terica que se supone debe seguir esa muestra. Ambas pruebas estn basadas en la hiptesis nula de que no hay diferencias significativas entre la distribucin muestral y la terica, H0 es la distribucin que se supone sigue la muestra aleatoria. La hiptesis alternativa siempre se enuncia como que los datos no siguen la distribucin supuesta. Hablamos de bondad de ajuste cuando tratamos de comparar una distribucin de frecuencia observada con los valores correspondientes de una distribucin esperada o terica. Algunos estudios producen resultados sobre los que no podemos afirmar que se contribuyen normalmente, es decir con forma acampanada concentradas sobre la media. Su frmula es la siguiente:

2

i 1

k

f

oi

f ei f ei

2

= Valor observado en la i-simo dato. = Valor esperado en la i-simo dato.Pgina 1

Estadstica Inferencial I Unidad 4= = Categoras o celdas. Parmetros estimados sobre la base de los datos de la muestra

Los grados de libertad vienen dados por: gl= K-m-1. Criterio de decisin es el siguiente: Se rechaza H0 cuando

2 t2;K m1

. En caso contrario se acepta.

Donde t representa el valor proporcionado por las tablas, segn el nivel de significacin elegido. Cuanto ms se aproxima a cero el valor de chi-cuadrada, ms ajustadas estn ambas distribuciones.

Pgina 2

Estadstica Inferencial I Unidad 44.1.1 ANALISIS JI-CUADRADA Es considerada como una prueba no paramtrica que mide la discrepancia (bondad de ajuste) entre una distribucin observada a partir de la muestra y otra terica que se supone debe seguir esa muestra, indicando en qu medidas las diferencias existentes entre ambas se deben al azar en el contraste de la hiptesis. Esta prueba se basa en la hiptesis nula H0 de que no hay diferencias significativas entre la distribucin muestral y la terica. La estructura bsica de la prueba para la bondad de ajuste se muestra en la siguiente tabla:Clases 1 2 . . k Total Frecuencia observada Foi1 Foi2 . . Foik n Frecuencia esperada Fe1 Fe2 . . Fek n

Donde para calcular la Frecuencia esperada se tiene: ( )

Frmula para el anlisis de ji-cuadrada

(

)

Interpretacin: cuanto mayor sea el valor de ji-cuadrada menos creble es la hiptesis nula H0. De la misma forma, cuanto ms se aproximan acero el valor de , ms ajustadas estn las distribuciones. H0 se acepta H0 se rechazaPgina 3

Estadstica Inferencial I Unidad 44.1.2 PRUEBA DE INDEPENDENCIA La prueba de independencia trata de la comparacin de dos situaciones en las cuales podemos esperar que sean dependientes o independientes, esto quiere decir que, pueden o no estar relacionados sus datos debido a muchos factores que pueden influir en ellos, o bien, un problema no tenga relacin con otro. Su objetivo es determinar si alguna situacin es afectada por otra, basndose en datos estadsticos y valores probabilstico obtenidos de la fabulacin de datos o de pronsticos por medio de formulas y tablas, para esto se basa en un nivel de significancia en un caso y en el otro a comparar, valindonos de tablas de contingencia para obtener frecuencias esperadas y poder aplicarlas, para as obtener datos comparativos que son determinantes en la decisin de independencia. Para todas las pruebas de independencia, las hiptesis son: H0: las dos variables de clasificacin son independientes. H1: las dos variables de clasificacin son dependientes. Los mtodos para poner a prueba H0 contra H1 son idnticos a los usados para poner a prueba las diferencias entre proporciones poblacionales basados en la prueba de ??????2. De nuevo compararemos las frecuencias observadas con las esperadas, las obtenidas bajo el supuesto de que H0, para determinar que tan grande debe ser el alejamiento permitido para que la hiptesis de independencia pueda rechazarse. Si el valor del estadstico de prueba ??????2 es mayor o igual que el valor critico calculado, ya no podremos suponer que pueda resultar de dos variables de clasificacin independientes, siendo esta la razn de que todas las pruebas de ??????2 sobre independencia sean de cola derecha.

Pgina 4

Estadstica Inferencial I Unidad 4La estadstica de prueba que ser utilizada en la toma de una decisin acerca de la hiptesis nula es ji cuadrado X2. Los valores de ji-cuadrada se obtienen con la siguiente frmula: ( )

??????

Grados de libertad v = (r-1)*(c-1) Frecuencia Esperada = Total de la columna * Total del rengln Gran total

Caractersticas X2 toma valores no negativos; es decir, puede ser cero o positiva. X2 no es simtrica; es asimtrica hacia la derecha. Existen muchas distribuciones X2 como en el caso de la distribucin t, hay una distribucin, X2 diferente para cada valor de los grados de libertad. Nos dan una tabla de contingencia. El procedimiento de la prueba ji-cuadrada puede tambin utilizarse para probar la hiptesis de independencia de dos variables de clasificacin. Ejemplo: Supngase que desea determinar si las opiniones de los residentes votantes del estado de Illinois respecto a una nueva reforma impositiva son independientes de sus niveles de ingreso. Una muestra aleatoria de 1000 votantes registrados del estado de Illinois se clasifica de acuerdo con sus ingresos como bajo, medio y alto y si estn a favor o en contra de la nueva reforma impositiva. Las frecuencias observadas se presentan en la siguiente tabla, la cual se conoce como una tabla de contingencia.Pgina 5

Estadstica Inferencial I Unidad 4Tabla de contingencia 2 x 3 Nivel de ingresos Reforma impositiva A favor En contra Total 182 154 336 213 138 351 203 110 313 598 402 1000 Bajo Medio Alto Total

A una tabla de contingencia con r renglones y c columnas se le conoce como una tabla r x c (r x c se lee r por c), a los totales de renglones y columnas en la tabla anterior se les denomina frecuencia marginales. La decisin de aceptar o rechazar la hiptesis nula, H0, de independencia entre la opinin de votantes respecto a la nueva reforma de impuestos y su nivel de ingresos se basan en que tan bien se ajustan las frecuencias observadas en cada una de las 6 celdas de la tabla, y las frecuencias que se esperaran para cada celda bajo la suposicin de que H0 es verdadera. Para encontrar estas frecuencias esperadas, defnanse los siguientes eventos: L: una persona seleccionada esta en el nivel bajo de ingresos. M: una persona seleccionada esta en el nivel medio de ingresos. H: una persona seleccionada esta en el nivel alto de ingresos. F: una persona seleccionada est a favor de la nueva reforma fiscal. A: una persona seleccionada est en contra de la nueva reforma fiscal.

Pgina 6

Estadstica Inferencial I Unidad 4Al utilizar las frecuencias marginales, es posible escribir las siguientes estimaciones de probabilidad:

( ) ( )

,

( ) , ( )

,

( )

,

Ahora si H0 es verdadera y las dos variables son independientes, debe tenerse: P (LF) = P (L) P (F) = ( P (LA) = P (L) P (A) = ( P (MF) = P (M) P (F) = ( P (MA) = P (M) P (A) = ( P (HF) = P (H) P (F) = ( P (HA) = P (H) P (A) = (

)( )( )( )( )( )(

), ), ), ), ), ).

Las frecuencias esperadas se obtienen al multiplicar cada probabilidad de una celda por el nmero total de observaciones. Como antes, estas frecuencias se redondean a un decimal de esta manera el nmero esperado de votantes de bajos ingresos en la muestra y que favorecen la nueva reforma impositiva, se estima que es:

(

)(

) x 100 =

(

)(

)

= 200.9

Cuando H0 es verdadera. La regla general para obtener la frecuencia esperada de cualquier celda la proporciona la siguiente frmula:

Pgina 7

Estadstica Inferencial I Unidad 4Frecuencia Esperada = Total de la columna * Total del rengln Gran total La frecuencia esperada para cada celda se registra entre parntesis a un lado del valor observado real en la siguiente tabla. Ntese que la suma de las frecuencias esperadas en cualquier rengln o columna da el total marginal o apropiado. Nivel de ingresos Reforma impositiva A favor En contra Total 182(200.9) 154(135.1) 336 213(209.9) 138(141.1) 351 203(187.2) 110(125.8) 313 598 402 1000 Bajo Medio Alto Total

En el ejemplo, se necesitan calcular nicamente las dos frecuencias esperadas del rengln de arriba de la tabla y entonces encontrar las otras por sustraccin. El numero de grados de libertad asociado a la prueba ji cuadrada que se utiliza aqu es igual al nmero de frecuencias de celdas que pueden llenarse libremente cuando se dan los totales marginales y el gran total; en este ejemplo ese nmero es 2. Una formula simple que proporciona el nmero correcto de grados de libertad es: v = (r-1)*(c-1) de aqu que, para este ejemplo V = (2-1)*(3-1) = 2 grados de libertad. Para probara la hiptesis nula de independencia, se utiliza el siguiente criterio de decisin:

Pgina 8

Estadstica Inferencial I Unidad 4Prueba De Independencia: Calclese: ?????? ( )

Donde la sumatoria se extiende a todas las celdas rc en la tabla de contingencia r x c. Si ?????? > ?????? con v = (r-1)(c-1) grados de libertad se rechaza la hiptesis nula de independencia en el nivel de significancia ; de lo contrario, se acepta la hiptesis nula. Al aplicar este criterio a este ejemplo, se encuentra que:

??????

(

)

+

(

)

+)

(

)

+)

(

)

+

(

+P

(

= 7.85

0.02 = 5.991

De la tabla de Valores crticos de las distribuciones ??????2 resulta que

para v= (2-1) (3-1) = 2 grados de libertad. La hiptesis nula se rechaza. Se concluye que la opinin de un votante referente a la nueva reforma fiscal y su nivel de ingresos no son independientes. Es importante recordar que el estadstico sobre el cual se basa la decisin tiene una distribucin que solo se aproxima por la distribucin JI cuadrada. Los valores calculados ??????2 dependen de las frecuencias de la celda y, en consecuencia, son discretos. La distribucin ji cuadrada continua parece aproximar muy bien la distribucin muestral discreta de x2 en la medida en la que el numero de grados de libertad sea mayor que 1. En una tabla de contingencia de

Pgina 9

Estadstica Inferencial I Unidad 42 x 2, donde se tiene nicamente un grado de libertad, se aplica una correccin que recibe el nombre de correccin de yates para continuidad. La formula corregida se convierte entonces en:

?????? (

)

(|

|

)

Si las frecuencias esperadas de celdas son grandes, los resultados corregidos y sin corregir son casi los mismos. Cuando las frecuencias esperadas estn entre 5 y 10, debe aplicarse la correccin de Yates. Para frecuencias esperadas menores que 5, debe utilizarse la prueba exacta de Fisher-Irwin. Sin embargo, puede evitarse el uso de la prueba Fisher-Irwin al seleccionar una muestra grande.

Pgina 10

Estadstica Inferencial I Unidad 44.1.3 PRUEBA DE LA BONDAD DEL AJUSTE Es considerada como una prueba no paramtrica que mide la discrepancia entre una distribucin observada y otra terica, indicando en qu medida las diferencias existen entre ambas. En este tema se describe un procedimiento formal para probar la bondad de ajuste basado en la distribucin ji- cuadrada. El procedimiento de prueba requiere una muestra aleatoria de tamao n de la poblacin cuya distribucin de probabilidad es desconocida. stas n observaciones se ordenan en un histograma de frecuencia, con k intervalos de clase. Sea Oi la frecuencia observada en el intervalo de clase i. Se calcula la frecuencia esperada a partir de la distribucin de probabilidad hipottica, para el intervalo de clase i-simo, denotado por Ei, el estadstico de prueba es:( )

Para demostrar que si la poblacin sigue la distribucin hipottica propuesta, tiene, aproximadamente, una distribucin ji-cuadrada en donde los grados de libertad vienen dados por: gl= K-m-1 donde m representa el numero de parmetros de la distribucin

hipottica, estimados por los estadsticos muestrales. Esta aproximacin mejora conforme n se incrementa. El criterio de decisin es el siguiente: Se rechaza H0 cuando el valor del estadstico de prueba contrario se acepta. Donde t representa el valor proporcionado por las tablas, segn el nivel de significacin elegido. Cuanto ms se aproxima a cero el valor de ji-cuadrada, ms ajustadas estn ambas distribuciones.Pgina 11

. En caso

Estadstica Inferencial I Unidad 4Un punto que cabe destacar en la aplicacin de este procedimiento de prueba se refiere a la magnitud de las frecuencias esperadas. Si stas frecuencias no reflejar la

esperadas son muy pequeas, entonces el estadstico de prueba

desviacin de las frecuencias observadas y las esperadas, no nicamente la pequea magnitud de las frecuencias esperadas. No hay consenso generalizado en cuanto al valor mnimo de las frecuencias esperadas, pero valores de 3, 4 y 5 se usan ampliamente como mnimos. Algunos autores proponen que una frecuencia esperada podra ser tan pequea, como 1 o 2, siempre que la mayora de ellas excedan 5. Cuando una frecuencia esperada sea muy pequea, puede cambiarse con la frecuencia esperada de un intervalo de clase adyacente. Las frecuencias observadas correspondientes tambin se combinaran, y k se reducira una unidad. No es necesario que los intervalos de clase tengan la misma anchura. Ejemplo: Una distribucin continua. Un ingeniero est probando una fuente de poder usada en una computadora notebook. Utilizando = 0.05, el quiere determinar si una distribucin normal describe adecuadamente el voltaje de salida. De una muestra aleatoria de n = 100 unidades obtiene las estimaciones muestrales de la media y la desviacin estndar x = 5.04 V y s = 0.08 V. Una prctica comn cuando se construyen los intervalos de clase para la distribucin de frecuencia usada en la prueba ji-cuadrada de la bondad del ajuste es elegir los limites de clase de las celdas de tal modo que las frecuencias esperadas Ei = npi sean iguales para todas lsa celdas o intervalos de clase. Para usar este mtodo, los limites de clase a0,a1,,ak de los k intervalos de clase se elegiran de tal modo que todas las probabilidades

= (

)

( )

sean iguales. Suponga que se decide usar k = 8 intervalos de clase. Para la distribucin normal estndar, los intervalos que dividen la escala en ocho segmentos igualmente factibles son [ 0, 0.32), [0.32, 0.675), [0.675, 1.15), [1.15, ) y los cuatro intervalos reflejados al otro lado de cero.Pgina 12

Estadstica Inferencial I Unidad 4Para cada intervalo pi = 1/8 = 0.125, por lo que las frecuencias esperadas de las celdas son Ei = npi = 100(0.125) = 12.5. La tabla completa de las frecuencias observadas y las esperadas se presenta a continuacin: Intervalo de clase x < 4.948 4.948 x < 4.986 4.986 x < 5.014 5.014 x < 5.040 5.040 x < 5.066 5.066 x < 5.094 5.094 x < 5.132 5.132 x Totales frecuencia observada Oi 12 14 12 13 12 11 12 14 100 frecuencia observada Ei 12.5 12.5 12.5 12.5 12.5 12.5 12.5 12.5 100

La cota del primer intervalo de clase es x 1.15s = 4.948. Para el segundo intervalo de clase es [x 1.15s, x 0.675s), y as sucesivamente. Puede aplicarse el procedimiento de prueba de hiptesis de ocho pasos en este problema. 1. La variable de inters es la forma de la distribucin del voltaje de la fuente de poder. 2. H0: la forma de la distribucin es normal. 3. H1: la forma de la distribucin no es normal. 4. = 0.05 5. el estadstico de la prueba es:

(

)

6. puesto que se estimaron dos parmetros de la distribucin normal, el estadstico ji-cuadrada anterior tiene k-p-1 = 8-2-1 = 5 grados de libertad. Por lo tanto, se rechazar H0 si7. clculos Pgina 13

>

= 11.07

Estadstica Inferencial I Unidad 4( )

(

)

(

)

(

)

8. conclusiones: puesto que

= 0.64 = 5.99

7. clculos ( )

(

) (

( )

) (

( )

)

(

)

8. conclusiones: puesto que

= 49.63 >

, se rechazar la

hiptesis de independencia y se concluye que la preferencia por los planes de pensiones no es independiente de la clasificacin laboral. El valor P para = 49.63 es P = 1.671 x 10-11.

Pgina 18

Estadstica Inferencial I Unidad 44.1.5 SOFTWARE ESTADSTICO Los mtodos estadsticos cambiaron con la aparicin de los ordenadores. Desde sus orgenes, las computadoras se han empleado en el procedimiento estadstico de datos. El procesamiento estadstico es una necesidad muy frecuente en diversas reas. Dada esta estandarizacin de necesidades se han elaborado paquetes estadstico que difieren entre si en los aspectos de capacidad, facilidad de uso, subprogramas incorporados, computadoras en las que se pueden ejecutar, apoyo (documentacin) y precio. Dentro del grupo de paquetes estadsticos mundialmente conocidos, podemos destacar, adems de STARTGRAPHICS los siguientes: SAS (Statistical Analysis System): Sistema para el anlisis estadstico y economtrico con gran potencia de manejo de volmenes extensos de datos. SPSS (Statistical Packge for the Social Sciencies): Se trata de un paquete especial diseado para cubrir la mayor parte de las necesidades del proceso estadstico que suelen plantearse en las necesidades del proceso estadstico que suelen plantearse en la realizacin de investigaciones y estudios de tipo emprico en el campo de las ciencias sociales y humanas. SYSTAT (the SYstem for STATistics): Es un potente paquete estadstico, susceptible de ser implementado incluso en microordenadores de pequea capacidad. Viene avalado por una merecida fama de programa eficiente y de fcil uso. TSP (Time Series Processor): como su nombre indica, sirve para el procesamiento de series de tiempo; sin embargo, tambin tiene rutinas de procesamiento de regresin muy poderosas y toca una gran parte de los temas econmicos SCA (Scientific Computing Associates): se trata de un paquete estadstico que aborda la mayora de los temas elevados de esta disciplina, con especial hincapi en el anlisis de series temporales.

Pgina 19

Estadstica Inferencial I Unidad 4Existen muchos otros paquetes, como LISREL, SPAD, STATPACH, MINITAB, LISA, OSIRIS, ABSTAT y otros ms, que con ms o menos profundidad tocan la mayor parte de las materias estadsticas. Por otro lado encontramos otra herramienta que se utiliza para realizar clculos estadsticos. La Hoja de Clculo Excel/Calc puede convertirse en una poderosa herramienta para crear entornos de aprendizaje que enriquezcan la representacin (modelado), comprensin y solucin de problemas, en el rea de la estadstica y probabilidad. Excel ofrece funcionalidades que van ms all de la tabulacin, clculo de frmulas y Graficacin de datos: En inferencia estadstica calcula los intervalos de confianza, el tamao de la muestra y se puede aplicar al contraste de hiptesis, tanto en el bilateral como en el unilateral. La instalacin del programa es muy sencilla, adems Microsoft Excel incluye un comando para el anlisis de datos, dentro de las "herramientas para el anlisis", su uso es poco comn, ya que no se tiene cuidado de instalar todas las funciones dentro de las "herramientas", perdiendo la oportunidad de utilizar un medio poderoso para el estudio dentro de la estadstica.

Pgina 20

Estadstica Inferencial I Unidad 44.2 PRUEBA NO PARAMETRICA La mayor parte de los procedimientos de prueba de hiptesis que se presentan en las unidades anteriores se basan en la suposicin de que las muestras aleatorias se seleccionan de poblaciones normales. Afortunadamente, la mayor parte de estas pruebas an son confiables cuando experimentamos ligeras desviaciones de la normalidad, en particular cuando el tamao de la muestra es grande. Tradicionalmente, estos procedimientos de prueba se denominan mtodos paramtricos. En esta seccin se consideran varios procedimientos de prueba alternativos, llamados no paramtricos mtodos de distribucin libre, que a menudo no suponen conocimiento de ninguna clase acerca de las distribuciones de las poblaciones fundamentales, excepto que stas son continuas. Los procedimientos no paramtricos o de distribucin libre se usan con mayor frecuencia por los analistas de datos. Existen muchas aplicaciones en la ciencia y la ingeniera donde los datos se reportan no como valores de un continuo sino ms bien en una escala ordinal tal que es bastante natural asignar rangos a los datos. Se debe sealar que hay desventajas asociadas con las pruebas no paramtricas. En primer lugar no utilizan la informacin que proporciona la muestra, y por ello una prueba no paramtrica ser menos eficiente que el procedimiento paramtrico correspondiente, cuando se pueden aplicar ambos mtodos. En consecuencia, para lograr la misma eficiencia, una prueba no paramtrica requerir la correspondiente prueba paramtrica. Como se indic anteriormente, ligeras divergencias de la normalidad tienen como resultado desviaciones menores del ideal para las pruebas paramtricas estndar.

Pgina 21

Estadstica Inferencial I Unidad 4EJEMPLO.Dos jueces deben clasificar cinco marcas de cerveza de mucha demanda mediante la asignacin de un grado de 1 a la marca que se considera que tiene la mejor calidad global, un grado 2 a la segunda mejor, etctera. Se puede utilizar entonces una prueba no paramtrica para determinar donde existe algn acuerdo entre los dos jueces. Se debe sealar que hay varias desventajas asociadas con las pruebas no paramtricas. En primer lugar, no utilizan la informacin que proporciona la muestra, y por ello una prueba no paramtrica ser menos eficiente que el procedimiento paramtrico correspondiente, cuando se pueden aplicar ambos mtodos. En consecuencia, para lograr la misma potencia, una prueba no paramtrica requerir la correspondiente prueba no paramtrica. Como se indic antes, ligeras divergencias de la normalidad tienen como resultado desviaciones menores del ideal para las pruebas paramtricas estndar. Esto es cierto en particular para la prueba t y la prueba F. En el caso de la prueba t y la prueba F, el valor P citado puede ser ligeramente errneo si existe una violacin moderada de la suposicin de normalidad. En resumen, si se puede aplicar una prueba paramtrica y una no paramtrica al mismo conjunto de datos, debemos aplicar la tcnica paramtrica ms eficiente. Sin embargo, se debe reconocer que las suposiciones de normalidad a menudo no se pueden justificar, y que no siempre se tienen mediciones cuantitativas.

Pgina 22

Estadstica Inferencial I Unidad 44.2.1 ESCALA DE MEDICION Definicin de escala Cualquier recurso para determinar la magnitud o cantidad de un objeto o hecho de cualquier clase; instrumento para asignar un nmero o guarismo que indicar cunto hay de algo; un recurso de medicin que provee un conjunto de normas (numeradas de acuerdo con ciertas reglas de trabajo) con las que se puede comparar el objeto que ser medido, para asignarle un nmero o valor matemtico que represente su magnitud. El trmino es de amplia aplicacin: una escala de alguna clase est incluida en toda medicin o estimacin. Implcito en cada caso hay un conjunto de reglas para asignar nmeros o valores: son estas reglas las que dan significado a las cantidades. Los objetos pueden ser perceptuales o conceptuales. La escala de medida de una caracterstica tiene consecuencias en la manera de presentacin de la informacin y el resumen. La escala de medicin-grado de precisin de la medida de la caracterstica tambin determina los mtodos estadsticos que se usan para analizar los datos. Por lo tanto, es importante definir las caractersticas por medir. Las escalas de medicin ms frecuentes son las siguientes: Escala Nominal.- No poseen propiedades cuantitativas y sirven nicamente para identificar las clases. Los datos empleados con las escalas nominales constan generalmente de la frecuencia de los valores o de la tabulacin de nmero de casos en cada clase, segn la variable que se est estudiando. El nivel nominal permite mencionar similitudes y diferencias entre los casos particulares. Los datos evaluados en una escala nominal se llaman tambin "observaciones cualitativas", debido a que describen la calidad de una persona o cosa estudiada, u "observaciones categricas" porque los valores se agrupan en categoras. Por lo regular, los datos nominales o cualitativos se describen en trminos de porcentaje o proporciones. Para exhibir este tipo de informacin se usan con mayor frecuencia tablas de contingencia y grficas de barras.Pgina 23

Estadstica Inferencial I Unidad 4Escala Ordinal.- Las clases en las escalas ordinales no solo se diferencian unas de otras (caracterstica que define a las escalas nominales) sino que mantiene una especie de relacin entre s. Tambin permite asignar un lugar especfico a cada objeto de un mismo conjunto, de acuerdo con la intensidad, fuerza, etc.; presentes en el momento de la medicin. Una caracterstica importante de la escala ordinal es el hecho de que, aunque hay orden entre las categoras, la diferencia entre dos categoras adyacentes no es la misma en toda la extensin de la escala. Algunas escalas consisten en calificaciones de mltiples factores que se agregan despus para llegar a un ndice general.

Debe mencionarse brevemente una clase espacial de escala ordinal llamada "escala de posicin", donde las observaciones se clasifican de mayor a menor (o viceversa). Al igual que en las escalas nominales, se emplean a menudo porcentajes y proporciones en escalas ordinales. Escala de Intervalo.- Refleja distancias equivalentes entre los objetos y en la propia escala. Es decir, el uso de sta escala permite indicar exactamente la separacin entre 2 puntos, lo cual, de acuerdo al principio de isomorfismos, se traduce en la certeza de que los objetos as medidos estn igualmente separados a la distancia o magnitud expresada en la escala. Escala de Razn.- Constituye el nivel ptimo de medicin, posee un cero verdadero como origen, tambin denominada escala de proporciones. La existencia de un cero, natural y absoluto, significa la posibilidad de que el objeto estudiado carezca de propiedad medida, adems de permitir todas las operaciones aritmticas y el uso de nmeros representada cantidades reales de la propiedad medida.

Con esto notamos que esta escala no puede ser usada en los fenmenos psicolgicos, pues no se puede hablar de cero inteligencia o cero aprendizaje, etc.

Pgina 24

Estadstica Inferencial I Unidad 44.2.2 METODOS ESTADSTICOS CONTRA NO PARAMETRICOS 1.- EL CASO DE DOS MUESTRAS: Las pruebas estadsticas de dos muestras se usan criando el investigador desea establecer la diferencia entre chis tratamientos o si un tratamiento es mejor que otro. Por ejemplo adiestramiento, uso de psicofrmaco, en cada caso el grupo que ha sufrido el tratamiento es comparado con el que no lo ha experimentado o que ha sufrido un tratamiento diferente. En la comparacin de estos grupos, a veces se observan diferencias significativas que no son el resultado del tratamiento, por ejemplo, en el estudio de los trabajadores que se someten a un entrenamiento diferente para determinar cul es el mejor para elevar su calificacin, puede ser que la diferencia no se deba, realmente, a uno u otra tratamiento, sino que uno de los grupos estaba ms motivado por elevar rpidamente su calificacin y, de esta forma, no se refleja verdaderamente la efectividad del procedimiento de enseanza. Una forma de eliminar esta dificultad, es usar MUESTRAS RELACIONADAS estas se pueden lograr: Cuando el propio sujeto es su propio control. Con parejas de sujetos en las que se asignan los miembros de cada pareja, a las dos condiciones. La tcnica paramtrica usual para analizar datos provenientes de dos muestras relacionadas es aplicar la prueba t a los puntajes, estos se pueden obtener de los dos puntajes de cada pareja igualada o de los puntajes de cada sujeto bajo las dos condiciones. stas pruebas determinan la medida en dije las diferencias de las muestras indican, de forma convincente, una diferencia en el proceso aplicado en ellos. En el caso de dos MUESTRAS INDEPENDIENTES, ellas pueden obtenerse: Tomando al azar sujetos de dos poblaciones. Asignando al azar ambos tratamientos a miembros de algunas muestras de orgenes arbitrarios. No es necesario que la muestra sea del mismo tamao. En este caso, la prueba t es la tcnica paramtrica indicada para analizar los datos de las dos muestras independientes.Pgina 25

Estadstica Inferencial I Unidad 4Los mtodos estadsticos no paramtricos adecuados para estos casos, son:

2.-EL CASO DE K MUESTRA: Hasta aqu hemos visto las pruebas estadsticas idneas para probar la significacin de las diferencias. Entre una sola muestra y una poblacin determinada. Entre dos muestras relacionadas o independientes. Ahora veremos las pruebas que determinan la significacin de las diferencias entre 3 o ms grupos, relacionados o independientes. A veces las circunstancias requieren de diseos experimentales de ms de dos muestras o condiciones que puedan estudiarse simultneamente y entonces es necesario usar una prueba estadstica que indique si existe una diferencia total entre las k muestras o condiciones, ya que no es posible tener confianza en una decisin acerca de k muestras, en la que el anlisis se haga probando las muestras, 2 a 2.La tcnica paramtrica para probar si varias muestras proceden de una misma poblacin, es el anlisis de varianza o prueba F. La misma facilita que no haya prdida de precisin al estimar la varianza por separado, pues se utiliza una varianza combinada.

Pgina 26

Estadstica Inferencial I Unidad 4En el caso no paramtrico, tenemos:

Pgina 27

Estadstica Inferencial I Unidad 4

EJEMPLO: Una compaa de taxis trata de decidir si el uso de llantas radiales en lugar de llantas regulares con cinturn mejora la economa de combustible.se equipan 16 automviles con llantas radiales y se manejan por un recorrido de prueba establecido. Sin cambiar de conductores, se equipan los mismos autos con las llantas regulares con cinturn y se manejan una vez ms por el recorrido de prueba.se registra el consumo de gasolina, en kilmetros por litro, de la siguiente manera:

Automvil 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Llantas radiales 4.2 4.7 6.6 7.0 6.7 4.5 5.7 6.0 7.4 4.9 6.1 5.2 5.7 6.9 6.8 4.9

llantas con cinturn 4.1 4.9 6.2 6.9 6.8 4.4 5.7 5.8 6.9 4.9 6.0 4.9 5.3 6.5 7.1 4.8

Podemos concluir en el nivel de significancia de 0.05 que los autos equipados con llantas radiales obtienen mejores economas de combustible que los equipados con llantas regulares con cinturn?

Pgina 28

Estadstica Inferencial I Unidad 4Solucin: representemos con

1 y 2 los kilmetros por litro promedio

para los autos equipados con llantas radiales y con cinturn, respectivamente. 1. H: 12.

2= 0

H1: 1- 2 > 0

3. = 0.05 4. Estadstica de prueba : variable binomial x con p= 5. Clculos: despus de reemplazar cada diferencia positiva con un smbolo + `` y cada diferencia negativa con un smbolo "-, y despus descartar las dos diferencias cero ,obtenemos la secuencia + - + - + - + - + - + - + - + - + -+ - + Para la que n= 14 y x =11. Con el uso de la aproximacin de la curva normal, encontramos que

Z= 10.5 7 = 1.87

14/2Y entonces P= P(X 11) P ( Z>1.87)= 0.0307 6. DECISION: rechazar Ho y concluir que, en promedio, las llantas radiales mejoran la economa de combustible.

Pgina 29

Estadstica Inferencial I Unidad 44.2.3 PRUEBA DE KOLMOGOROV SMIRNOVRecurdese que para aplicar la prueba de bondad de ajuste chi-cuadrada cuando el modelo propuesto bajo es continuo, es necesario aproximar ( ) mediante

el agrupamiento de los datos observados en un nmero finito de intervalos de clase. Este requisito de agrupar los datos implica tener una muestra ms o menos grande. De esta manera, la prueba de bondad de ajuste chi-cuadrada se encuentra limitada cuando ( ) es continua y la muestra aleatoria disponible

tiene un tamao pequeo. Una prueba de bondad de ajuste ms apropiada que la chi-cuadrada cuando Kolmogorov Smirnov. La prueba de Kolmogorov Smirnov no necesita que los datos se encuentren agrupados y es aplicable a muestras de tamao pequeo. sta se basa en una comparacin entre las funciones de distribucin acumulativa que se observa en la muestra ordenada y la distribucin propuesta bajo la hiptesis nula. Si esta comparacin revela una diferencia suficientemente grande entre las funciones de distribucin muestral y propuesta, entonces la hiptesis nula de que la distribucin es ( ), se rechaza. ( )( ) ( )

( ) es continua, es la basad en la estadstica de

Considrese la hiptesis nula por en forma completa. Dentese por

( ), en donde( )

( ) se especifica

a las observaciones ordenadas

de una muestra aleatoria de tamao acumulativa muestral como

y defnase la funcin de distribucin

( )

( )

{

( )

(

)

En otras palabras, para cualquier valor ordenado

de la muestra aleatoria,

( )

es la proporcin del nmero de valores en la muestra que son iguales o menores a . Ya que ( ) se encuentra completamente especificada, es posible evaluar a ( ). Si la hiptesis nula es verdadera, entonces es lgicoPgina 30

( ) para algn valor deseado de , y entonces compara este ltimo con el valor correspondiente de

Estadstica Inferencial I Unidad 4esperar que la diferencia sea relativamente pequea. La estadstica de Kolmogorov Smirnov se define como

|La estadstica

( )

( )|.

tiene una distribucin que es independiente del modelo es una estadstica

propuesto bajo la hiptesis nula. Por esta razn, se dice

independiente de la distribucin. Lo anterior da como resultado que la funcin de distribucin para cualquier ( ). En la tabla J del apndice, se proporcionan los para varios valores de la muestra. El lector debe que se encuentran en la parte inferior de la mayores de

valores cuantiles superiores de

notar que los valores asintticos de

tabla proporcionan una adecuada aproximacin para los valores de 50. Para un tamao del error de tipo i, la regin crtica es de la forma

(

)se rechaza si para algn valor

De acuerdo con lo anterior, la hiptesis observado del valor

se encuentra dentro de la regin crtica de tamao

Como se hizo anteriormente, la estadstica de Kolmogorov Smirnov es, en general, superior a la prueba de bondad de ajuste chi cuadrada cuando los datos involucran una variable aleatoria continua, debido a que no es necesario agrupar los datos. Adems, la prueba de Kolmogorov Smirnov tiene la atractiva propiedad de ser aplicable a muestras de tamao pequeo. Por otro lado, la estadstica se encuentra limitada, ya que el modelo propuesto bajo debe especificarse en forma completa. La estadstica de Kolmogorov Smirnov no se aplica a todos aquellos casos para los que as observaciones no son inherentemente cuantitativas a consecuencia de las ambigedades que pueden surgir cuando se ordenan las observaciones.Pgina 31

Estadstica Inferencial I Unidad 44.2.4 PRUEBA DE ANDERSON-DARLING. Esta prueba compara la funcin de distribucin acumulada emprica de los datos de su muestra con la distribucin esperada si los datos son normales. Si esta diferencia observada es suficientemente grande, la prueba rechazar la hiptesis nula de normalidad en la poblacin. En estadstica, la prueba de Anderson-Darling es una prueba no paramtrica sobre si los datos de una muestra provienen de una distribucin especfica. La frmula para el estadstico A determina si los datos (observar

que los datos se deben ordenar) vienen de una distribucin con funcin acumulativa F A2 = N S Donde:

El estadstico de la prueba se puede entonces comparar contra las distribuciones del estadstico de prueba (dependiendo que F se utiliza) para determinar el P-valor.

Pgina 32

Estadstica Inferencial I Unidad 44.2.5 PRUEBA DE RYAN-JOINER Esta prueba evala la normalidad calculando la correlacin entre sus datos y las puntuaciones normales de sus datos. Si el coeficiente de correlacin se encuentra cerca de 1, es probable que la poblacin sea normal. La estadstica de Ryan-Joiner evala la solidez de esta correlacin; si se encuentra por debajo del valor crtico apropiado, se rechazar la hiptesis nulaH0

de normalidad en la poblacin. Esta prueba es similar a la prueba de normalidad de Shapiro-Wilk.

Pgina 33

Estadstica Inferencial I Unidad 44.2.6 PRUEBA DE SHAPPIRO WILK En estadstica, la prueba de ShappiroWilk, se usa para contrastar la normalidad de un conjunto de datos. Se plantea como hiptesis nula que una muestra X1,..., Xn proviene de una poblacin normalmente distribuida. Se considera uno de las pruebas ms potentes para el contraste de normalidad, sobre todo para muestras pequeas (n