Variable CuantitativaTRABAJO en CD

download Variable CuantitativaTRABAJO en CD

of 41

description

definiciones importantes de las variables cuantitativas

Transcript of Variable CuantitativaTRABAJO en CD

Variable cuantitativa: la variable se puede registrar numricamente

Variable cuantitativa: la variable se puede registrar numricamente.EJEMPLO: saldo en una cuenta de cheques, minutos que faltan para que termine la clase, nmero de nios en una familia.

Definicin de Estadstica

La Estadstica trata del recuento, ordenacin y clasificacin de los datos obtenidos por las observaciones, para poder hacer comparaciones y sacar conclusiones.

Conceptos de Estadstica

Poblacin

Una poblacin es el conjunto de todos los elementos a los que se somete a un estudio estadstico.

Individuo

Un individuo o unidad estadstica es cada uno de los elementos que componen la poblacin.

Muestra

Una muestra es un conjunto representativo de la poblacin de referencia, el nmero de individuos de una muestra es menor que el de la poblacin.

Muestreo

El muestreo es la reunin de datos que se desea estudiar, obtenidos de una proporcin reducida y representativa de la poblacin.

Valor

Un valor es cada uno de los distintos resultados que se pueden obtener en un estudio estadstico. Si lanzamos una moneda al aire 5 veces obtenemos dos valores: cara y cruz.

Dato

Un dato es cada uno de los valores que se ha obtenido al realizar un estudio estadstico. Si lanzamos una moneda al aire 5 veces obtenemos 5 datos: cara, cara, cruz, cara, cruz.

Variables estadsticas

Variable cualitativa

Las variables cualitativas se refieren a caractersticas o cualidades que no pueden ser medidas con nmeros. Podemos distinguir dos tipos:

Variable cualitativa nominal

Una variable cualitativa nominal presenta modalidades no numricas que no admiten un criterio de orden.

Variable cualitativa ordinal o variable cuasicuantitativa

Una variable cualitativa ordinal presenta modalidades no nmericas, en las que existe un orden.

Variable cuantitativa

Una variable cuantitativa es la que se expresa mediante un nmero, por tanto se pueden realizar operaciones aritmticas con ella. Podemos distinguir dos tipos:

Variable discreta

Una variable discreta es aquella que toma valores aislados, es decir no admite valores intermedios entre dos valores especficos.

Variable continua

Una variable continua es aquella que puede tomar valores comprendidos entre dos nmeros.

Distribucin de frecuencias

La distribucin de frecuencias o tabla de frecuencias es una ordenacin en forma de tabla de los datos estadsticos, asignando a cada dato su frecuencia correspondiente.

Diagrama de barras

Un diagrama de barras se utiliza para de presentar datos cualitativos o datos cuantitativos de tipo discreto.

Los datos se representan mediante barras de una altura proporcional a la frecuencia.

Polgonos de frecuencias

Un polgono de frecuencias se forma uniendo los extremos de las barras mediante segmentos.

Tambin se puede realizar trazando los puntos que representan las frecuencias y unindolos mediante segmentos.

Diagrama de sectores

Un diagrama de sectores se puede utilizar para todo tipo de variables, pero se usa frecuentemente para las variables cualitativas.

Los datos se representan en un crculo, de modo que el ngulo de cada sector es proporcional a la frecuencia absoluta correspondiente.

Histograma

Un histograma es una representacin grfica de una variable en forma de barras.

Se utilizan para variables continuas o para variables discretas, con un gran nmero de datos, y que se han agrupado en clases.

En el eje abscisas se construyen unos rectngulos que tienen por base la amplitud del intervalo, y por altura, la frecuencia absoluta de cada intervalo.

Medidas de centralizacin

Moda

La moda es el valor que tiene mayor frecuencia absoluta.

Se representa por Mo.Se puede hallar la moda para variables cualitativas y cuantitativas.

Clculo de la moda para datos agrupados

1 Todos los intervalos tienen la misma amplitud.

2 Los intervalos tienen amplitudes distintas.

En primer lugar tenemos que hallar las alturas.

La clase modal es la que tiene mayor altura.

Mediana

Es el valor que ocupa el lugar central de todos los datos cuando stos estn ordenados de menor a mayor.

La mediana se representa por Me.La mediana se puede hallar slo para variables cuantitativas.

Clculo de la mediana

1 Ordenamos los datos de menor a mayor.

2 Si la serie tiene un nmero impar de medidas la mediana es la puntuacin central de la misma.

3 Si la serie tiene un nmero par de puntuaciones la mediana es la media entre las dos puntuaciones centrales.

Clculo de la mediana para datos agrupados

La mediana se encuentra en el intervalo donde la frecuencia acumulada llega hasta la mitad de la suma de las frecuencias absolutas.

Es decir tenemos que buscar el intervalo en el que se encuentre .

Media aritmtica

La media aritmtica es el valor obtenido al sumar todos los datos y dividir el resultado entre el nmero total de datos.

es el smbolo de la media aritmtica.

Media aritmtica para datos agrupados

Si los datos vienen agrupados en una tabla de frecuencias, la expresin de la media es:

Medidas de posicin

Cuartiles

Los cuartiles son los tres valores de la variable dividen a un conjunto de datos ordenados en cuatro partes iguales.

Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75% de los datos.

Deciles

Los deciles son los nueve valores que dividen la serie de datos en diez partes iguales.

Los deciles dan los valores correspondientes al 10%, al 20%... y al 90% de los datos.

Percentiles

Los percentiles son los 99 valores que dividen la serie de datos en 100 partes iguales.

Los percentiles dan los valores correspondientes al 1%, al 2%... y al 99% de los datos.

Medidas de dispersin

Desviacin media

La desviacin media es la media aritmtica de los valores absolutos de las desviaciones respecto a la media.

La desviacin media se representa por

Desviacin media para datos agrupados

Si los datos vienen agrupados en una tabla de frecuencias, la expresin de la desviacin media es:

Varianza

La desviacin tpica es la raz cuadrada de la varianza.

La desviacin tpica se representa por .

INCLUDEPICTURE "http://www.vitutor.com/estadistica/descriptiva/images/31.gif" \* MERGEFORMATINET Desviacin tpica para datos agrupados

INCLUDEPICTURE "http://www.vitutor.com/estadistica/descriptiva/images/30.gif" \* MERGEFORMATINET Para simplificar el clculo vamos o utilizar las siguientes expresiones que son equivalentes a las anteriores.

INCLUDEPICTURE "http://www.vitutor.com/estadistica/descriptiva/images/36.gif" \* MERGEFORMATINET Desviacin tpica para datos agrupados

INCLUDEPICTURE "http://www.vitutor.com/estadistica/descriptiva/images/40.gif" \* MERGEFORMATINET Desviacin tpica

La desviacin tpica es la raz cuadrada de la varianza.

La desviacin tpica se representa por .

INCLUDEPICTURE "http://www.vitutor.com/estadistica/descriptiva/images/31.gif" \* MERGEFORMATINET Desviacin tpica para datos agrupados

INCLUDEPICTURE "http://www.vitutor.com/estadistica/descriptiva/images/30.gif" \* MERGEFORMATINET Para simplificar el clculo vamos o utilizar las siguientes expresiones que son equivalentes a las anteriores.

INCLUDEPICTURE "http://www.vitutor.com/estadistica/descriptiva/images/36.gif" \* MERGEFORMATINET Desviacin tpica para datos agrupados

INCLUDEPICTURE "http://www.vitutor.com/estadistica/descriptiva/images/40.gif" \* MERGEFORMATINET Coeficiente de variacin

El coeficiente de variacin es la relacin entre la desviacin tpica de una muestra y su media.

Puntuaciones tpicas

Las puntuaciones tpicas son el resultado de dividir las puntuaciones diferenciales entre la desviacin tpica. Este proceso se llama tipificacin.

DIAGRAMA DE DISPERSIN

La representacin grfica ms til para describir el comportamiento conjunto de dos variables es el diagrama de dispersin o nube de puntos, donde cada caso aparece representado como un punto en el plano definido por las variables y Para obtener un diagrama de dispersin la secuencia es:

GrficosDispersinEl cuadro de dilogo siguiente:

recoge diferentes tipos de diagramas de dispersin. stos pueden ser:

1. Simple: si el diagrama slo recoge el comportamiento simultneo de dos variables, una definida en el eje X (abscisas) y la otra en el eje Y (ordenadas). Con el botn Definir se abre el siguiente cuadro:

En Eje X se selecciona la variable que se considera independiente y en Eje Y la dependiente.

En Establecer marcas por puede indicarse alguna variable de control cuyas categoras o valores se representan con un smbolo o color distintivo. Esto permite identificar los puntos pertenecientes a cada categora y poner de manifiesto si existen comportamientos diferenciados.

En Etiquetar los casos mediante se puede indicar alguna variable cuyos valores se tomarn como etiquetas de los casos. Para visualizar las etiquetas es preciso activar la opcin Mostrar el grfico con las etiquetas de caso del cuadro de dilogo Opciones.

El botn Ttulos ofrece la posibilidad de definir dos lneas de ttulo y un subttulo, y dos lneas de nota al pie del grfico.

2. Superpuestos: presenta dos o ms parejas de variables en un mismo grfico.

En Pares Y-X se indican las parejas de variables a representar seleccionndolas de dos en dos en la lista de variables. Si se quiere intercambiar X por Y se utiliza el botn Intercambiar par.

Etiquetar los casos mediante tiene la misma funcin que en el diagrama simple.

Los botones Titulos y Opciones ofrecen las mismas posibilidades ya vistas para el diagrama de dispersin simple.

3. Matricial: ofrece una matriz de diagramas de dispersin simples de todos los pares y todas las ordenaciones posibles que se pueden formar con las variables seleccionadas. En el cuadro de dilogo que aparece con el botn Definir se deben seleccionar las variables cuyos diagramas de dispersin simples aparecern en la matriz.

4. 3-D: proporciona en tres dimensiones el diagrama de dispersin de tres variables.

Si el diagrama de dispersin es Simple o Superpuesto se puede visualizar con la recta que mejor se ajusta a la nube de puntos. Para ello se edita el grfico en el visor de resultados haciendo doble clic sobre el mismo.

En la barra de men del editor de grficos se activa Diseo > Opciones y se abre el cuadro de dilogo:

Se selecciona Ajustar lnea > Total. En Opciones de ajuste se puede elegir el mtodo de ajuste deseado entre: Regresin lineal (activado por defecto), Regresin cuadrtica, Regresin cbica y Minsce. Tambin es posible incluir en el diagrama de dispersin una lnea paralela al eje de abscisas que pasa por la media de la variable Y con la opcin Lnea de referencia para la media en Y > Total.Cuando el diagrama recoge un gran nmero de observaciones algunos puntos representan a ms de un caso ya que estos se superponen . Con la opcin Girasoles > Mostrar girasoles cada punto aparece con tantas rayas o 'ptalos' como casos representa. sta es una forma grfica de indicar cuantos casos estn representados por un punto.

EJEMPLOSCon referencia a las variables Peso y Est (estatura) del archivo Encinf.sav comprobar grfica y analticamente la existencia de una relacin lineal entre ellas.1. La representacin grfica que permite comprobar la existencia de relacin lineal entre dos variables es el diagrama de dispersin y la medida analtica adecuada es el coeficiente de correlacin lineal.

Con la secuencia Grficos > Dispersin > Simple > Definir se abre el cuadro de dilogo Diagrama de dispersion simple. Se seleccionan en el Eje Y la variable Peso y en el Eje X la variable Est, y se obtiene el siguiente grfico:

Como se observa en el grfico ambas variables presentan una relacin lineal positiva; es decir, a medida que aumenta el valor de la variable Est aumenta tambin el valor de la variable Peso.

Si se desea ver la nube de puntos con la lnea de mejor ajuste superpuesta, y que los casos iguales o muy prximos entre si queden representados por un slo punto, se edita el grfico haciendo doble clic sobre el mismo. En el editor de grficos se selecciona Diseo > Opciones y en el cuadro Opciones del diagrama de dispersin se activa Mostrar girasoles y Ajustar lnea > Total.

Para cuantificar el grado de asociacin lineal entre las variables la medida adecuada es el coeficiente de correlacin lineal de Pearson. Con la secuencia Analizar > Correlaciones > Bivariadas se abre un cuadro de dilogo donde se seleccionan las variables Peso y Est, y con las opciones Coeficiente de correlacin > Pearson se obtiene la siguiente matriz de correlaciones.

El valor de r=0,883 es positivo y elevado, as como significativo para cualquier nivel, con lo cual se confirma la impresinproporcionada por el grfico acerca de la existencia de asociacin lineal entre las variables.Medidas de tendencia central

En este climograma las lneas roja, verde y azul representan a las temperaturas de todo el mes a travs de su promedio.

Al describir grupos de observaciones, con frecuencia es conveniente resumir la informacin con un solo nmero. Este nmero que, para tal fin, suele situarse hacia el centro de la distribucin de datos se denomina medida o parmetro de tendencia central o de centralizacin.

Cuando se hace referencia nicamente a la posicin de estos parmetros dentro de la distribucin, independientemente de que esta est ms o menos centrada, se habla de estas medidas como medidas de posicin.[1] En este caso se incluyen tambin los cuantiles entre estas medidas.

Entre las medidas de tendencia central tenemos:

Media aritmtica.

Media ponderada.

Media geomtrica.

Media armnica.

Mediana.

Moda.

La media aritmtica

Artculo principal: Media aritmticaLa media aritmtica es el valor obtenido sumando todas las observaciones y dividiendo el total por el nmero de observaciones que hay en el grupo.

La media resume en un valor las caractersticas de una variable teniendo en cuenta a todos los casos. Solamente puede utilizarse con variables cuantitativas.

Ejemplo:

Notas de 5 alumnos en una prueba:

Alumno Nota

1 6.0 entonces se suman las Notas:

2 5.4 6.0+5.4+3.1+7.0+6.1=27.6

3 3.1 Luego el total se divide entre la cantidad de alumnos:

4 7.0 27.6/5=5.52

5 6.1 LA MEDIA ARITMTICA EN ESTE PROBLEMA SERA 5.52

La estatura media como resumen de una poblacin homognea (abajo) o heterognea (arriba).

La media aritmtica es, probablemente, uno de los parmetros estadsticos ms extendidos.[2] Se le llama tambin promedio o, simplemente, media.

Definicin formal

Dado un conjunto numrico de datos, x1, x2, ..., xn, se define su media aritmtica como

Esta definicin vara, aunque no sustancialmente, cuando se trata de variables continuas, esto es, tambin puede calcularse para variables agrupadas en intervalos.

Propiedades

Las principales propiedades de la media aritmtica son:[3] Su clculo es muy sencillo y en l intervienen todos los datos.

Su valor es nico para una serie de datos dada.

Se usa con frecuencia para comparar poblaciones, aunque es ms apropiado acompaarla de una medida de dispersin.

Se interpreta como "punto de equilibrio" o "centro de masas" del conjunto de datos, ya que tiene la propiedad de equilibrar las desviaciones de los datos respecto de su propio valor:

Minimiza las desviaciones cuadrticas de los datos respecto de cualquier valor prefijado, esto es, el valor de es mnimo cuando . Este resultado se conoce como Teorema de Knig. Esta propiedad permite interpretar uno de los parmetros de dispersin ms importantes: la varianza.

Se ve afectada por transformaciones afines (cambios de origen y escala), esto es, si

xi' = axi + b entonces , donde es la media aritmtica de los xi', para i = 1, ..., n y a y b nmeros reales.

Es poco sensible a fluctuaciones muestrales, por lo que es un parmetro muy til en inferencia estadstica.

Inconvenientes de su uso]Este parmetro, an teniendo mltiples propiedades que aconsejan su uso en situaciones muy diversas, tiene tambin algunos inconvenientes, como son:

Para datos agrupados en intervalos (variables continuas) su valor oscila en funcin de la cantidad y amplitud de los intervalos que se consideren.

Es una medida a cuyo significado afecta sobremanera la dispersin, de modo que cuanto menos homogneos son los datos, menos informacin proporciona. Dicho de otro modo, poblaciones muy distintas en su composicin pueden tener la misma media.[4] Por ejemplo, un equipo de baloncesto con cinco jugadores de igual estatura, 1,95, pongamos por caso, tendra una estatura media de 1,95, evidentemente, valor que representa fielmente a esta homognea poblacin. Si embargo, un equipo de estaturas ms heterogneas, 2,20, 2,15, 1,95, 1,75 y 1,70, por ejemplo, tendra tambin, como puede comprobarse, una estatura media de 1,95, valor que no representa a casi ninguno de sus componentes.

En el clculo de la media no todos los valores contribuyen de la mima manera. Los valores altos tienen ms peso que los valores cercanos a cero. Por ejemplo, en el clculo del salario medio de un empresa, el salario de un alto directivo que gane 1.000.000 de tiene tanto peso como el de diez empleados "normales" que ganen 1.000 . En otras palabras, se ve muy afectada por valores extremos.

No se puede determinar si en una distribucin de frecuencias hay intervalos de clase abiertos.

Media aritmtica ponderada

A veces puede ser til otorgar pesos o valores a los datos dependiendo de su relevancia para determinado estudio. En esos casos se puede utilizar una media ponderada.

Si x1,x2,...,xn son nuestros datos y w1,w2,...,wn son sus "pesos" respectivos, la media ponderada se define de la siguiente forma:

Media muestral

Esencialmente, la media muestral es el mismo parmetro que el anterior, aunque el adjetivo "muestral" se aplica a aquellas situaciones en las que la media aritmtica se calcula para un subconjunto de la poblacin objeto de estudio.

La media muestral es un parmetro de extrema importancia en la inferencia estadstica, siendo de gran utilidad para la estimacin de la media poblacional, entre otros usos.

Moda

Artculo principal: Moda (estadstica)La moda es el dato ms repetido, el valor de la variable con mayor frecuencia absoluta.[5] En cierto sentido se corresponde su definicin matemtica con la locucin "estar de moda", esto es, ser lo que ms se lleva.

Su clculo es extremadamente sencillo, pues slo necesita de un recuento. En variables continuas, expresadas en intervalos, existe el denominado intervalo modal o, en su defecto, si es necesario obtener un valor concreto de la variable, se recurre a la interpolacin.

Ejemplo

Nmero de personas en distintos carros en una carretera: 5-7-4-6-9-5-6-1-5-3-7. en este caso el nmero que ms se repite es 5, entonces la moda es 5.

Hablaremos de una distribucin bimodal de los datos, cuando encontremos dos modas, es decir, dos datos que tengan la misma frecuencia absoluta mxima. Cuando en una distribucin de datos se encuentran tres o ms modas, entonces es multimodal. Por ltimo, si todas las variables tienen la misma frecuencia diremos que no hay moda.

Cuando tratamos con datos agrupados en intervalos, antes de calcular la moda, se ha de definir el intervalo modal. El intervalo modal es el de mayor frecuencia absoluta.

La moda, cuando los datos estn agrupados, es un punto que divide al intervalo modal en dos partes de la forma p y c-p, siendo c la amplitud del intervalo, que verifiquen que:

Siendo ni la frecuencia absoluta del intervalo modal y ni 1 y ni + 1 las frecuencias absolutas de los intervalos anterior y posterior, respectivamente, al Las calificaciones en la asignatura de Matemticas de 39 alumnos de una clase viene dada por la siguiente tabla (debajo):

Calificaciones123456789

Nmero de alumnos224589342

Propiedades

Sus principales propiedades son:

Clculo sencillo.

Interpretacin muy clara.

Al depender slo de las frecuencias, puede calcularse para variables cualitativas. Es por ello el parmetro ms utilizado cuando al resumir una poblacin no es posible realizar otros clculos, por ejemplo, cuando se enumeran en medios periodsticos las caractersticas ms frecuentes de determinado sector social. Esto se conoce informalmente como "retrato robot".[6]

Inconvenientes

Su valor es independiente de la mayor parte de los datos, lo que la hace muy sensible a variaciones muestrales. Por otra parte, en variables agrupadas en intervalos, su valor depende excesivamente del nmero de intervalos y de su amplitud.

Usa muy pocas observaciones, de tal modo que grandes variaciones en los datos fuera de la moda, no afectan en modo alguno a su valor.

No siempre se sita hacia el centro de la distribucin.

Puede haber ms de una moda en el caso en que dos o ms valores de la variable presenten la misma frecuencia (distribuciones bimodales o multimodales).

Mediana

Artculo principal: Mediana (estadstica)La mediana es un valor de la variable que deja por debajo de s a la mitad de los datos, una vez que estos estn ordenados de menor a mayor.[7] Por ejemplo, la mediana del nmero de hijos de un conjunto de trece familias, cuyos respectivos hijos son: 3, 4, 2, 3, 2, 1, 1, 2, 1, 1, 2, 1 y 1, es 2, puesto que, una vez ordenados los datos: 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, el que ocupa la posicin central es 2:

En caso de un nmero par de datos, la mediana no correspondera a ningn valor de la variable, por lo que se conviene en tomar como mediana el valor intermedio entre los dos valores centrales. Por ejemplo, en el caso de doce datos como los anteriores:

Se toma como mediana Existen mtodos de clculo ms rpidos para datos ms nmerosos (vase el artculo principal dedicado a este parmetro). Del mismo modo, para valores agrupados en intervalos, se halla el "intervalo mediano" y, dentro de este, se obtiene un valor concreto por interpolacin.

Clculo de la mediana para datos agrupados]Primero hallamos las frecuencias absolutas acumuladas Fi (ver tabla del margen derecho).

As, aplicando la formula asociada a la mediana para n impar, obtenemos X(39+1)/2 = X20 y basndonos en la frmula que hace referencia a las frecuencias absolutas:

Ni-1< n/2 < Ni = N19 < 19.5 < N20

Por tanto la mediana ser el valor de la variable que ocupe el vigsimo lugar. En nuestro ejemplo, 21 (frecuencia absoluta acumulada para Xi = 5) > 19.5 con lo que Me = 5 puntos (es aconsejable no olvidar las unidades; en este caso como estamos hablando de calificaciones, sern puntos)

La mitad de la clase ha obtenido un 5 o menos, y la otra mitad un 5 o ms.

Ejemplo (N par)

Las calificaciones en la asignatura de Matemticas de 38 alumnos de una clase viene dada por la siguiente tabla (debajo):

Calificaciones123456789

Nmero de alumnos224569442

xifiFi

122

224

348

4513

5619 = 19

6928

7432

8436

9238

Calculemos la Mediana:

Primero hallamos las frecuencias absolutas acumuladas Fi (ver tabla margen derecho).

Si volvemos a utilizar la frmula asociada a la mediana para n par, obtenemos X(38/2) = X19 y basndonos en la frmula que hace referencia a las frecuencias absolutas --> Ni-1< n/2 < Ni = N18 < 19 < N19

Con lo cual la mediana ser la media aritmtica de los valores de la variable que ocupen el decimonoveno y el vigsimo lugar.

En nuestro ejemplo, el lugar decimonoveno lo ocupa el 5 y el vigsimo el 6, (desde el vigsimo hasta el vigsimo octavo)

con lo que Me = (5+6)/2 = 5,5 puntos.

La mitad de la clase ha obtenido un 5,5 o menos y la otra mitad un 5,5 o ms

Propiedades e inconvenientes

Las principales propiedades de la mediana son:[8] Es menos sensible que la media a oscilaciones de los valores de la variable. Un error de transcripcin en la serie del ejemplo anterior en, pongamos por caso, el ltimo nmero, deja a la mediana inalterada.

Como se ha comentado, puede calcularse para datos agrupados en intervalos, incluso cuando alguno de ellos no est acotado.

No se ve afectada por la dispersin. De hecho, es ms representativa que la media aritmtica cuando la poblacin es bastante heterognea. Suele darse esta circunstancia cuando se resume la informacin sobre los salarios de un pas o una empresa. Hay unos pocos salarios muy altos que elevan la media aritmtica haciendo que pierda representatividad respecto al grueso de la poblacin. Sin embargo, alguien con el salario "mediano" sabra que hay tanta gente que gana ms dinero que l, como que gana menos.

Sus principales inconvenientes son que en el caso de datos agrupados en intervalos, su valor vara en funcin de la amplitud de estos. Por otra parte, no se presta a clculos algebraicos tan bien como la media aritmtica.

MEDIDAS DE DISPERSIONLas medidas de dispersin muestran la variabilidad de una distribucin, indicando por medio de un nmero si las diferentes puntuaciones de una variable estn muy alejadas de la media. Cuanto mayor sea ese valor, mayor ser la variabilidad, cuanto menor sea, ms homognea ser a la media. As se sabe si todos los casos son parecidos o varan mucho entre ellos.

Para calcular la variabilidad que una distribucin tiene respecto de su media, se calcula la media de las desviaciones de las puntuaciones respecto a la media aritmtica. Pero la suma de las desviaciones es siempre cero, as que se adoptan dos clases de estrategias para salvar este problema. Una es tomando las desviaciones en valor absoluto (Desviacin media) y otra es tomando las desviaciones al cuadrado (Varianza).

Rango estadstico

El rango estadstico es la diferencia entre el valor mnimo y el valor mximo en un grupo de nmeros aleatorios. Para averiguar el rango de un grupo de nmeros:

Ordenamos los nmeros segn su tamao.

Restamos el valor mnimo del valor mximo.

Ejemplo

Para una muestra (1, 45, 50, 55, 100), el dato menor es 1 y el dato mayor es 100. Sus valores se encuentran en un rango de:

Rango = 100 1 =99

Varianza

La varianza es una variable estadstica que mide la dispersin de los valores respecto a un valor central (media), es decir, la media de las diferencias cuadrticas de las puntuaciones respecto a su media aritmtica.

Propiedades

La varianza es siempre positiva o 0: Si a los datos de la distribucin les sumamos una cantidad constante la varianza no se modifica.

Yi = Xi + k

Si a los datos de la distribucin les multiplicamos una constante, la varianza queda multiplicada por el cuadrado de esa constante.

Propiedad distributiva: V(X + Y) = V(X) + V(Y)

Desviacin tpicaLa varianza a veces no se interpreta claramente, ya que se mide en unidades cuadrticas. Para evitar ese problema se define otra medida de dispersin, que es la desviacin tpica, que se halla como la raz cuadrada positiva de la varianza. La desviacin tpica nos informa sobre la dispersin de los datos respecto al valor de la media; cuanto mayor sea su valor, ms dispersos estarn los datos.

Desviacin tpica muestral: Desviacin tpica poblacional: Ejemplo

Con Scilab este clculo se hace de la siguiente manera:

-->x= [17 14 2 5 8 7 6 8 5 4 3 15 9]

x =

17. 14. 2. 5. 8. 7. 6. 8. 5. 4. 3. 15. 9.

-->stdev(x)

ans =

4.716311

-->

Primero hemos declarado un vector con nombre X, donde introduzco los nmeros de la serie. Luego con el comando stdev se hallar la desviacin tpica.

CovarianzaLa covarianza entre dos variables es un estadstico resumen indicador de si las puntuaciones estn relacionadas entre s. La formulacin clsica, se simboliza por la letra griega sigma (\sigma_{xy}) cuando ha sido calculada en la poblacin. Si se obtiene sobre una muestra, se designa por la letra "s_{xy}".

La formula suele aparecer expresada como:

Este tipo de estadstico puede utilizarse para medir el grado de relacin de dos variables si ambas utilizan una escala de medida a nivel de intervalo/razn (variables cuantitativas).

La expresin se resuelve promediando el producto de las puntuaciones diferenciales por su tamao muestral (n pares de puntuaciones, n-1 en su forma insesgada). Este estadstico, refleja la relacin lineal que existe entre dos variables. El resultado numrico fluctua entre los rangos de +infinito a -infinito. Al no tener unos lmites establecidos no puede determinarse el grado de relacin lineal que existe entre las dos variables, solo es posible ver la tendencia.

Ejemplo

Tenemos una tabla con dos datos (x y h), elaboramos su tabla de frecuencias (fre)

-->x=[10 20 30 40]

Vector de datos X

x =

10. 20. 30. 40.

-->y=[10 20 30 40]

Vector de datos H

y =

10. 20. 30. 40.

-->fre=[.20 .04 .01 0;

Matriz de frecuencias

--> .10 .36 .09 0;

--> 0 .05 .10 0;

--> 0 0 0 .05]

fre =

0.2 0.04 0.01 0.

0.1 0.36 0.09 0.

0. 0.05 0.1 0.

0. 0. 0. 0.05

-->s=covar(x,y,fre)

Aplicacin del Comando covar

s =

49.

Coeficiente de Correlacin de Pearson

El coeficiente de correlacin de Pearson, r, nos permite saber si el ajuste de la nube de puntos a la recta de regresin obtenida es satisfactorio. Se define como el cociente entre la covarianza y el producto de las desviaciones tpicas (raz cuadrada de las varianzas).

Teniendo en cuenta el valor de la covarianza y las varianzas, se puede evaluar mediante cualquiera de las dos expresiones siguientes:

Propiedades

El coeficiente de correlacin, r, presenta valores entre 1 y +1.

Cuando r es prximo a 0, no hay correlacin lineal entre las variables. La nube de puntos est muy dispersa o bien no forma una lnea recta. No se puede trazar una recta de regresin.

Cuando r es cercano a +1, hay una buena correlacin positiva entre las variables segn un modelo lineal y la recta de regresin que se determine tendr pendiente positiva, ser creciente.

Cuando r es cercano a -1, hay una buena correlacin negativa entre las variables segn un modelo lineal y la recta de regresin que se determine tendr pendiente negativa: es decreciente.

Ejemplo [editar]Tenemos una tabla con dos datos (x y h), elaboramos su tabla de frecuencias (fre)

-->x=[2.5 7.5 12.5 17.5] Vector de datos X

x =

2.5 7.5 12.5 17.5

-->h=[0 1 2] Vector de datos H

h =

0. 1. 2.

-->fre=[.03 .12 .07;.02 .13 .11;.01 .13 .14;.01 .09 .14] Matriz de frecuencias

fre =

0.03 0.12 0.07

0.02 0.13 0.11

0.01 0.13 0.14

0.01 0.09 0.14

-->rho=correl(x,h,fre) Aplicacin del Comando correl

rho =

MEDIDAS DE POSICIONLas medidas de posicin nos facilitan informacin sobre la serie de datos que estamos analizando. La descripcin de un conjunto de datos, incluye como un elemento de importancia la ubicacin de stos dentro de un contexto de valores posible. Una vez definidos los conceptos bsicos en el estudio de una distribucin de frecuencias de una variable, estudiaremos las distintas formas de resumir dichas distribuciones mediante medidas de posicin (o de centralizacin), teniendo presente el error cometido en el resumen mediante las correspondientes medidas de dispersin.Se trata de encontrar unas medidas que sinteticen las distribuciones de frecuencias. En vez de manejar todos los datos sobre las variables, tarea que puede ser pesada, podemos caracterizar su distribucin de frecuencias mediante algunos valores numricos, eligiendo como resumen de los datos un valor central alrededor del cual se encuentran distribuidos los valores de la variable Son medidas estadsticas cuyo valor representa el valor del dato que se encuentra en el centro de la distribucin de frecuencia, por lo que tambin se les llama "Medidas de Tendencia Central ".

2. Medidas de Posicin

Son indicadores usados para sealar que porcentaje de datos dentro de una distribucin de frecuencias superan estas expresiones, cuyo valor representa el valor del dato que se encuentra en el centro de la distribucin de frecuencia, por lo que tambin se les llama " Medidas de Tendencia Central ".

Pero estas medidas de posicin de una distribucin de frecuencias han de cumplir determinadas condiciones para que lean verdaderamente representativas de la variable a la que resumen. Toda sntesis de una distribucin se considerara como operativa si intervienen en su determinacin todos y cada uno de los valores de la distribucin, siendo nica para cada distribucin de frecuencias y siendo siempre calculable y de fcil obtencin. A continuacin se describen las medidas de posicin ms comunes utilizadas en estadstica, como lo son:

Cuartiles: Hay 3 cuartiles que dividen a una distribucin en 4 partes iguales: primero, segundo y tecer cuartil.

Deciles: Hay 9 deciles que la dividen en 10 partes iguales: (primero al noveno decil).

Percentiles: Hay 99 percentiles que dividen a una serie en 100 partes iguales: (primero al noventa y nueve percentil).

Cuartiles (Q1, Q2, Q3)

a. Primer cuartil (Q1):

Aquel valor de una serie que supera al 25% de los datos y es superado por el 75% restante.Formula de Q1 para series de Datos Agrupados en Clase.

Donde:

: posicin de Q1, la cual se localiza en la primera frecuencia acumulada que la contenga, siendo la clase de Q1, la correspondiente a tal frecuencia acumulada.Li, faa, fi, Ic : idntico a los conceptos vistos para Mediana pero referidos a la medida de la posicin correspondiente.

b. Segundo cuartil (Q2):Coincide, es idntico o similar al valor de la Mediana (Q2 = Md). Es decir, supera y es superado por el 50% de los valores de una Serie.

c) Tercer cuartil (Q3):

Aquel valor, termino o dato que supera al 75% y es superado por el 25% de los datos restantes de la Serie.Formula de Q3 para series de Datos Agrupados en Clase.

Donde:

: posicin de Q3, todo idntico al calculo de la Mediana.Deciles (D1, D2, D9)Primer Decil (D1), Quinto Decil (D5) y Noveno Decil (D9).El primer decil es aquel valor de una serie que supera a 1/10 parte de los datos y es superado por las 9/10 partes restantes (respectivamente, hablando en porcentajes, supera al 10% y es superado por el 90% restante),

El D9 (noveno decil) supera al 90% y es superado por el 10% restante.

Como se observa, son formulas parecidas a la del calculo de la Mediana, cambiando solamente la respectivas posiciones de las medidas.

Percentiles (P1, P2, P99)Primer Percentil (P1), Percentil 50 (P50) y Percentil 99 (P99).El primer percentil supera al uno por ciento de los valores y es superado por el noventa y nueve por ciento restante.Formulas de P1, P50, P99 para series de Datos Agrupados en Clase.

El P99 (noventa y nueve percentil) supera al 99% de los datos y es superado a su vez por el 1% restante.

Idnticas formulas al calculo de la Mediana, cambiando obviamente las correspondientes posiciones de cada medida.

Para determinar estas medidas se aplicara el principio de la mediana; as, el primer cuartil cereal valor por debajo del cual se encuentra el 25 por ciento de los datos; bajo el tecer cuartil se encuentra el 75 por ciento; el 80 decil ser el valor por encima del cual estar el 20 por ciento de los datos, etc. Como se observa, todas estas medidas no son sino casos particulares del percentil ya que el primer cuartil no es sino el 25 percentil, el tercer cuartil el 75 percentil, el cuarto decil el 40 percentil, etc.Datos no agrupados:Se hace difcil calcular estas medidas, sin embargo, siguiendo los mismos principios mencionados para la Mediana, se pueden localizar en la forma siguiente:

Si tenemos una serie de valores X1, X2, X3 Xn, se localiza el primer cuartil como el valor cuando n es par, y cuando n es impar. Para el tercer cuartil ser (n par); (n impar).

En caso de los textiles ser o donde A representa el nmero del textil.

Para los deciles ser o siendo A el nmero del decil; y para los percentiles o .

Ejemplo:En una serie de 32 trminos se desea localizar el 4 sextil, 8 decil y el 95 percentil.

Esto significa que el 4 textil se encuentra localizado en el termino numero 21, es decir, el que ocupa la 21 posicin; el 8 decil se encuentra localizado entre el termino numero 25 y 26 ; y el 95 percentil entre la posicin 30 y 31 .Calculo para una distribucin de frecuencia

Para el calculo de esta medida en datos agrupados en una distribucin de frecuencia, se utiliza el mismo procedimiento estudiado para el calculo de la Mediana, e; cual es:

1. Se efecta la columna de las frecuencias acumuladas. 2. Se determina la posicin del trmino cuyo valor se pretende calcular, en caso de ser el primer cuartil ser , si fuese el 95 centil etc.

3. Se verifica cual es la clase que lo contiene; para ello se utiliza la columna de las frecuencias acumuladas.

4. Se hace la diferencia entre el nmero que representa el orden de posicin cuyo valor se pretende calcular y la frecuencia acumulada de la clase anterior a la que lo contiene.

5. Se calcula la medida solicitada de acuerdo a la siguiente frmula:

Donde:1i: limite inferior de la clase que lo contiene.P: valor que representa la posicin de la medida.fi: la frecuencia de la clase que contiene la medida solicitada.fa-1: frecuencia acumulada anterior a la que contiene la medida solicitada.Ic: intervalo de clase.Ejemplo:Determinacin del primer cuartil, el cuartil textil, el sptimo decil y el 30 percentil.Salarios

(I. de Clases)N de empleados(fi)fa

200 2998585

300 39990175

400 499120295

500 59970365

600 69962427

700 80036463

INCLUDEPICTURE "http://www.monografias.com/trabajos14/medidasposicion/Image199.gif" \* MERGEFORMATINET

INCLUDEPICTURE "http://www.monografias.com/trabajos14/medidasposicion/Image200.gif" \* MERGEFORMATINET

INCLUDEPICTURE "http://www.monografias.com/trabajos14/medidasposicion/Image202.gif" \* MERGEFORMATINET

INCLUDEPICTURE "http://www.monografias.com/trabajos14/medidasposicion/Image203.gif" \* MERGEFORMATINET

INCLUDEPICTURE "http://www.monografias.com/trabajos14/medidasposicion/Image206.gif" \* MERGEFORMATINET

INCLUDEPICTURE "http://www.monografias.com/trabajos14/medidasposicion/Image210.gif" \* MERGEFORMATINET

INCLUDEPICTURE "http://www.monografias.com/trabajos14/medidasposicion/Image214.gif" \* MERGEFORMATINET

Estos resultados nos indican que el 25 por ciento de los empleados ganan salarios por debajo de Bs. 334; que sobre Bs. 519,51 ganan el 33,33 por ciento de los empleados; que bajo 541,57 gana el 57 por ciento de los empleados y sobre Bs. 359,88 gana el 70 por ciento de los empleados.Muchas veces necesitamos conocer el porcentaje de valores que esta por debajo o por encima de un valor dado; lo que representa un problema contrario al anterior, esto es, dado un cierto valor en la abscisa determinar en la ordenada el tanto por ciento de valores inferiores y superiores al valor dado. Operacin que se resuelve utilizando la siguiente formula general:

Donde:P: lugar percentil que se busca.P: valor reconocido en la escala X.fa-1: frecuencia acumulada de la clase anterior a la clase en que esta incluida P.fi: frecuencia de la clase que contiene a p.Li: limite inferior de la clase que contiene a P.Ic: intervalo de clase.N: frecuencia total.

Ejemplo:Utilizando la distribucin anterior, determinar que porcentaje de personas ganan salarios inferiores a Bs. 450,00

El 50,75 por ciento de las personas ganan salarios inferiores a Bs. 450.

Mtodo grfico para fraccionar la distribucinSe pueden obtener en forma grfica, a travs de la curva de la frecuencia acumulada (ojiva).Para ello basta despus de trazar la ojiva, llevar el orden de posicin de la medida que se quiere sobre la ordenada, trazar por ese punto una perpendicular toca a la ojiva, baja una paralela a la ordenada hasta tocar la abscisa; en el punto donde toque a dicho eje, se encontrar el valor buscado.

Obtencin grfica de las medidas de posicinSimilar o idntico a la distribucin grafica de la Mediana con la sola excepcin de que se llevara al eje vertical (frecuencias acumuladas) las especificas posiciones de cada indicador de posicin en particular.

Ejemplo:Forma de obtener los indicadores de posicin (cuartiles, deciles y percentiles) para series de datos agrupados en clases:Supongamos la siguiente distribucin de frecuencias referidas a las estaturas que representaban 40 alumnos de un curso.

(I. de Clases)Estaturas

(mts)N alumnos(fi)fa

1,601,63955

1,641,679813

** 1,681,71915** 28

* 1,721,7591038 *

1,761,80240

Q3=?

La cual se ubica en la primera fa que la contenga

Esta estatura de Q3 = 1,73 mts. Supera en la distribucin de frecuencia al 75% de los alumnos del curso y es superada por el 25% de los mismos.

D8 = ?

supera esta estatura de 1,736 mts a 8/10 partes de curso y es superado por las 2/10 partes restantes.

P55 = ?

Esta estatura supera al 55% de los alumnos del curso y es superada por el 45% restante.

Calcular de cada uno de los intervalos de clases cuartiles, deciles y percentiles.

Datos agrupados

I. de clasesfifa

10 151010

16 211828

22 271038

28 33846

34 39955

40 45762

46 51365

52 57166

n = 66

Cuartiles:

INCLUDEPICTURE "http://www.monografias.com/trabajos14/medidasposicion/Image232.gif" \* MERGEFORMATINET

INCLUDEPICTURE "http://www.monografias.com/trabajos14/medidasposicion/Image235.gif" \* MERGEFORMATINET

INCLUDEPICTURE "http://www.monografias.com/trabajos14/medidasposicion/Image236.gif" \* MERGEFORMATINET

INCLUDEPICTURE "http://www.monografias.com/trabajos14/medidasposicion/Image238.gif" \* MERGEFORMATINET

INCLUDEPICTURE "http://www.monografias.com/trabajos14/medidasposicion/Image240.gif" \* MERGEFORMATINET

INCLUDEPICTURE "http://www.monografias.com/trabajos14/medidasposicion/Image242.gif" \* MERGEFORMATINET

INCLUDEPICTURE "http://www.monografias.com/trabajos14/medidasposicion/Image244.gif" \* MERGEFORMATINET

INCLUDEPICTURE "http://www.monografias.com/trabajos14/medidasposicion/Image246.gif" \* MERGEFORMATINET

INCLUDEPICTURE "http://www.monografias.com/trabajos14/medidasposicion/Image248.gif" \* MERGEFORMATINET

Deciles:

Percentiles:

3. Conclusin

Las medidas de posicin en un conjunto de datos estn diseadas para proporcionar al analista algunas medidas cuantitativas de donde est el centro de los datos en una muestra.En las medidas de posicin se trata de encontrar medidas que sinteticen las distribuciones de frecuencias. En vez de manejar todos los datos sobre las variables, tarea que puede ser pesada, podemos caracterizar su distribucin de frecuencias mediante algunos valores numricos, eligiendo como resumen de los datos un valor central alrededor del cual se encuentran distribuidos los valores de la variable. La descripcin de un conjunto de datos, incluye como un elemento de importancia la ubicacin de stos dentro de un contexto de valores posibles.