1
DEPARTAMENTO DE ESTADSTICA E I.O. GRADO EN CIENCIAS AMBIENTALES
2014-2015
ESTADSTICA
Bloque I: Estadstica descriptiva
Tema 1. Estadstica descriptiva univariante.
1. Introduccin y definiciones bsicas. 2. Tablas de frecuencias y representaciones grficas de un conjunto de datos. 3. Medidas descriptivas de un conjunto de datos de una variable.
1. Introduccin y definiciones bsicas.
1.1. Introduccin
El concepto de estadstica se deriva del trmino estado, y originalmente se asoci a la
tarea de recopilar datos de inters para el estado (datos econmicos, demogrficos, militares, ...), es decir, lo que hoy en da se conoce como censos.
No obstante, con el crecimiento de los estados y sus poblaciones, surgi la necesidad de
procesar y resumir toda la informacin contenida en los censos para su manejo por parte de los estadistas, lo que aument la utilidad de dichos censos y provoc la evolucin del trmino estadstica, siendo una de las ramas de la estadstica en la actualidad el tratamiento y extraccin de la informacin contenida en el conjunto de datos recopilados.
Aunque en la actualidad, esto supone una parte de todo lo que engloba la estadstica,
como rama de las matemticas, no cabe duda del gran inters que suscitan las estadsticas de la Organizacin Mundial de la Salud, de la Unin Europea y del Instituto Nacional de Estadstica, los censos de poblacin e ndices sobre el estado econmico autonmico, nacional y europeo, llamadas estadsticas oficiales.
En general, al igual que todos los campos cientficos, la estadstica ha experimentado un
gran impulso y desarrollo en el ltimo siglo, lo que hace difcil establecer una definicin concreta de esta rama de las matemticas, por ejemplo, podramos decir que:
La estadstica es el conjunto de las tcnicas de recopilacin de datos, los mecanismos para clasificar y resumir la informacin, y los mtodos para extender los resultados al resto de la poblacin En este contexto, se llama poblacin al conjunto de todos los individuos objeto de estudio,
y muestra a un subconjunto de la poblacin (subconjunto de individuos sobre los que se realiza el experimento).
A partir de este concepto, la Estadstica constituye hoy en da una ciencia imprescindible
para el desarrollo de la mayora de las ciencias. De este modo, la Estadstica suele dividirse en dos ramas: Estadstica Descriptiva y Estadstica Inferencial.
2
En el primer lugar, la Estadstica Descriptiva tiene por objeto la clasificacin y resumen de la informacin contenida en los datos (extraer la informacin de los datos), ya sean de censos (toda la poblacin) o muestras (subconjunto de la poblacin), como por ejemplo en las estadsticas oficiales comentadas anteriormente.
De este modo, para el proceso de extraccin de la mxima informacin contenida en los
datos, se utiliza una serie de medidas con el objetivo de establecer el comportamiento de los mismos, usualmente denominadas medidas descriptivas o estadsticos, las cuales se clasifican en tres tipos fundamentales, dependiendo de la informacin que pretenden determinar o sintetizar: medidas de posicin o localizacin, medidas de dispersin y medidas de forma.
Las medidas de localizacin tienen por objetivo extraer la informacin sobre la posicin y localizacin de los datos.
Las medidas de dispersin pretenden establecer la concentracin de los datos a travs de la variabilidad y dispersin de los mismos con respecto a las medidas de localizacin.
Las medidas de forma intentan determinar el comportamiento de la distribucin de frecuencias de los datos. Adems de estas medidas descriptivas que sintetizan la informacin contenida en los datos
sobre una caracterstica particular, la Estadstica Descriptiva incluye una serie de representaciones de los datos, grficas descriptivas, con el fin de facilitar la interpretacin de las medidas anteriores mediante una imagen. Asimismo, cuando estamos interesados en analizar dos o ms caractersticas sobre la poblacin, disponemos de medidas descriptivas para extraer la informacin de los datos sobre sus relaciones y dependencia.
Cabe sealar, que cuando se analizan muestras (subconjunto de la poblacin), estas
medidas descriptivas intentan exprimir los datos de una muestra para obtener la informacin que contienen, como es el caso de las estadsticas oficiales mencionadas en el apartado anterior, y los resultados que proporcionan corresponden a la propia muestra, aunque el mal uso de estas estadsticas est ampliamente extendido en la sociedad al aceptarlas como resultados vlidos sobre toda la poblacin obviando la componente inferencial de este proceso.
La Estadstica Inferencial corresponde a la extrapolacin de la informacin contenida en
un subconjunto de la poblacin (inferir a toda la poblacin). Por ejemplo, un equipo mdico est investigando un tratamiento para analizar su eficiencia, pero slo dispone de un nmero limitado de pacientes para aplicar el tratamiento de forma experimental y estudiar los procesos de recuperacin, con el objetivo final de establecer, de manera fiable, la eficiencia del tratamiento para todos los pacientes. La Estadstica Inferencial es el proceso de establecer la eficiencia del tratamiento para todos los pacientes a partir del ensayo experimental sobre un subconjunto de ellos.
De este modo, la Inferencia Estadstica es el conjunto de los mtodos que permiten
trasladar los resultados de una muestra a la poblacin de manera fiable (midiendo la incertidumbre o acierto de los resultados, decisiones y sus conclusiones).
Para ello, se utilizan una serie de tcnicas basadas en medidas de extraccin de la
informacin contenida en la muestra, que se clasifican en dos tipos, estimacin y contraste de hiptesis, segn los objetivos que se persiguen en el proceso de inferencia. En este enfoque, a las medidas de extraccin en general se les llama estadsticos, y en particular, dependiendo de la tcnica inferencial, estimadores y estadsticos del contraste, respectivamente.
Los estimadores son funciones de la muestra que pretenden proporcionar estimaciones
(aproximaciones) de alguna caracterstica particular de la poblacin de inters en el problema o experimento; dichos estimadores pueden ser tanto paramtricos como no paramtricos, segn el nivel de generalizacin de la caracterstica a estimar, como por ejemplo estimar el modelo de probabilidad de una variable (no paramtrico) o estimar el parmetro (media, varianza, ...) que determina unvocamente dicho modelo.
3
Adems, cabe distinguir entre los estimadores puntuales y los estimadores por intervalos. En primer lugar, se llama estimador puntual cuando el objetivo consiste en obtener un valor nico (estimacin); en tal caso, se suele requerir ciertas propiedades del estimador con el fin de que la estimacin que proporciona no presente grandes desviaciones de la realidad. Por otro lado, se llama estimador por intervalos cuando proporciona un intervalo de valores, lo que permite realizar la estimacin con una determinada probabilidad de acierto, es decir, que realmente el valor se encuentre en dicho intervalo.
Por ltimo, los contrastes de hiptesis tienen como objetivo principal la toma de decisiones
sobre una condicin de la poblacin, tanto del tipo paramtrico como no paramtrico. En este proceso se decide que la condicin es cierta o falsa a partir de la informacin extraida de la muestra mediante un estadstico (estadstico del contraste), y por consiguiente, cabe la posibilidad de haber optado por una decisin errnea, por lo que el estadstico del contraste permite inferir la informacin suministrada por la muestra a una decisin sobre la poblacin junto con una medida de fiabilidad o seguridad de dicha decisin.
Como hemos comentado algunas estadsticas oficiales de inters para la sociedad en
general, basadas en estadsticos descriptivos que resumen y clasifican la informacin de los censos, por concretar algunas de ellas: las estadsticas sanitarias y epidemiolgicas, los ndices o niveles de riqueza, de precio al consumo, poblacin activa, ... Adems de estas y otras aplicaciones similares, la Estadstica Descriptiva se utiliza para explorar los datos de una muestra como un primer anlisis estadstico en cualquier estudio estadstico.
En relacin a la Estadstica Inferencial, se puede observar que en la actualidad est
considerada como el mtodo cientfico de investigacin en casi todos los campos cientficos, como en demografa, sociologa, psicologa, educacin, historia, filologa, economa, qumica, fsica, meteorologa, ingeniera, ..., en donde cabe destacar las ciencias de la salud, puesto que en estas reas surgieron muchos de los problemas relacionados con los datos obtenidos en la experimentacin y su inferencia al resto de la poblacin, lo que impuls el desarrollo de los principales mtodos actuales de la estadstica. Adems, la amplia aplicacin de las tcnicas estadsticas en estos campos ha dado lugar a una propia disciplina llamada Bioestadstica, que recoge las diversas aplicaciones en biologa, medicina, veterinaria, farmacia, ...
Por ejemplo, un ambientalista es responsable del rea de anlisis de los impactos ambientales en una ONG dedicada al estudio y denuncia de las causas de la degradacin de la atmsfera en zonas metropolitanas. En cada situacin en la que trabaja la organizacin, el ambientalista tiene que analizar multitud de datos procedentes de las mediciones de SO2, Amonaco, CO2, y otros factores contaminantes, en un determinado nmero de lugares de la zona estudiada, as como de los agentes que contaminan (particulares, empresas, explotaciones agrcolas, etc.) En este caso, el ambientalista necesitar conocer si los niveles de SO2 son relevantes en el incremento de las enfermedades pulmonares de las personas de una determinada ciudad.
En resumen, un problema experimental requiere:
Ordenar y analizar grandes cantidades de datos Buscar regularidades que permitan comprender fenmenos concretos Realizar inferencia sobre el comportamiento de la poblacin Encontrar modelos matemticos que expliquen las regularidades encontradas
1.2. Mtodos de la estadstica descriptiva
Ejemplo 1. Supongamos que disponemos de una lista consistente en los pesos de las 5000 vacas de una explotacin ganadera. En principio, tal lista no nos aporta ninguna informacin pertinente sobre la totalidad de los animales, sino de cada uno individualmente. Por ejemplo, de tal lista no se podra dar respuesta inmediata a preguntas sencillas:
qu proporcin de animales pesan menos de 200 Kg?
4
cul es el peso a partir del que se encuentra el 10% de los animales de mayor peso? Para poder utilizar esta informacin de forma eficaz, con vistas a su posterior utilizacin, la
estadstica descriptiva utiliza, bsicamente, tres herramientas: el agrupamiento de los datos en tablas de frecuencias, la representacin grfica de los datos mediante histogramas y otros grficos, y la reduccin de los datos mediante nmeros denominados estadsticos.
Para agilizar la exposicin inmediata, utilizaremos el trmino muestra para designar tanto
la lista de los pesos de las vacas del ejemplo anterior, como cualquier otra coleccin de datos (reservando la definicin precisa para el apartado 2). Una forma cmoda, entonces, de escribir una muestra, que nos sirva para cualquier tipo de datos, es
1 2 i n(x ,x ,....,x ,.....,x ) , donde: 1x es el primer elemento de nuestra lista, 2x es el segundo, ix el situado en el lugar i-simo, y nx el situado en el ltimo lugar.
Utilicemos, tambin de manera informal, la nocin de clase como la de un conjunto
formado por elementos con alguna propiedad comn. Por ejemplo, en el caso 1 una clase correspondera a todos los perros de una determinada raza; en el segundo, podramos hablar de la clase de las empresas cuyas emisiones de CO2 a la atmsfera supera una cantidad determinada, o, en el caso de la explotacin ganadera, una clase puede ser la formada por todas las vacas cuyo peso est comprendido entre 250 y 350 kilogramos.
Veamos ahora los mtodos bsicos de trabajo de la Estadstica descriptiva.
1.2.1. Agrupamiento de los datos. Se entiende por agrupar los datos el proceso por el cul asociamos cada dato ix a una, y
solo a una clase, de un conjunto de clases preestablecidas C1, C2, ., Ck, cada una de las cuales no tiene elementos comunes con ninguna de las restantes.
Cuando se ha realizado el proceso con todos los elementos de la muestra, nos
encontraremos con que f1 datos se han asociado con C1, f2 se han asociado con C2, etc. En general, el nmero fi, que indica cuantos elementos de la muestra se han asociado con la clase Ci, se denomina la frecuencia absoluta de la clase Ci.
Podemos representar de forma sinttica el resultado del proceso mediante lo que
denominaremos una tabla de frecuencias agrupadas:
Tabla 1
Clases C1 C2 Ci Ck
Frecuencias absolutas f1 f2 fi fk n
Si el veterinario del Caso 1 estuviese interesado en averiguar los tipos de perros que han pasado por su clnica, podra identificar las clases con las razas, C1 = {dogo}, C2 = {caniche}, C3 = {doberman}, C4 = {malts}, C5 = {pastor}, y contar el nmero de perros que hay de cada raza. Esto le permitira construir la siguiente tabla de frecuencias:
Tabla 2
Clases Pastor Caniche Dogo Mastn Malts Doberman Galgo Labrador
Frecuencias absolutas f1 =15 f2 =40 f3=12 f4 =30 f5 =75 f6 =15 f7=10 f8 =5
5
Si en lugar de por las razas estuviese interesado en el comportamiento de los pesos de los animales las clases podran estar caracterizadas por intervalos cuyos lmites indicasen lmites inferior y superior de los pesos. Por ejemplo, la clase C1 sera la formada por todos los pesos comprendidos entre 0 y 5 kilogramos, la C2 la correspondiente a los pesos comprendidos entre 5 y 10, la C3 la correspondiente a los pesos comprendidos entre 10 y 15, etc. Entonces la tabla adoptara la siguiente forma:
Tabla 3
Clases 0 - 5 5 - 10 10 - 15 15 - 20 20 - 25 25 - 30
Frecuencias absolutas f1 = 10 f1 = 15 f1 = 20 f1 = 14 f1 = 6 f1 = 3 68 1.2.2. Representacin de los datos.
Para visualizar la informacin de una tabla de datos agrupados se recurre a distintos tipos de grficos (pictogramas, histogramas, polgonos, entre otros), con la nica restriccin de que representen fielmente el peso relativo de cada clase, por medio de su frecuencia absoluta, en relacin a las dems clases.
Por ejemplo, despus de obtener la tabla de frecuencias para las distintas razas, esta se
podra visualizar con un pictograma construido de la siguiente forma: dibujado un circulo, este se puede dividir en tantos sectores circulares como clases tengamos en nuestra tabla, dndole a cada uno de los sectores una amplitud (en grados) proporcional a la frecuencia de la clase a la que vaya a representar.
Por este sencillo procedimiento se llega, para la tabla de frecuencias de la distribucin de
razas, al siguiente grfico:
Grfico 1
PastorCanicheDogoMastnMaltsDobermanGalgoLabrador
Category
Pictograma de Razas
N = 202 1.2.3. Reduccin de los datos.
Una muestra se ha reducido cuando a partir de sus elementos se han calculado una reducida cantidad de nmeros, llamados estadsticos, que sinteticen de la manera ms fiel posible las caractersticas y tendencias de la muestra.
Por ejemplo, la cantidad 1 2 1n nx x .... x xx
n
+ + + += , denominada media aritmtica de la
muestra, es un estadstico. En este proceso del conjunto de datos de la muestra a un conjunto de estadsticos se
produce una prdida de informacin. Si suponemos que la muestra tiene n = 100 datos (el 100%
6
de la informacin disponible) y a partir de esos datos obtenemos 2 estadsticos, resulta obvio que estos no pueden contener ms que una parte de la informacin total. Si calculsemos 100 estadsticos es posible que retuvisemos toda la informacin, pero no habramos ganado nada en cuanto al objetivo de sintetizar las propiedades de la muestra.
Nos encontramos, entonces, con un dilema al elegir el nmero de estadsticos que
representarn a nuestra muestra: por una parte, deseamos que su nmero sea reducido; por otra, queremos que esos estadsticos retengan la mayor cantidad de informacin posible de la muestra de la que proceden.
Como resultado de este conflicto, la experiencia estadstica nos ha dejado una solucin que, en buena parte de las situaciones experimentales habituales, es suficiente: el uso sistemtico de unos estadsticos tpicos nos permite cumplir el objetivo de reducir la muestra con una aceptable prdida de informacin.
Estos estadsticos tpicos, cuyo desarrollo ser el objetivo de lo que sigue, se agrupan tradicionalmente en tres grandes grupos: (1) estadsticos de localizacin, (2) estadsticos de dispersin y, (3) estadsticos de forma.
1.3. Definiciones bsicas de la estadstica descriptiva
1.3.1. Poblacin.
Entenderemos como poblacin el mayor conjunto de elementos de los cuales deseemos obtener informacin, siendo sus elementos los individuos susceptible de observacin o experimentacin.
Por ejemplo, una poblacin puede estar formada por personas, animales u objetos
inanimados. El conjunto de todos los animales que pasaron por el Hospital Clnico Veterinario durante el ao 2009 constituye una poblacin; las temperaturas medias anuales en Murcia en el periodo 1990 2010 constituyen otra poblacin; o la coleccin de todas las posibles placas de cultivo conteniendo una colonia de bacterias e.coli constituye otra.
La experimentacin u observacin es un proceso de anlisis de elementos de la poblacin,
con el objetivo de obtener informacin desconocida de los elementos de la muestra (estadstica descriptiva) y de inferir los resultados obtenidos a toda la poblacin midiendo el grado de verosimilitud de esta inferencia (inferencia estadstica).
En general, un experimento puede ser determinstico o aleatorio. Se dice aleatorio cuando
su propia naturaleza nos impide afirmar que su repeticin en las mismas exactas condiciones conducir a un nico resultado. Solo podemos conocer a priori, que el resultado obtenido ser un valor perteneciente a un conjunto de posibles resultados, y solo podremos conocer a posteriori, tras la realizacin el ensayo el valor concreto. Sin embargo, en un experimento determinista, iguales condiciones iniciales conducen a un mismo resultado.
1.3.2. Variables.
El objetivo ltimo del estudio de una poblacin es el de conocer el comportamiento de sus elementos colectivamente, es decir: averiguar lo que tienen en comn (o los diferencia) y las tendencias o pautas que siguen.
Por ejemplo, en el caso de la Clnica, nuestros intereses podran ser tan distintos como:
averiguar la distribucin de especies, analizar el comportamiento de los pesos o edades de los animales de una cierta especie, o investigar el tiempo dedicado a cada consulta.
7
En cualquier caso, realizaremos un proceso comn: seleccionaremos uno a uno cada elemento de la poblacin, aplicaremos algn mecanismo de medicin (como una bscula para medir el peso, o la simple observacin para determinar la especie), y obtendremos un resultado.
En resumen, El mtodo de seleccin de individuos de una poblacin es el muestreo, y cada eleccin
de un elemento de una poblacin se llama ensayo o prueba. El proceso consistente en aplicar algn mecanismo de medicin u observacin a un
elemento de la poblacin recibe el nombre de variable. El resultado obtenido al aplicar una variable a un elemento recibe el nombre de dato u
observacin.
Para un elemento y una variable X el dato obtenido al aplicar X a se representa por medio del smbolo X() = x.
Tipos de variables y modalidades.
Una vez elegidas una poblacin y una variable X, los posibles resultados quedan limitados a un determinado conjunto que denominaremos conjunto de modalidades de X, y que representaremos por T. Este conjunto tambin recibe el nombre de poblacin de valores de la variable, o simplemente poblacin.
Es importante observar que lo que denominamos modalidades son valores potenciales: los que puede tener cualquier elemento de la poblacin antes de realizar un ensayo. Una vez realizado este, la variable ha asignado al elemento elegido una cierta modalidad que se denomina dato u observacin. Los elementos de T pueden ser:
letras o nombres, y la variable se llamar entonces cualitativa (nominal, si sus valores no presentan ninguna ordenacin, u ordinal, si sus elementos tienen una ordenacin).
nmeros, y la variable se llamar cuantitativa (discreta, si sus valores son nmeros enteros, o continua, si sus valores son nmeros reales).
Cuando las variables son cualitativas o cuantitativas discretas el conjunto de modalidades
se representa por T = {t1, t2, t3,., tk}, y por T = [a, b] cuando es cuantitativa continua, siendo a y b, respectivamente, los valores mnimo y mximo que puede alcanzar la variable. Ejemplo 2. Veamos algunos ejemplos utilizando los elementos del Hospital Clnico, tomando como poblacin la formada por todos los gatos tratados en 2009. Para estudiar la distribucin por sexos la variable ser cualitativa nominal, y el conjunto T
estar formado por solo dos elementos: T = {hembra, macho}. Si se trata de averiguar las preferencias de los gatos por determinados tipos de pienso la
variable ser cualitativa ordinal, y el conjunto T estar formado por tantas modalidades como tipos de pienso entren en el estudio: T = {1, 2,, k}, siendo 1 una forma de abreviar pienso tipo 1, etc.
Cuando se trate de averiguar la distribucin del nmero de cachorros vivos en cada parto la variable ser cuantitativa discreta, y el conjunto de modalidades depender de la experiencia previa que se tenga sobre las variedades en estudio: si sabe que en cada camada no nacen ms de 8 animales, el conjunto de modalidades ser T = {0, 1, 2,, 8}.
Para el estudio de los pesos la variable ser cuantitativa continua, ya que en funcin del aparato de medida de que dispongamos el peso podr ser estimado con mayor o menor nmero de cifras decimales (5, 5.4, 5.47,...). En este caso, el conjunto de modalidades ser un intervalo de la recta real: T = [0, 30], si sabemos que el peso mximo que pueden alcanzar los gatos es de 30 kilogramos.
En la siguiente figura se muestra un esquema del proceso completo hasta obtener un
resultado. As, al elemento 1 la variable X le ha asignado la modalidad t2, que llamaremos observacin x1, al elemento 2 la variable X le ha asignado la modalidad tk, que llamaremos observacin x2, etc.
1.3.3. Mu
Llade n pruebsu obtenci
Des
anlisis deel total de destrucci
El
muestral y Not
mientras q Ejemplo 3Podemos Cada prue
Si representa
El e(3, 4), (4, 4
Ejemplo 4peso mxi
(a) la p(b) la
mod(c) las
y 4, al se
uestras. Esmamos mu
bas. Una mn u observ
stacar la ne los datos
individuos n (por ejem
conjunto dey se represe
tar que el cque la mues
3. Supongavisualizar la
eba consistirealizamos
aremos por espacio mu4)}, cuya re
4. Un experimo es de 4
poblacin variable X
dalidades semuestras del primero
egundo anim
pacio mueuestra de tamuestra se revacin:
necesidad pu observacde la pobla
mplo para m
e todas lasenta con M(n
conjunto destra es un p
amos que Xas modalidr en extrae dos prueb(x1, x2).
uestral est presentaci
imento cons4 kilogramos
estar conX representer el conjue tamao 2x1 correspomal: M = (x
stral. mao n al cepresenta c
Muestra =
prctica de ciones, con acin, ms edir su tiem
s muestras n) (y en ocas
e elementosunto del es
X es una varades comoer una bolabas consec
constituidon es
siste en la ms. En este estituida por tar la medunto de todo2 estarn coondiente al 1, x2), y
conjunto decomo un co
M = 1 2(x ,x
trabajar crespecto alan cuand
mpo de vida
posibles dsiones por
s {1, 2,pacio mues
riable cuyo o 4 bolas si, anotar su cutivas obte
o, por los 16
medicin deexperimentor todos los adicin del
os los nmeonstituidas pprimer anim
e observacioonjunto de v
i n,...,x ,...x )
on muestral manejo de
do la observ).
del mismo M omitiendo
, n} es unstral.
conjunto detuadas en nmero y dendremos u
6 puntos de
el peso de lo: animales de
peso de ceros comprepor pares d
mal pesado,
ones obtenivalores orde
as para face censos quvacin de u
tamao n o el tamao
n subconjun
e modalidaduna caja y
devolverla auna muestr
l conjunto M
os animales
e la especiecada animaendidos ente nmeros , y el segun
idas tras la enados con
cilitar el traue estn forun individuo
se denomio).
nto de la po
des es T = numeradas
a la caja. ra de tama
M(2) = {(1, 1
s de una es
e consideradal, y su ctre 1 y 4: T =comprendi
ndo x2 corre
8
realizacin respecto a
atamiento yrmados por
o implica su
na espacio
oblacin ,
{1, 2, 3, 4}.s de 1 a 4.
ao 2, que
), (1, 2), ...,
specie cuyo
da; onjunto de= [1, 4], dos entre 1
espondiente
8
n a
y r u
o
,
.
.
e
,
o
e
e
(d) el ese m
1.3.4. Mu
Se de tamaouna mismconstituci
Trede muestre
1. 2.
3.
Muestreo
Cuadenominar
Muelepru
Muelela p
Vea
tipo de mu
Situretiramos ala caja el m
Es
prueba y lay lo represmuestra alvalor arbitr
Situdevuelta aanterior, celementospoblacin la tengan e
espacio muemuestra en
uestreo. Tipdenomina
o n es el rema poblacin final de la
es caractereo:
Que la poQue todospara la reaQue antessolo puedun conjun
aleatorio sando todosremos al pro
uestreo aleaemento obteueba. Por louestreo aleaemento obsepoblacin d
amos algunuestreo.
uacin 1. Dal azar una muestreo es
claro que, a siguiente.sentaremos leatoria conrariamente
uacin 2. Ca la caja. Scuando vayas de la poblano tienen laentre ellos).
estral M(2) ela siguiente
pos de Muemuestreo asultado de
n, por lo a muestra.
sticas del p
blacin es ls los elemealizacin des de realizaa ser una dto de moda
simple. s los elemeoceso de matorio con enido para lo que la pobatorio sin rervado no eisponible se
nas situacio
Disponemosbola de la c
s con reemp
actuando d. Naturalmepor x1 = k.
n reemplazagrande: tan
Con la misSi el resultamos a reaacin iniciala misma po.
estar forme figura.
estreo. al proceso dla realizacique la form
proceso de
la misma caentos de la el ensayo. r el ensayo
determinadaalidades.
ntos de la muestreo: m
reemplazamla misma es
blacin no creemplazames devuelto e reduce co
nes que mo
s de una ccaja, anotaplazamiento
de esta formente el nme
La repeticiamiento de
nto como lo
sma caja, sado del enalizar la segl menos la b
osibilidad de
mado por tod
de obtenciin de una ma en que
muestreo n
ada vez quepoblacin t
o y obtener ua modalidad
poblacin tmuestreo ale
miento: cuas devuelto
cambia tras miento: cua
a la poblacon cada exp
ostrarn las
caja en la qmos su nmo.
ma la poblaero obtenidn de este
e tamao n.sea el nm
supongamonsayo es lagunda pruebola k. Por e ser elegid
dos los pun
n de muesserie de n e se realiz
nos permitir
e se realizatengan la m
un elementod o, por el c
tienen la meatorio. Pueando tras la la poblacla realizacindo tras la
cin antes dperimentaci
s diferencias
que hay N mero (k, por
acin no cado es el prim
procedimie Por constr
mero de ens
os que trasa bola de neba la poblatanto, los (
dos que los
tos del cua
tras. Naturaensayos so
zan los ens
rn caracter
un ensayomisma posib
o de la pocontrario, pu
misma posibde ser de dla realizaci
cin antes dn de cada a realizacide la siguienn.
s y coincide
bolas numr ejemplo) y
ambia de cmer elemenento n vecesruccin, n payos que re
s extraer cnmero k, acin ha cak-1) elemende la pobla
adrado [1, 4
almente cadobre los elesayos dete
rizar los dis
o. bilidad de s
oblacin, eueda ser un
bilidad de sdos tipos: n de una
de realizar l prueba.
n de cadante prueba.
encias entre
meradas dey devolvemo
composicinnto de nuests nos propopuede tomaealicemos.
cada bola ecomo en lambiado: cntos que quacin inicial
9
]x[1, 4] que
da muestraementos deerminar la
stintos tipos
er elegidos
l valor X()na de entre
er elegidos
a prueba ella siguiente
a prueba el. Por lo que
e uno y otro
e 1 a N. Sios la bola a
n entre unatra muestraorciona unaar cualquier
esta no esa situacinontiene los
uedan en la(aunque si
9
e
a e a
s
s
) e
s
l e
l e
o
i a
a a a r
s n s a i
10
En este caso, el muestreo es sin reemplazamiento, y las muestras obtenidas se llaman
muestras aleatorias sin reemplazamiento. Por construccin, estas muestras no pueden tener un tamao n superior a N (tamao de la poblacin inicial), ya que tras N ensayos no quedar ningn elemento en la poblacin.
Situacin 3. Supongamos ahora que disponemos de un dado cuyas caras estn
numeradas de 1 a 6. Cada ensayo consiste en un lanzamiento del dado y la posterior anotacin del resultado obtenido. En este caso no podemos distinguir entre muestreo con o sin reemplazamiento. Por la naturaleza del experimento, tras cada ensayo la poblacin es exactamente la misma que antes.
Situacin 4. Si la poblacin es muy numerosa, por ejemplo la constituida por los 6,500 millones de habitantes del planeta Tierra, y la prueba consiste en la eleccin al azar de una persona y la determinacin de su peso, a todos los efectos prcticos, la devolucin o no de esa persona a la poblacin original no va a afectar significativamente los resultados de las siguientes pruebas.
De estas situaciones se pueden extraer dos caractersticas de los procesos de toma de muestras aleatorias:
i) Si las poblaciones son finitas, el tipo de muestreo condiciona la estructura de las muestras obtenidas (muestreo con o sin reemplazamiento). En este caso, la influencia del tipo de muestreo disminuye a medida que aumenta el tamao de la poblacin.
ii) Si las poblaciones son infinitas, el tipo de muestreo no tendr una influencia significativa en las muestras obtenidas.
En general, en un experimento aleatorio destacan tres caractersticas bsicas: 1. Se puede repetir un gran nmero de veces bajo un conjunto de condiciones estables
(condicin de repetibilidad indefinida). 2. En cada prueba del experimento no se puede predecir el resultado que se va a obtener
sino la pertenencia del mismo a un conjunto determinado de posibles resultados (condicin de azar).
3. La frecuencia relativa de cada resultado, el cociente de dividir el nmero de veces que se ha repetido por el nmero total de pruebas realizadas, tiende a estabilizarse en torno a un nmero fijo cuando el nmero de pruebas crece indefinidamente (condicin de regularidad estadstica).
2. Tablas de frecuencias y representaciones grficas de un conjunto de datos.
En este apartado vamos a ocuparnos de dos herramientas bsicas de la Estadstica
descriptiva. Dada una muestra (x1, x2, ..., xi, ..., xn), resumir la informacin en una tabla de datos agrupados y, representar grficamente la informacin que nos proporciona dicha tabla.
Veremos como realizar estas operaciones manualmente, utilizando muestras de pequeo
tamao, con el objetivo de que se adquieran las habilidades necesarias para entender el significado de los clculos y grficos, reservando el tratamiento de muestras de tamao mediano o grande para el uso de los programas estadsticos en las prcticas (por ejemplo, Minitab). 2.1. Frecuencias de una variable.
Bsicamente, una tabla de datos agrupados se obtiene dibujando una tabla de dos filas, y tantas columnas como modalidades o clases de modalidades de nuestra variable, escribiendo en
11
las casillas de la primera fila el nombre de las modalidades o clases y, en las correspondientes casillas de la segunda fila, el nmero de elementos de la muestra cuyo valor es igual a esa modalidad o est dentro de esa clase. Esta cantidad o conteo de valores de la muestra se denomina frecuencia.
En particular, utilizaremos la siguiente nomenclatura segn tratemos con una variable
cualitativa o cuantitativa discreta, o con una variable cuantitativa continua: Variable cualitativa o cuantitativa discreta: Sus modalidades T = {t1, t2, ..., ti, ..., tk}
forman la primera fila de la tabla y para cada modalidad ti, se llama frecuencia absoluta de ti a:
fi = f(ti) = nmero de elementos de la muestra iguales a ti que completa la segunda fila de la tabla.
Variable cuantitativa continua: El intervalo de modalidades T=[a, b] se divide en nmero conveniente k de subintervalos disjuntos (particin), llamados intervalos de clase
A1 = [a0, a1], A2 = (a1, a2], , Ai = (ai-1, ai], , Ak = (ak-1, ak] que forman la primera fila de la tabla, y la segunda fila se construye con las frecuencias absolutas de cada intervalo de clase, esto es, para cada intervalo Ai=(ai-1, ai], su frecuencia absoluta es el nmero de elementos de la muestra cuyo valor est comprendido entre ai-1 y ai:
fi = f((ai-1, ai]) = nmero de elementos de la muestra cuyo valor entre ai-1 y ai.
Observar que en el caso de variable cuantitativa continua, tambin suele utilizarse las marcas de clase (punto de medio de cada intervalo de clase) como valores representativos para la primera fila de la tabla de frecuencias.
Propiedades.
i) fi > 0, para i = 1, 2,, k.
ii) =k i1
f n .
iii) = + = +i j i j i jf(t , t ) f(t ) f(t ) f f iv) f((ai-1, ai] (aj-1, aj]) = f((ai-1, ai])+f((aj-1, aj]) = fi +fj .
A partir de estas frecuencias absolutas se pueden construir las denominadas frecuencias
absolutas acumuladas para variables cuantitativas. La frecuencia absoluta acumulada hasta la modalidad ti, es la suma de las frecuencias de todas las modalidades inferiores o iguales a ti y se representa por Fi. As,
Si la variable X es discreta la frecuencia acumulada es el nmero de datos de la muestra con valor menor o igual que ti
Fi = f(X < ti) = =
= + + +i r 1 2 ir 1
f f f .... f .
Si la variable es continua la frecuencia acumulada es el nmero de datos de la muestra con valor menor o igual que ai
Fi = f(X < ai) = f([a0,a1])+f((a1,a2])+...+f((ai-1,ai]) = =
= + + +i r 1 2 ir 1
f f f .... f .
Las frecuencias acumuladas tienen las siguientes propiedades:
i) iF 0 , para i = 1, 2,, k. ii)
= +i i 1 iF F f . iii) =kF n .
Otra forma de expresar las frecuencias absolutas, acumuladas o no acumuladas, es
relativizando sus valores con respecto al tamao de la muestra, es decir, dividiendo las frecuencias absolutas por el tamao muestral n, obtenindose las frecuencias relativas.
12
En este sentido, las frecuencias relativas no acumuladas y las frecuencias relativas
acumuladas se definen como sigue: Si la variable es discreta, para cada modalidad ti
o su frecuencia relativ es hi = h(ti) = = fi/n, o su frecuencia relativa acumulada es Hi = H(ti) = = Fi/n.
Si la variable es continua, para cada intervalo de clase (ai-1, ai] o su frecuencia relativa es hi = h((ai-1, ai]) = fi/n, o su frecuencia relativa acumulada es Hi = H((ai-1, ai]) = Fi/n.
Estas frecuencias relativas no acumuladas satisfacen las siguientes propiedades:
i) 0 < ih < 1, para i = 1, 2,, k.
ii) =k i1
h 1.
iii) = + = +i j i j i jh(t ,t ) h(t ) h(t ) h h iv) h((ai-1, ai] (aj-1, aj]) = h((ai-1, ai])+h((aj-1, aj]) = hi +hj
y las frecuencias relativas acumuladas verifican:
i) 0 < iH 1, para i = 1, 2,, k. ii)
= +i i 1 iH H h . iii) =kH 1.
Observar que en la prctica tambin es habitual expresar estas frecuencias relativas, que
por definicin se encuentran en el intervalo (0,1), en trminos de porcentajes para facilitar su interpretacin.
Veamos a continuacin la forma que adoptan las tablas de frecuencias para cada tipo de
variable (discreta o continua) y cada tipo de frecuencias absolutas o relativas (acumuladas o no acumuladas), para lo que utilizaremos muestras ficticias. Tablas de frecuencias para una variable cualitativa o discreta
En este caso, las siguientes tablas de frecuencias corresponden a una variable con 5 modalidades y una muestra de tamao 21.
Tabla 4. Frecuencias absolutas no acumuladas
Modalidades ti t2 t3 t4 t5 Frecuencias f1 = 2 f2 = 5 f3 = 8 f4 = 4 f5 = 2 n = 21
Tabla 5. Frecuencias absolutas acumuladas
Modalidades ti t2 t3 t4 t5 Frecuencias F1 = 2 F2 = 7 F3 = 15 F4= 19 F5 = 21
Tabla 6. Frecuencias relativas no acumuladas
Modalidades ti t2 t3 t4 t5 Frecuencias h1= 2/21 h2 = 5/21 h3 = 8/21 h4 = 4/21 h5 = 2/21 1
Tabla 7. Frecuencias relativas acumuladas
Modalidades ti t2 t3 t4 t5 Frecuencias H1 = 2/21 H2 = 7/21 H3 = 15/21 H4 = 19/21 H5 = 21/21
13
Tablas de frecuencias para una variable cuantitativa continua
En este caso, las siguientes tablas de frecuencias corresponden a una variable continua con conjunto de modalidades T = [a, b], y una muestra de tamao 50. Para construir las tablas de frecuencias, tenemos que estalecer los intervalos de clase que forman la particin del intervalo [a,b].
As, teniendo en cuenta que a y b son los valores mnimo y mximo que puede tomar la
variable, se elige un nmero de intervalos de clase k para agrupar los n datos, por ejemplo puede calcularse mediante la regla de Sturges u otras similares. En este caso, si se toma k=5, los extremos de los intervalos de clase se obtienen como sigue:
Se determina la amplitud h de cada clase: h = (b a)/k. Se calculan los lmites de clase: ai, para i = 0, 1, 2,...., k, mediante las relaciones:
a0 = a, a1 = a + h, a2 = a1 + h,..., ak = ak-1 + h = b.
Se calculan las marcas de clase de cada intervalo: zi, = (ai-1 + ai)/2, para i = 1, 2, ..., k.
Tabla 8. Frecuencias absolutas no acumuladas Clases [a0, a1] (a1, a2] (a2, a3] (a3, a4] (a4, a5]
Marcas de clase z1 z2 z3 z4 z5
Frecuencias f1 = 3 f2 = 9 f3 = 15 f4 = 13 f5 = 10 n = 50
Tabla 9. Frecuencias absolutas acumuladas Clases [a0, a1] (a1, a2] (a2, a3] (a3, a4] (a4, a5]
Marcas de clase z1 z2 z3 z4 z5
Frecuencias F1 = 3 F2 = 12 Fi = 27 Fk-1 = 40 Fk = 50
Tabla 10. Frecuencias relativas no acumuladas Clases [a0, a1] (a1, a2] (a2, a3] (a3, a4] (a4, a5]
Marcas de clase z1 z2 z3 z4 z5 Frecuencias h1 = 3/50 h2 = 9/50 h3 = 15/50 h4 = 13/50 hk = 10/50 1
Tabla 11. Frecuencias relativas acumuladas
Clases [a0, a1] (a1, a2] (a2, a3] (a3, a4] (a4, a5]
Marcas de clase z1 z2 z3 z4 z5
Frecuencias H1 = 3/50 H2 = 12/50 H3 = 27/50 H4 = 40/50 H5 = 50/50 2.2. Representaciones grficas.
Como indicbamos ms arriba las representaciones grficas tienen la finalidad de visualizar la informacin procedente de la muestra cuando se ha sintetizado en una tabla de frecuencias agrupadas.
Por ejemplo, las siguientes grficas ilustran algunos de los casos bsicos para representar
las frecuencias de una variable segn su naturaleza (cualitativa o cuantitativa), las cuales son sencillas de realizar con cualquier programa estadstico.
14
Grfico de sectores (variables cualitativas)
PastorCanicheDogoMastnMaltsDobermanGalgoLabrador
Category
Pictograma de Razas
N = 202 Diagrama de barras (variables discretas)
86420
9
8
7
6
5
4
3
2
1
0
Parsitos
Freq
uenc
y
Histogram of Parsitos
Polgono de frecuencias acumuladas o polgono acumulativo (variables discretas)
10987654321
500
400
300
200
100
0
Pinos/parcelaFr
ec.A
cum
ulad
as.
Polgono acumulativo de Pinos/parcela
15
Histograma de frecuencias absolutas no acumuladas (variables continuas)
16141210864
14
12
10
8
6
4
2
0
Periodo de latencia
Freq
uenc
y
Histograma de Periodo de Latencia
Tamao de muestra = n = 100 Histograma de frecuencias absolutas acumuladas (variables continuas)
86420
50
40
30
20
10
0
Nmero de Parsitos
Frec
uenc
ia a
cum
ulad
a
Histograma acumulativo de Parsitos
3. Medidas descriptivas de un conjunto de datos de una variable.
Comos hemos mencionado anteriormente, las medidas descriptivas o estadsticos reducen la cantidad de datos proporcionando valores que resumen la informacin de la muestra describiendo las caractersticas principales del conjunto de datos.
As, el trmino estadstico tiene un doble significado. Por una parte, un estadstico es una
funcin de los valores de la muestra, o una funcin de las modalidades de la variable y de sus frecuencias correspondientes,
E = f 1 2 i n(x ,x ,...,x ,...x ) . Por otra parte, un estadstico es el valor obtenido cuando en esta funcin de la muestra se
sustituyen las variables por las observaciones o datos concretos de la muestra. En este caso, se suele hablar de valor del estadstico, utilizando el smbolo e para indicar el nmero obtenido al sustituir cada variable ix por su valor concreto en la muestra.
16
Por ejemplo, consideremos una muestra cualquiera 1 2 3(x ,x ,x ) de una variable X. La funcin = + 21 2 3y x 2.x x es un estadstico. Si se realizan las tres pruebas, obteniendo la muestra concreta 1 2 3(x ,x ,x ) = (2, 5, -2), entonces
22 2.5 ( 2) 4y = + = es el valor del estadstico. Como vimos, los estadsticos ms comunes se clasifican estadsticos de localizacin,
dispersin y forma. No obstante, la mayora de ellos se basan en los estadsticos llamados momentos: momentos respecto del origen y momentos centrados.
Se llama momento respecto del origen de orden r a la funcin: Si los datos proceden de la muestra sin agrupar
ar = n ri
1x
n, para r = 0, 1, 2, 3,.
Si los datos proceden de una variable discreta y se han agrupado en una tabla de frecuencias, con modalidades ti y frecuencias fi, el momento se calcular por medio de la frmula
ar = k ri i
1f .t
n, para r = 0, 1, 2, 3,.
Si los datos proceden de una variable continua y se han agrupado en una tabla de frecuencias, con marcas de clase zi y frecuencias fi, utilizaremos la frmula
ar = k ri i
1f .z
n, para r = 0, 1, 2, 3,.
Los momentos respecto del origen de orden 1, 2, 3 y 4 sern utilizados frecuentemente en
el clculo de distintos estadsticos: a0 = 1.
a1 = + + + +
=
n i1 2 3 n1
xx x x ... x
n n= x se llama media aritmtica o media.
a2 = n 2i
1x
n =
+ + +2 2 21 2 nx x .... xn
= 2x es la media de los cuadrados.
a3 = n 3i
1x
n =
+ + +3 3 31 2 nx x .... xn
= 3x es la media de los cubos.
a4 = n 4i
1x
n =
+ + +4 4 41 2 nx x .... xn
= 4x es la media de las potencias de orden cuatro.
Los momentos centrados o respecto de la media se definen y calculan como los momentos
respecto del origen cuando los datos ix son sustituidos por sus desviaciones respecto de la media i(x x) . As, el momento central de orden r,se define por medio de la frmula:
Para una muestra sin agrupar,
mr = n ri
1(x x)
n, para r = 0, 1, 2, 3,.
17
Para una muestra agrupada, de una variable discreta o continua, las frmulas son equivalentes a las de los momentos respecto al origen (con las correspondientes sustituciones de ix por i(t x) para las primeras, y por i(z x) para las segundas.
Observar que los momentos centrales estn relacionados con los momentos respecto del
origen, por ejemplo para los 4 primeros momentos de cada tipo. m0 = a0 = 1. m1 = a1 - a1 = x x = 0. m2 = a2 (a1)2 = 2x - ( x )2, se llama varianza de la muestra ( desviacin tpica). m3 = a3 3. a2. a1 + (a1)3 =
3x - 3. 2x + 2.( x )3.
m4 = a4 4. a3.a1 + 6. a2.(a1)2 3.(a1)4 = 4x - 4. 3x . x + 6. 2x .( x )2 3.( x )4.
3.1. Estadsticos de localizacin
Los estadsticos de posicin o localizacin son valores obtenidos a partir de la muestra que nos indican caractersticas sobre la posicin, generalmente central, de los datos. Veamos algunos de ellos. 3.1.1. Media aritmtica x
A partir de la muestra en bruto: x = n i
1x
n
A partir de la tabla de frecuencias absolutas: x = k i i
1f .t
n
A partir de la tabla de frecuencias relativas: =k i i1
x h .t
Propiedades de la media: i) Si todos los datos de la muestra se multiplican por un mismo nmero a, la media de
los nuevos datos es igual al producto de a por la media de los datos originales: Si yi = a. xi, entonces =y a.x .
ii) Si a todos los datos de una muestra se les suma una constante b, la media de los nuevos datos es igual a la suma de b y la media de los datos originales:
Si yi = xi + b, entonces = +y x b . iii) Si se tipifican o estandariza los datos, es decir, se les resta la media de la muestra y las
diferencias se dividen por la desviacin tpica de la muestra, los nuevos datos tienen media 0 y desviacin tpica 1:
Si
=i
ix
(x x)ys
, entonces y 0= , ys 1= .
iv) Si M1 = (x1, x2, x3,..... xn-1, xn) y M2= (y1, y2, y3,......, ym-1, ym) son dos muestras de medias x e y , respectivamente, entonces la media de la muestra resultante de la unin, M1 U M2 = (x1, x2, x3,..... xn-1, xn) U (y1, y2, y3,..... ym-1, ym), tiene la siguiente media:
+=
+
(n.x m.y)w(n m)
donde (w1, w2, w3,..... wn+m-1, wn+m)=(x1, x2, x3,..... xn-1, xn, y1, y2, y3,..... ym-1, ym). Ejemplo. Los siguientes grficos proceden de los datos de la variable IQ (cociente de inteligencia) de una muestra de 100 personas (los datos pueden encontrarse en Datos 1: fichero Inteligencia).
18
En ellos pueden observarse los efectos producidos en el histograma de la variable IQ cuando se le aplican, sucesivamente, las transformaciones (100 + IQ), (IQ/4) y (100 + IQ/4).
Grfico 2
Grfico 3
3.1.2. Medias geomtrica xg y armnica xh.
En algunos experimentos los datos presentan rangos de variacin de los datos que hacen difcil la visualizacin y el uso de los estadsticos para su interpretacin. Dos ejemplos pueden ilustrar estas situaciones. Ejemplo 5. Si se est estudiando la distribucin de los ingresos anuales de las personas individuales y de las empresas nos encontramos con que los ingresos varan entre los 1000 euros (103) y los 10 millones de euros (107), mientras que las frecuencias, el nmero de personas o empresas que ingresan esas cantidades, varan entre 2.000 millones (2.109), para los ingresos menores, y 10.000 (104).
En esta situacin, ningn grfico razonable (del tamao de un folio, por ejemplo) puede ofrecernos una visin realista de la distribucin de los ingresos junto a la de los perceptores de los mismos. Ejemplo 6. Cuando se intenta establecer el comportamiento de las burbujas de oxgeno en la sangre nos encontramos con que los dimetros oscilan entre 0.00017 y 0.00312 milmetros, por ejemplo. Es decir se encuentran el un rango que va de 10-4 y 10-3.
Para conseguir llevar a los datos a situaciones manejables se emplean transformaciones como la logartmica ln(x) o la funcin 1/x. La primera transforma un nmero como 5.107 en el nmero 17,73; la segunda transforma un nmero como 0.00312 en el nmero 320,51.
Las dos medias, geomtrica y armnica, se obtienen de manera similar: se transforman los datos, se halla la media de los datos transformados, y se aplica la transformacin inversa a la
24020016012080
40
30
20
10
0
Data
Freq
uenc
y
IQIQ+100
Variable
Histogram of IQ; IQ+100
14012010080604020
60
50
40
30
20
10
0
Data
Freq
uenc
y
IQIQ/4
Variable
Histogram of IQ; IQ/4
15014013012011010090
40
30
20
10
0
Data
Freq
uenc
y
IQ100+IQ/4
Variable
Histogram of IQ; 100+IQ/4
media as ambas me
3.1.3. Mo
En
encontremmodas.
Los
primera tie
La
longitudes superior a estructura cuales los 3.1.4. Me
La siguientes:
al m al m
Util
la siguiente F(m 1
En
se ordenan
obtenida. Sedias.
Media geo
Media arm
oda: Mo. Para una frecuenciaPara una v
general, unmos ms de
s dos grficene una sola
existencia de los animla de las heen dos suestadstico
ediana: m. mediana m: menos el 50menos el 50
izando la ne manera
m) = f(X < mF(m) = f(X
el caso de n los datos
Sin entrar en
mtrica: xg
nica: xh =
variable d.
variable con
na poblaciuna moda
cos siguiena moda, mie
de dos momales de unembras. De
ubpoblacions no solo la
m de una m
0% de los va0% de los va
nomenclatur
m) > n/2, y > m) > n/2.
una variabs de la mue
n estos pro
=
n i1
ln(x )
ne
+ + ++1 2
n1 1 ....
x x
discreta: la
ntinua: la mo
n puede te. Se emple
ntes muestentras que
odas en la na especie ee hecho, la es, la de lo
a moda) tom
muestra es e
alores de laalores de la
ra usual, es
ble discreta,estra de me
cesos, vere
+4
1x
moda es
oda es la m
ener varias ea el trmin
tran los hisla segunda
Grfico 4
segunda men la que lopoblacin tos machos
man diferent
el valor de
a muestra sa muestra s
stas dos co
la medianaenor a mayo
emos las f
la modali
marca de la c
modas, lo o poblacin
stogramas d posee dos
4
muestra se os machos otal de dich y la de lates valores.
la variable
on inferioreon superior
ndiciones s
a se obtienor y se rea
rmulas que
dad de la
clase con m
que implican n-modal a
de dos mu.
explica porposen una hos animales hembras.
que verific
es o iguales res o iguale
se expresan
e por un oblizan dos re
e nos permit
a variable
mayor frecu
a que en una aquella qu
uestras de
rque esta clongitud no
es puede cos, en cada
ca las dos c
a m, y es a m.
n matemtic
bservacin ecuentos d
19
ten calcular
con mayor
encia.
na muestraue posee n
las que la
consiste entablemente
onsiderarseuna de las
condiciones
camente de
y recuento:e los datos
9
r
r
a n
a
n e e s
s
e
: s
20
reordenados, el primero de izquierda a derecha y el segundo de derecha a izquierda, hasta localizar el valor que verifica las dos condiciones de la definicin.
Supongamos que la muestra M de tamao 48: M = (5, 7, 8, 7, 6. 7, 3, 4, 0, 9, 7, 5, 4, 3, 5, 4, 6, 8, 9, 7, 2, 5,1, 1, 2, 6, 4, 7, 6, 9, 3, 3, 6, 7, 3, 4, 4, 6, 7, 5, 9, 0, 1, 2, 7, 4, 1, 8)
Observemos, en primer lugar que n/2 = 48/2 = 24, lo que supone que la mediana m debe
dejar a su izquierda al menos 24 valores de la muestra y a su derecha al menos 24 valores. Para proceder a su determinacin, ordenemos los elementos de la muestra de menor a
mayor y contemos de izquierda a derecha 24 lugares y otros 24 de derecha a izquierda: 0, 0, 1, 1, 1, 1, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 7, 7, 7, 7, 7, 7, 7, 7, 7, 8, 8, 8, 9, 9, 9, 9.
entonces, el valor 5 es la mediana ya que f(X < 5) = 26 >24 y f(X > 5) = 28 > 24.
En el caso de una variable continua con los datos agrupados por intervalos, se identifica el intervalo para el se verifica una de las dos condiciones de la mediana, supongamos que es el intervalo de clase (ai, ai+1] para el que
Fi < 2n < Fi+1 o Hi <
12
< Hi+1,
segn utilicemos frecuencias acumuladas absolutas o relativas, respectivamente, entonces el valor m de la mediana se calcula por:
i
i i 1 ii 1 i
n( F )2m a .(a a )
(F F) ++
= +
= i
i i 1 ii 1 i
1( H )2a .(a a )
(H H ) ++
+
.
Notar que para el estadstico de posicin moda M0 indica el valor de la variable con mayor
frecuencia muestral, y el estadstico media x proporciona la situacin del centro de gravedad de la muestra. Asimismo, la mediana m de una muestra nos serva para situar un valor de la variable que, con matizaciones, dejaba un 50% de los datos por debajo de l, y el restante 50% por encima. Tambin las observaciones mnima y mxima pueden entenderse como medidas de posicin: el 100% de los datos son superiores o iguales a la observacin mnima, y el 100% de los datos son inferiores o iguales a la observacin mxima.
Vamos, pues, a generalizar la nocin de mediana a unos nuevos estadsticos denominados
cuantiles, los cuales tienen la caracterstica de dejar por debajo de ellos un porcentaje del p % de los valores de la muestra (y, lgicamente, dejarn por encima un porcentaje del (100 p) % de los valores muestrales). En particular, consideraremos un cuantil o percentil p % que se representar con el smbolo cp, siendo p un nmero comprendido entre 0 y 100. 3.1.5. Cuantiles.
Un cuantil al p% de una muestra es el valor cp de la variable que verifica las dos condiciones siguientes:
al menos el p% de los valores de la muestra son inferiores o iguales a cp, y al menos el p% de los valores de la muestra son superiores o iguales a cp.
Utilizando la nomenclatura usual, estas dos condiciones se expresan matemticamente de
la siguiente manera F(cp) = f(X < cp) > n.p/100, 1 F(cp) = f(X > cp) > n.p/100.
Tipos usuales de cuantiles. Cuartiles: cuantiles para p = 25, 50 y 75 %:
q1 = cuartil inferior, q2 = m = mediana, q3 = cuartil superior. Deciles: cuantiles para p = 10, 20,....., 90 %: d10, d20,..., d90. Centiles o percentiles: cuantiles para p = 1, 2, 3,...., 98 y 99 %: p1, p2, p3,..., p97, p98, p99.
Par
localizaremtiene que necesarios
3.2. Est
En 6.00, pero en los sigmucho me
Los
numricas ejemplo, lahistograma Rango o r
Recorrido
Desviaci
3.2.1. Var
La datos de la
ra el clcumos el interv
verificar las para aplica
tadsticos d
primer lugse encuenuientes his
enos en el te
s estadstico menores a medida dea, 1.26 para
recorrido: R
o intercuart
n media: D
rianza sesgvarianza o
a muestra:
Para una m
Para una t
Para una t
ulo de los valo de clas
a propiedadar las siguie
p ic a (a= +
de dispers
ar, veamostran desigu
stogramas: ercero.
os de dispea los histoe dispersi
a el segundo
R = xmax x
tlico: Q = q
D =
n
i1
x
n
gada o varianza s
muestra en
abla de dat
abla de dat
cuantiles, se (ai, ai+1]
d Fi < n.p/1entes frmu
i 1 ii
n(10a a ).(F+
in
s tres casoualmente disms conce
ersin cuantogramas men denominao y 2.45 pa
min.
q3 q1.
x
sesgada de
bruto: 2Xs =
tos agrupad
tos agrupad
en la taben el que s100 < Fi+1. ulas:
i
ii 1 i
.p F )00 a
F F)+
=
s de los daspersos resentrados en
Grfico 5
tifican esta enos dispeada desviacra el tercero
e una varia
n
i1
x x
n
=
( )
dos de una v
dos de una v
la de frecse encuentr
Entonces
i 1 i(a a ).++
atos que tispecto a esn el primer
propiedad ersos y maycin tpica to:
able cuantit
2).
variable dis
variable con
uencias aga el cuantil tendremos
i
i 1 i
(n.p H )(H H )+
.
enen la mie valor ceno, algo me
de los datoyores a lostoma el val
ativa se de
screta: 2Xs =
ntinua: 2Xs =
grupadas a cp utilizand
s todos los
sma mediantral, como enos en el
os: asignan s ms dispor 0.76 par
efine segn
k
i i1
f t x
n
=
.(k
i i1
f z
n
=
.(
21
acumuladasdo que este
elementos
a aritmticase observasegundo y
cantidadespersos. Porra el primer
n el tipo de
2x).
2x).
s e s
a a y
s r r
e
22
3.2.2. Varianza insesgada (cuasivarianza):
Para una muestra en bruto:
n2
i2 1X
x xS
n 1
=
( )( )
.
Para una tabla de datos agrupados de una variable discreta:
k2
i i2 1X
f t xS
n 1
=
.( )( ) .
Para una tabla de datos agrupados de una variable continua:
k2
i i2 1X
f z xS
n 1
=
.( )( )
Propiedades de la varianza:
i) Si los datos xi se multiplican por un nmero a, yi = a.xi, las varianzas sx2 y sy2 estn relacionadas por la frmula
sy2 = a2.sx2. ii) Si a los datos xi se les suma un nmero b, yi = xi + b, las varianzas sx2 y sy2 son
iguales: sy2 = sx2.
iii) Las varianzas sesgada e insesgada estn relacionadas por la igualdad: 2 2X X
nS sn 1
.=
.
iv) Si M1 = (x1, x2, ..., xn) y M2= (y1, y2, ..., ym) son dos muestras de medias x e y , y varianzas sx2 y sy2, respectivamente, entonces la varianza media de la unin de las muestras M1 U M2 = (x1, x2, x3,..... xn-1, xn) U (y1, y2, y3,..... ym-1, ym), tiene la siguiente varianza:
2 2 2 2X y2
w
n s m s n x w m y wsn m n m
+ +
= ++ +
. . .( ) .( )( ) ( )
donde (w1, w2, ..., wn+m)=(x1, x2, ..., xn, y1, y2, ..., ym). Desviaciones tpicas:
Las desviacin tpica se define mediante la raz cuadrada positiva de la varianza: La desviacin tpica sesgada: La desviacin tpica insesgada:
Propiedades de la desviacin tpica: i) Si los datos xi se multiplican por un nmero a, yi = a.xi, las desviaciones tpicas sx y
sy estn relacionadas por la frmula: sy = |a|.sx.
ii) Si a los datos xi se les suma un nmero b, yi = xi + b, las desviaciones tpicas sx y sy son iguales:
sy = sx.
iii) Las desviaciones tpicas se relacionan por la igualdad: X XnS s
n 1.=
.
3.2.3. Coeficiente de variacin:
Coeficiente de variacin sesgado: cvx = 100. Xsx
.
Coeficiente de variacin insesgado: CVx = 100. XSx
.
3.3. Est
3.3.1. Coe
En tipo de sim
Com
medias, caderecha. A
En
cuantitativo
Coeficient
Coeficient
Propiedade
i) ii) iii) iv)
3.3.2. CoeLos
histograma
y su repres
tadsticos d
eficientes dprimer luga
metra o asim
mo se obseada histogr
As, Un histograUn histogrcola derecUn histogrcola izquie
este marco de la desv
te de asime
te de asime
es: Si la asSi hay Si la asg1 es a
eficientes ds coeficienta respecto a
sentacin e
de forma
de asimetrar mostraremetra:
erva en los rama queda
ama es simrama es asiha rama es aserda
o, un coefiviacin de l
etra de Fisg1 =
etra de Pe
simetra es simetra: g1simetra es adimensiona
de apuntamtes de cura la curva n
es:
ra. emos un eje
tres histoga dividido e
mtrico si ammtrico por
imtrico po
iciente de aa simetra d
sher: = ((xi x)3/
arson:
g1 =
por la izqui
1 = 0. Adempor la derec
al: no vara
miento o curtosis o apnormal o cam
emplo de tre
Grafico
ramas, conen dos par
mbas colas r la izquierd
or la derech
asimetra ede un histog
/n)/sx3 = (f
+ 1 3(q q 22.m
erda: g1 < 0ms, en este
cha: g1 > 0.al realizar c
urtosis. puntamientompana de G
es conjunto
6
nsiderando crtes, que lla
son simtricda si su col
ha si su co
es un estadgrama.
fi.(zi x)3/n)
2.m).
0. Adems, e caso, x =. Adems, ecambios line
o dan una Gauss, dad ,
os de datos
como refereamaremos
cas respectla izquierda
la derecha
dstico que
/sx3.
en este cas
0m M= en este casoeales de la
medida dea por la ecu
s que refleja
encia de abcola izquie
to a la meda es ms la
es ms la
sirve como
so, x m
o, x m variable.
e la situacuacin
23
an diferente
bscisas suserda y cola
ia arga que su
rga que su
o indicador
0M
0M
cin de un
3
e
s a
u
u
r
n
Por
para comp
Par
intervalo ce
As
del histogr Un
der Un
cen Un
der
r ejemplo, sparar con la
ra ello, divientral est
C
, la curtosisrama situad
histogramarecha y ms
histogramantral
histogramarecha y ms
supongamocurva norm
diremos el centrado en
Cola izquier
s o apuntamas sobre caa es platics alto en la a es mesoc
a es leptocs bajo en la
os que un cmal:
recorrido dn la media a
rda Z
miento se cada una de rtico si es zona centracrtico si co
rtico si es zona centr
Grfico 7
conjunto de
Grfico 8
de la variaaritmtica, e
Zona centra
clasifica tenestos intervms bajo qal oincide con
ms alto qral.
e datos pro
ble en treses decir,
al C
niendo en cvalos:
que la curva
n la curva n
que la curva
porciona el
s intervalos;
Cola derech
cuenta histo
a normal en
normal en la
a normal en
l siguiente
; de tal for
ha
ograma las
n las colas
as colas y
n las colas
24
histograma
rma, que el
tres partes
izquierda y
en la zona
izquierda y
4
a
l
s
y
a
y
25
Definicin. Se llama coeficiente de curtosis al estadstico: g2 = = ((xi x)4/n)/sx4 = (fi.(zi x)4/n)/sx4
o bien, al estadstico: g2 = g2 3.
Propiedades:
i) Si el histograma es platicrtico: g2 < 3 (g2 < 0). ii) Si el histograma es mesocrtico: g2 = 3 (g2 = 0). iii) Si el histograma es leptocrtico: g2 > 3 (g2 > 0). iv) g2 es adimensional: no vara al realizar cambios lineales de la variable.
Top Related