Download - Estadística Descriptiva Univariante

1

DEPARTAMENTO DE ESTADSTICA E I.O. GRADO EN CIENCIAS AMBIENTALES

2014-2015

ESTADSTICA

Bloque I: Estadstica descriptiva

Tema 1. Estadstica descriptiva univariante.

1. Introduccin y definiciones bsicas. 2. Tablas de frecuencias y representaciones grficas de un conjunto de datos. 3. Medidas descriptivas de un conjunto de datos de una variable.

1. Introduccin y definiciones bsicas.

1.1. Introduccin

El concepto de estadstica se deriva del trmino estado, y originalmente se asoci a la

tarea de recopilar datos de inters para el estado (datos econmicos, demogrficos, militares, ...), es decir, lo que hoy en da se conoce como censos.

No obstante, con el crecimiento de los estados y sus poblaciones, surgi la necesidad de

procesar y resumir toda la informacin contenida en los censos para su manejo por parte de los estadistas, lo que aument la utilidad de dichos censos y provoc la evolucin del trmino estadstica, siendo una de las ramas de la estadstica en la actualidad el tratamiento y extraccin de la informacin contenida en el conjunto de datos recopilados.

Aunque en la actualidad, esto supone una parte de todo lo que engloba la estadstica,

como rama de las matemticas, no cabe duda del gran inters que suscitan las estadsticas de la Organizacin Mundial de la Salud, de la Unin Europea y del Instituto Nacional de Estadstica, los censos de poblacin e ndices sobre el estado econmico autonmico, nacional y europeo, llamadas estadsticas oficiales.

En general, al igual que todos los campos cientficos, la estadstica ha experimentado un

gran impulso y desarrollo en el ltimo siglo, lo que hace difcil establecer una definicin concreta de esta rama de las matemticas, por ejemplo, podramos decir que:

La estadstica es el conjunto de las tcnicas de recopilacin de datos, los mecanismos para clasificar y resumir la informacin, y los mtodos para extender los resultados al resto de la poblacin En este contexto, se llama poblacin al conjunto de todos los individuos objeto de estudio,

y muestra a un subconjunto de la poblacin (subconjunto de individuos sobre los que se realiza el experimento).

A partir de este concepto, la Estadstica constituye hoy en da una ciencia imprescindible

para el desarrollo de la mayora de las ciencias. De este modo, la Estadstica suele dividirse en dos ramas: Estadstica Descriptiva y Estadstica Inferencial.

2

En el primer lugar, la Estadstica Descriptiva tiene por objeto la clasificacin y resumen de la informacin contenida en los datos (extraer la informacin de los datos), ya sean de censos (toda la poblacin) o muestras (subconjunto de la poblacin), como por ejemplo en las estadsticas oficiales comentadas anteriormente.

De este modo, para el proceso de extraccin de la mxima informacin contenida en los

datos, se utiliza una serie de medidas con el objetivo de establecer el comportamiento de los mismos, usualmente denominadas medidas descriptivas o estadsticos, las cuales se clasifican en tres tipos fundamentales, dependiendo de la informacin que pretenden determinar o sintetizar: medidas de posicin o localizacin, medidas de dispersin y medidas de forma.

Las medidas de localizacin tienen por objetivo extraer la informacin sobre la posicin y localizacin de los datos.

Las medidas de dispersin pretenden establecer la concentracin de los datos a travs de la variabilidad y dispersin de los mismos con respecto a las medidas de localizacin.

Las medidas de forma intentan determinar el comportamiento de la distribucin de frecuencias de los datos. Adems de estas medidas descriptivas que sintetizan la informacin contenida en los datos

sobre una caracterstica particular, la Estadstica Descriptiva incluye una serie de representaciones de los datos, grficas descriptivas, con el fin de facilitar la interpretacin de las medidas anteriores mediante una imagen. Asimismo, cuando estamos interesados en analizar dos o ms caractersticas sobre la poblacin, disponemos de medidas descriptivas para extraer la informacin de los datos sobre sus relaciones y dependencia.

Cabe sealar, que cuando se analizan muestras (subconjunto de la poblacin), estas

medidas descriptivas intentan exprimir los datos de una muestra para obtener la informacin que contienen, como es el caso de las estadsticas oficiales mencionadas en el apartado anterior, y los resultados que proporcionan corresponden a la propia muestra, aunque el mal uso de estas estadsticas est ampliamente extendido en la sociedad al aceptarlas como resultados vlidos sobre toda la poblacin obviando la componente inferencial de este proceso.

La Estadstica Inferencial corresponde a la extrapolacin de la informacin contenida en

un subconjunto de la poblacin (inferir a toda la poblacin). Por ejemplo, un equipo mdico est investigando un tratamiento para analizar su eficiencia, pero slo dispone de un nmero limitado de pacientes para aplicar el tratamiento de forma experimental y estudiar los procesos de recuperacin, con el objetivo final de establecer, de manera fiable, la eficiencia del tratamiento para todos los pacientes. La Estadstica Inferencial es el proceso de establecer la eficiencia del tratamiento para todos los pacientes a partir del ensayo experimental sobre un subconjunto de ellos.

De este modo, la Inferencia Estadstica es el conjunto de los mtodos que permiten

trasladar los resultados de una muestra a la poblacin de manera fiable (midiendo la incertidumbre o acierto de los resultados, decisiones y sus conclusiones).

Para ello, se utilizan una serie de tcnicas basadas en medidas de extraccin de la

informacin contenida en la muestra, que se clasifican en dos tipos, estimacin y contraste de hiptesis, segn los objetivos que se persiguen en el proceso de inferencia. En este enfoque, a las medidas de extraccin en general se les llama estadsticos, y en particular, dependiendo de la tcnica inferencial, estimadores y estadsticos del contraste, respectivamente.

Los estimadores son funciones de la muestra que pretenden proporcionar estimaciones

(aproximaciones) de alguna caracterstica particular de la poblacin de inters en el problema o experimento; dichos estimadores pueden ser tanto paramtricos como no paramtricos, segn el nivel de generalizacin de la caracterstica a estimar, como por ejemplo estimar el modelo de probabilidad de una variable (no paramtrico) o estimar el parmetro (media, varianza, ...) que determina unvocamente dicho modelo.

3

Adems, cabe distinguir entre los estimadores puntuales y los estimadores por intervalos. En primer lugar, se llama estimador puntual cuando el objetivo consiste en obtener un valor nico (estimacin); en tal caso, se suele requerir ciertas propiedades del estimador con el fin de que la estimacin que proporciona no presente grandes desviaciones de la realidad. Por otro lado, se llama estimador por intervalos cuando proporciona un intervalo de valores, lo que permite realizar la estimacin con una determinada probabilidad de acierto, es decir, que realmente el valor se encuentre en dicho intervalo.

Por ltimo, los contrastes de hiptesis tienen como objetivo principal la toma de decisiones

sobre una condicin de la poblacin, tanto del tipo paramtrico como no paramtrico. En este proceso se decide que la condicin es cierta o falsa a partir de la informacin extraida de la muestra mediante un estadstico (estadstico del contraste), y por consiguiente, cabe la posibilidad de haber optado por una decisin errnea, por lo que el estadstico del contraste permite inferir la informacin suministrada por la muestra a una decisin sobre la poblacin junto con una medida de fiabilidad o seguridad de dicha decisin.

Como hemos comentado algunas estadsticas oficiales de inters para la sociedad en

general, basadas en estadsticos descriptivos que resumen y clasifican la informacin de los censos, por concretar algunas de ellas: las estadsticas sanitarias y epidemiolgicas, los ndices o niveles de riqueza, de precio al consumo, poblacin activa, ... Adems de estas y otras aplicaciones similares, la Estadstica Descriptiva se utiliza para explorar los datos de una muestra como un primer anlisis estadstico en cualquier estudio estadstico.

En relacin a la Estadstica Inferencial, se puede observar que en la actualidad est

considerada como el mtodo cientfico de investigacin en casi todos los campos cientficos, como en demografa, sociologa, psicologa, educacin, historia, filologa, economa, qumica, fsica, meteorologa, ingeniera, ..., en donde cabe destacar las ciencias de la salud, puesto que en estas reas surgieron muchos de los problemas relacionados con los datos obtenidos en la experimentacin y su inferencia al resto de la poblacin, lo que impuls el desarrollo de los principales mtodos actuales de la estadstica. Adems, la amplia aplicacin de las tcnicas estadsticas en estos campos ha dado lugar a una propia disciplina llamada Bioestadstica, que recoge las diversas aplicaciones en biologa, medicina, veterinaria, farmacia, ...

Por ejemplo, un ambientalista es responsable del rea de anlisis de los impactos ambientales en una ONG dedicada al estudio y denuncia de las causas de la degradacin de la atmsfera en zonas metropolitanas. En cada situacin en la que trabaja la organizacin, el ambientalista tiene que analizar multitud de datos procedentes de las mediciones de SO2, Amonaco, CO2, y otros factores contaminantes, en un determinado nmero de lugares de la zona estudiada, as como de los agentes que contaminan (particulares, empresas, explotaciones agrcolas, etc.) En este caso, el ambientalista necesitar conocer si los niveles de SO2 son relevantes en el incremento de las enfermedades pulmonares de las personas de una determinada ciudad.

En resumen, un problema experimental requiere:

Ordenar y analizar grandes cantidades de datos Buscar regularidades que permitan comprender fenmenos concretos Realizar inferencia sobre el comportamiento de la poblacin Encontrar modelos matemticos que expliquen las regularidades encontradas

1.2. Mtodos de la estadstica descriptiva

Ejemplo 1. Supongamos que disponemos de una lista consistente en los pesos de las 5000 vacas de una explotacin ganadera. En principio, tal lista no nos aporta ninguna informacin pertinente sobre la totalidad de los animales, sino de cada uno individualmente. Por ejemplo, de tal lista no se podra dar respuesta inmediata a preguntas sencillas:

qu proporcin de animales pesan menos de 200 Kg?

4

cul es el peso a partir del que se encuentra el 10% de los animales de mayor peso? Para poder utilizar esta informacin de forma eficaz, con vistas a su posterior utilizacin, la

estadstica descriptiva utiliza, bsicamente, tres herramientas: el agrupamiento de los datos en tablas de frecuencias, la representacin grfica de los datos mediante histogramas y otros grficos, y la reduccin de los datos mediante nmeros denominados estadsticos.

Para agilizar la exposicin inmediata, utilizaremos el trmino muestra para designar tanto

la lista de los pesos de las vacas del ejemplo anterior, como cualquier otra coleccin de datos (reservando la definicin precisa para el apartado 2). Una forma cmoda, entonces, de escribir una muestra, que nos sirva para cualquier tipo de datos, es

1 2 i n(x ,x ,....,x ,.....,x ) , donde: 1x es el primer elemento de nuestra lista, 2x es el segundo, ix el situado en el lugar i-simo, y nx el situado en el ltimo lugar.

Utilicemos, tambin de manera informal, la nocin de clase como la de un conjunto

formado por elementos con alguna propiedad comn. Por ejemplo, en el caso 1 una clase correspondera a todos los perros de una determinada raza; en el segundo, podramos hablar de la clase de las empresas cuyas emisiones de CO2 a la atmsfera supera una cantidad determinada, o, en el caso de la explotacin ganadera, una clase puede ser la formada por todas las vacas cuyo peso est comprendido entre 250 y 350 kilogramos.

Veamos ahora los mtodos bsicos de trabajo de la Estadstica descriptiva.

1.2.1. Agrupamiento de los datos. Se entiende por agrupar los datos el proceso por el cul asociamos cada dato ix a una, y

solo a una clase, de un conjunto de clases preestablecidas C1, C2, ., Ck, cada una de las cuales no tiene elementos comunes con ninguna de las restantes.

Cuando se ha realizado el proceso con todos los elementos de la muestra, nos

encontraremos con que f1 datos se han asociado con C1, f2 se han asociado con C2, etc. En general, el nmero fi, que indica cuantos elementos de la muestra se han asociado con la clase Ci, se denomina la frecuencia absoluta de la clase Ci.

Podemos representar de forma sinttica el resultado del proceso mediante lo que

denominaremos una tabla de frecuencias agrupadas:

Tabla 1

Clases C1 C2 Ci Ck

Frecuencias absolutas f1 f2 fi fk n

Si el veterinario del Caso 1 estuviese interesado en averiguar los tipos de perros que han pasado por su clnica, podra identificar las clases con las razas, C1 = {dogo}, C2 = {caniche}, C3 = {doberman}, C4 = {malts}, C5 = {pastor}, y contar el nmero de perros que hay de cada raza. Esto le permitira construir la siguiente tabla de frecuencias:

Tabla 2

Clases Pastor Caniche Dogo Mastn Malts Doberman Galgo Labrador

Frecuencias absolutas f1 =15 f2 =40 f3=12 f4 =30 f5 =75 f6 =15 f7=10 f8 =5

5

Si en lugar de por las razas estuviese interesado en el comportamiento de los pesos de los animales las clases podran estar caracterizadas por intervalos cuyos lmites indicasen lmites inferior y superior de los pesos. Por ejemplo, la clase C1 sera la formada por todos los pesos comprendidos entre 0 y 5 kilogramos, la C2 la correspondiente a los pesos comprendidos entre 5 y 10, la C3 la correspondiente a los pesos comprendidos entre 10 y 15, etc. Entonces la tabla adoptara la siguiente forma:

Tabla 3

Clases 0 - 5 5 - 10 10 - 15 15 - 20 20 - 25 25 - 30

Frecuencias absolutas f1 = 10 f1 = 15 f1 = 20 f1 = 14 f1 = 6 f1 = 3 68 1.2.2. Representacin de los datos.

Para visualizar la informacin de una tabla de datos agrupados se recurre a distintos tipos de grficos (pictogramas, histogramas, polgonos, entre otros), con la nica restriccin de que representen fielmente el peso relativo de cada clase, por medio de su frecuencia absoluta, en relacin a las dems clases.

Por ejemplo, despus de obtener la tabla de frecuencias para las distintas razas, esta se

podra visualizar con un pictograma construido de la siguiente forma: dibujado un circulo, este se puede dividir en tantos sectores circulares como clases tengamos en nuestra tabla, dndole a cada uno de los sectores una amplitud (en grados) proporcional a la frecuencia de la clase a la que vaya a representar.

Por este sencillo procedimiento se llega, para la tabla de frecuencias de la distribucin de

razas, al siguiente grfico:

Grfico 1

PastorCanicheDogoMastnMaltsDobermanGalgoLabrador

Category

Pictograma de Razas

N = 202 1.2.3. Reduccin de los datos.

Una muestra se ha reducido cuando a partir de sus elementos se han calculado una reducida cantidad de nmeros, llamados estadsticos, que sinteticen de la manera ms fiel posible las caractersticas y tendencias de la muestra.

Por ejemplo, la cantidad 1 2 1n nx x .... x xx

n

+ + + += , denominada media aritmtica de la

muestra, es un estadstico. En este proceso del conjunto de datos de la muestra a un conjunto de estadsticos se

produce una prdida de informacin. Si suponemos que la muestra tiene n = 100 datos (el 100%

6

de la informacin disponible) y a partir de esos datos obtenemos 2 estadsticos, resulta obvio que estos no pueden contener ms que una parte de la informacin total. Si calculsemos 100 estadsticos es posible que retuvisemos toda la informacin, pero no habramos ganado nada en cuanto al objetivo de sintetizar las propiedades de la muestra.

Nos encontramos, entonces, con un dilema al elegir el nmero de estadsticos que

representarn a nuestra muestra: por una parte, deseamos que su nmero sea reducido; por otra, queremos que esos estadsticos retengan la mayor cantidad de informacin posible de la muestra de la que proceden.

Como resultado de este conflicto, la experiencia estadstica nos ha dejado una solucin que, en buena parte de las situaciones experimentales habituales, es suficiente: el uso sistemtico de unos estadsticos tpicos nos permite cumplir el objetivo de reducir la muestra con una aceptable prdida de informacin.

Estos estadsticos tpicos, cuyo desarrollo ser el objetivo de lo que sigue, se agrupan tradicionalmente en tres grandes grupos: (1) estadsticos de localizacin, (2) estadsticos de dispersin y, (3) estadsticos de forma.

1.3. Definiciones bsicas de la estadstica descriptiva

1.3.1. Poblacin.

Entenderemos como poblacin el mayor conjunto de elementos de los cuales deseemos obtener informacin, siendo sus elementos los individuos susceptible de observacin o experimentacin.

Por ejemplo, una poblacin puede estar formada por personas, animales u objetos

inanimados. El conjunto de todos los animales que pasaron por el Hospital Clnico Veterinario durante el ao 2009 constituye una poblacin; las temperaturas medias anuales en Murcia en el periodo 1990 2010 constituyen otra poblacin; o la coleccin de todas las posibles placas de cultivo conteniendo una colonia de bacterias e.coli constituye otra.

La experimentacin u observacin es un proceso de anlisis de elementos de la poblacin,

con el objetivo de obtener informacin desconocida de los elementos de la muestra (estadstica descriptiva) y de inferir los resultados obtenidos a toda la poblacin midiendo el grado de verosimilitud de esta inferencia (inferencia estadstica).

En general, un experimento puede ser determinstico o aleatorio. Se dice aleatorio cuando

su propia naturaleza nos impide afirmar que su repeticin en las mismas exactas condiciones conducir a un nico resultado. Solo podemos conocer a priori, que el resultado obtenido ser un valor perteneciente a un conjunto de posibles resultados, y solo podremos conocer a posteriori, tras la realizacin el ensayo el valor concreto. Sin embargo, en un experimento determinista, iguales condiciones iniciales conducen a un mismo resultado.

1.3.2. Variables.

El objetivo ltimo del estudio de una poblacin es el de conocer el comportamiento de sus elementos colectivamente, es decir: averiguar lo que tienen en comn (o los diferencia) y las tendencias o pautas que siguen.

Por ejemplo, en el caso de la Clnica, nuestros intereses podran ser tan distintos como:

averiguar la distribucin de especies, analizar el comportamiento de los pesos o edades de los animales de una cierta especie, o investigar el tiempo dedicado a cada consulta.

7

En cualquier caso, realizaremos un proceso comn: seleccionaremos uno a uno cada elemento de la poblacin, aplicaremos algn mecanismo de medicin (como una bscula para medir el peso, o la simple observacin para determinar la especie), y obtendremos un resultado.

En resumen, El mtodo de seleccin de individuos de una poblacin es el muestreo, y cada eleccin

de un elemento de una poblacin se llama ensayo o prueba. El proceso consistente en aplicar algn mecanismo de medicin u observacin a un

elemento de la poblacin recibe el nombre de variable. El resultado obtenido al aplicar una variable a un elemento recibe el nombre de dato u

observacin.

Para un elemento y una variable X el dato obtenido al aplicar X a se representa por medio del smbolo X() = x.

Tipos de variables y modalidades.

Una vez elegidas una poblacin y una variable X, los posibles resultados quedan limitados a un determinado conjunto que denominaremos conjunto de modalidades de X, y que representaremos por T. Este conjunto tambin recibe el nombre de poblacin de valores de la variable, o simplemente poblacin.

Es importante observar que lo que denominamos modalidades son valores potenciales: los que puede tener cualquier elemento de la poblacin antes de realizar un ensayo. Una vez realizado este, la variable ha asignado al elemento elegido una cierta modalidad que se denomina dato u observacin. Los elementos de T pueden ser:

letras o nombres, y la variable se llamar entonces cualitativa (nominal, si sus valores no presentan ninguna ordenacin, u ordinal, si sus elementos tienen una ordenacin).

nmeros, y la variable se llamar cuantitativa (discreta, si sus valores son nmeros enteros, o continua, si sus valores son nmeros reales).

Cuando las variables son cualitativas o cuantitativas discretas el conjunto de modalidades

se representa por T = {t1, t2, t3,., tk}, y por T = [a, b] cuando es cuantitativa continua, siendo a y b, respectivamente, los valores mnimo y mximo que puede alcanzar la variable. Ejemplo 2. Veamos algunos ejemplos utilizando los elementos del Hospital Clnico, tomando como poblacin la formada por todos los gatos tratados en 2009. Para estudiar la distribucin por sexos la variable ser cualitativa nominal, y el conjunto T

estar formado por solo dos elementos: T = {hembra, macho}. Si se trata de averiguar las preferencias de los gatos por determinados tipos de pienso la

variable ser cualitativa ordinal, y el conjunto T estar formado por tantas modalidades como tipos de pienso entren en el estudio: T = {1, 2,, k}, siendo 1 una forma de abreviar pienso tipo 1, etc.

Cuando se trate de averiguar la distribucin del nmero de cachorros vivos en cada parto la variable ser cuantitativa discreta, y el conjunto de modalidades depender de la experiencia previa que se tenga sobre las variedades en estudio: si sabe que en cada camada no nacen ms de 8 animales, el conjunto de modalidades ser T = {0, 1, 2,, 8}.

Para el estudio de los pesos la variable ser cuantitativa continua, ya que en funcin del aparato de medida de que dispongamos el peso podr ser estimado con mayor o menor nmero de cifras decimales (5, 5.4, 5.47,...). En este caso, el conjunto de modalidades ser un intervalo de la recta real: T = [0, 30], si sabemos que el peso mximo que pueden alcanzar los gatos es de 30 kilogramos.

En la siguiente figura se muestra un esquema del proceso completo hasta obtener un

resultado. As, al elemento 1 la variable X le ha asignado la modalidad t2, que llamaremos observacin x1, al elemento 2 la variable X le ha asignado la modalidad tk, que llamaremos observacin x2, etc.

1.3.3. Mu

Llade n pruebsu obtenci

Des

anlisis deel total de destrucci

El

muestral y Not

mientras q Ejemplo 3Podemos Cada prue

Si representa

El e(3, 4), (4, 4

Ejemplo 4peso mxi

(a) la p(b) la

mod(c) las

y 4, al se

uestras. Esmamos mu

bas. Una mn u observ

stacar la ne los datos

individuos n (por ejem

conjunto dey se represe

tar que el cque la mues

3. Supongavisualizar la

eba consistirealizamos

aremos por espacio mu4)}, cuya re

4. Un experimo es de 4

poblacin variable X

dalidades semuestras del primero

egundo anim

pacio mueuestra de tamuestra se revacin:

necesidad pu observacde la pobla

mplo para m

e todas lasenta con M(n

conjunto destra es un p

amos que Xas modalidr en extrae dos prueb(x1, x2).

uestral est presentaci

imento cons4 kilogramos

estar conX representer el conjue tamao 2x1 correspomal: M = (x

stral. mao n al cepresenta c

Muestra =

prctica de ciones, con acin, ms edir su tiem

s muestras n) (y en ocas

e elementosunto del es

X es una varades comoer una bolabas consec

constituidon es

siste en la ms. En este estituida por tar la medunto de todo2 estarn coondiente al 1, x2), y

conjunto decomo un co

M = 1 2(x ,x

trabajar crespecto alan cuand

mpo de vida

posibles dsiones por

s {1, 2,pacio mues

riable cuyo o 4 bolas si, anotar su cutivas obte

o, por los 16

medicin deexperimentor todos los adicin del

os los nmeonstituidas pprimer anim

e observacioonjunto de v

i n,...,x ,...x )

on muestral manejo de

do la observ).

del mismo M omitiendo

, n} es unstral.

conjunto detuadas en nmero y dendremos u

6 puntos de

el peso de lo: animales de

peso de ceros comprepor pares d

mal pesado,

ones obtenivalores orde

as para face censos quvacin de u

tamao n o el tamao

n subconjun

e modalidaduna caja y

devolverla auna muestr

l conjunto M

os animales

e la especiecada animaendidos ente nmeros , y el segun

idas tras la enados con

cilitar el traue estn forun individuo

se denomio).

nto de la po

des es T = numeradas

a la caja. ra de tama

M(2) = {(1, 1

s de una es

e consideradal, y su ctre 1 y 4: T =comprendi

ndo x2 corre

8

realizacin respecto a

atamiento yrmados por

o implica su

na espacio

oblacin ,

{1, 2, 3, 4}.s de 1 a 4.

ao 2, que

), (1, 2), ...,

specie cuyo

da; onjunto de= [1, 4], dos entre 1

espondiente

8

n a

y r u

o

,

.

.

e

,

o

e

e

(d) el ese m

1.3.4. Mu

Se de tamaouna mismconstituci

Trede muestre

1. 2.

3.

Muestreo

Cuadenominar

Muelepru

Muelela p

Vea

tipo de mu

Situretiramos ala caja el m

Es

prueba y lay lo represmuestra alvalor arbitr

Situdevuelta aanterior, celementospoblacin la tengan e

espacio muemuestra en

uestreo. Tipdenomina

o n es el rema poblacin final de la

es caractereo:

Que la poQue todospara la reaQue antessolo puedun conjun

aleatorio sando todosremos al pro

uestreo aleaemento obteueba. Por louestreo aleaemento obsepoblacin d

amos algunuestreo.

uacin 1. Dal azar una muestreo es

claro que, a siguiente.sentaremos leatoria conrariamente

uacin 2. Ca la caja. Scuando vayas de la poblano tienen laentre ellos).

estral M(2) ela siguiente

pos de Muemuestreo asultado de

n, por lo a muestra.

sticas del p

blacin es ls los elemealizacin des de realizaa ser una dto de moda

simple. s los elemeoceso de matorio con enido para lo que la pobatorio sin rervado no eisponible se

nas situacio

Disponemosbola de la c

s con reemp

actuando d. Naturalmepor x1 = k.

n reemplazagrande: tan

Con la misSi el resultamos a reaacin iniciala misma po.

estar forme figura.

estreo. al proceso dla realizacique la form

proceso de

la misma caentos de la el ensayo. r el ensayo

determinadaalidades.

ntos de la muestreo: m

reemplazamla misma es

blacin no creemplazames devuelto e reduce co

nes que mo

s de una ccaja, anotaplazamiento

de esta formente el nme

La repeticiamiento de

nto como lo

sma caja, sado del enalizar la segl menos la b

osibilidad de

mado por tod

de obtenciin de una ma en que

muestreo n

ada vez quepoblacin t

o y obtener ua modalidad

poblacin tmuestreo ale

miento: cuas devuelto

cambia tras miento: cua

a la poblacon cada exp

ostrarn las

caja en la qmos su nmo.

ma la poblaero obtenidn de este

e tamao n.sea el nm

supongamonsayo es lagunda pruebola k. Por e ser elegid

dos los pun

n de muesserie de n e se realiz

nos permitir

e se realizatengan la m

un elementod o, por el c

tienen la meatorio. Pueando tras la la poblacla realizacindo tras la

cin antes dperimentaci

s diferencias

que hay N mero (k, por

acin no cado es el prim

procedimie Por constr

mero de ens

os que trasa bola de neba la poblatanto, los (

dos que los

tos del cua

tras. Naturaensayos so

zan los ens

rn caracter

un ensayomisma posib

o de la pocontrario, pu

misma posibde ser de dla realizaci

cin antes dn de cada a realizacide la siguienn.

s y coincide

bolas numr ejemplo) y

ambia de cmer elemenento n vecesruccin, n payos que re

s extraer cnmero k, acin ha cak-1) elemende la pobla

adrado [1, 4

almente cadobre los elesayos dete

rizar los dis

o. bilidad de s

oblacin, eueda ser un

bilidad de sdos tipos: n de una

de realizar l prueba.

n de cadante prueba.

encias entre

meradas dey devolvemo

composicinnto de nuests nos propopuede tomaealicemos.

cada bola ecomo en lambiado: cntos que quacin inicial

9

]x[1, 4] que

da muestraementos deerminar la

stintos tipos

er elegidos

l valor X()na de entre

er elegidos

a prueba ella siguiente

a prueba el. Por lo que

e uno y otro

e 1 a N. Sios la bola a

n entre unatra muestraorciona unaar cualquier

esta no esa situacinontiene los

uedan en la(aunque si

9

e

a e a

s

s

) e

s

l e

l e

o

i a

a a a r

s n s a i

10

En este caso, el muestreo es sin reemplazamiento, y las muestras obtenidas se llaman

muestras aleatorias sin reemplazamiento. Por construccin, estas muestras no pueden tener un tamao n superior a N (tamao de la poblacin inicial), ya que tras N ensayos no quedar ningn elemento en la poblacin.

Situacin 3. Supongamos ahora que disponemos de un dado cuyas caras estn

numeradas de 1 a 6. Cada ensayo consiste en un lanzamiento del dado y la posterior anotacin del resultado obtenido. En este caso no podemos distinguir entre muestreo con o sin reemplazamiento. Por la naturaleza del experimento, tras cada ensayo la poblacin es exactamente la misma que antes.

Situacin 4. Si la poblacin es muy numerosa, por ejemplo la constituida por los 6,500 millones de habitantes del planeta Tierra, y la prueba consiste en la eleccin al azar de una persona y la determinacin de su peso, a todos los efectos prcticos, la devolucin o no de esa persona a la poblacin original no va a afectar significativamente los resultados de las siguientes pruebas.

De estas situaciones se pueden extraer dos caractersticas de los procesos de toma de muestras aleatorias:

i) Si las poblaciones son finitas, el tipo de muestreo condiciona la estructura de las muestras obtenidas (muestreo con o sin reemplazamiento). En este caso, la influencia del tipo de muestreo disminuye a medida que aumenta el tamao de la poblacin.

ii) Si las poblaciones son infinitas, el tipo de muestreo no tendr una influencia significativa en las muestras obtenidas.

En general, en un experimento aleatorio destacan tres caractersticas bsicas: 1. Se puede repetir un gran nmero de veces bajo un conjunto de condiciones estables

(condicin de repetibilidad indefinida). 2. En cada prueba del experimento no se puede predecir el resultado que se va a obtener

sino la pertenencia del mismo a un conjunto determinado de posibles resultados (condicin de azar).

3. La frecuencia relativa de cada resultado, el cociente de dividir el nmero de veces que se ha repetido por el nmero total de pruebas realizadas, tiende a estabilizarse en torno a un nmero fijo cuando el nmero de pruebas crece indefinidamente (condicin de regularidad estadstica).

2. Tablas de frecuencias y representaciones grficas de un conjunto de datos.

En este apartado vamos a ocuparnos de dos herramientas bsicas de la Estadstica

descriptiva. Dada una muestra (x1, x2, ..., xi, ..., xn), resumir la informacin en una tabla de datos agrupados y, representar grficamente la informacin que nos proporciona dicha tabla.

Veremos como realizar estas operaciones manualmente, utilizando muestras de pequeo

tamao, con el objetivo de que se adquieran las habilidades necesarias para entender el significado de los clculos y grficos, reservando el tratamiento de muestras de tamao mediano o grande para el uso de los programas estadsticos en las prcticas (por ejemplo, Minitab). 2.1. Frecuencias de una variable.

Bsicamente, una tabla de datos agrupados se obtiene dibujando una tabla de dos filas, y tantas columnas como modalidades o clases de modalidades de nuestra variable, escribiendo en

11

las casillas de la primera fila el nombre de las modalidades o clases y, en las correspondientes casillas de la segunda fila, el nmero de elementos de la muestra cuyo valor es igual a esa modalidad o est dentro de esa clase. Esta cantidad o conteo de valores de la muestra se denomina frecuencia.

En particular, utilizaremos la siguiente nomenclatura segn tratemos con una variable

cualitativa o cuantitativa discreta, o con una variable cuantitativa continua: Variable cualitativa o cuantitativa discreta: Sus modalidades T = {t1, t2, ..., ti, ..., tk}

forman la primera fila de la tabla y para cada modalidad ti, se llama frecuencia absoluta de ti a:

fi = f(ti) = nmero de elementos de la muestra iguales a ti que completa la segunda fila de la tabla.

Variable cuantitativa continua: El intervalo de modalidades T=[a, b] se divide en nmero conveniente k de subintervalos disjuntos (particin), llamados intervalos de clase

A1 = [a0, a1], A2 = (a1, a2], , Ai = (ai-1, ai], , Ak = (ak-1, ak] que forman la primera fila de la tabla, y la segunda fila se construye con las frecuencias absolutas de cada intervalo de clase, esto es, para cada intervalo Ai=(ai-1, ai], su frecuencia absoluta es el nmero de elementos de la muestra cuyo valor est comprendido entre ai-1 y ai:

fi = f((ai-1, ai]) = nmero de elementos de la muestra cuyo valor entre ai-1 y ai.

Observar que en el caso de variable cuantitativa continua, tambin suele utilizarse las marcas de clase (punto de medio de cada intervalo de clase) como valores representativos para la primera fila de la tabla de frecuencias.

Propiedades.

i) fi > 0, para i = 1, 2,, k.

ii) =k i1

f n .

iii) = + = +i j i j i jf(t , t ) f(t ) f(t ) f f iv) f((ai-1, ai] (aj-1, aj]) = f((ai-1, ai])+f((aj-1, aj]) = fi +fj .

A partir de estas frecuencias absolutas se pueden construir las denominadas frecuencias

absolutas acumuladas para variables cuantitativas. La frecuencia absoluta acumulada hasta la modalidad ti, es la suma de las frecuencias de todas las modalidades inferiores o iguales a ti y se representa por Fi. As,

Si la variable X es discreta la frecuencia acumulada es el nmero de datos de la muestra con valor menor o igual que ti

Fi = f(X < ti) = =

= + + +i r 1 2 ir 1

f f f .... f .

Si la variable es continua la frecuencia acumulada es el nmero de datos de la muestra con valor menor o igual que ai

Fi = f(X < ai) = f([a0,a1])+f((a1,a2])+...+f((ai-1,ai]) = =

= + + +i r 1 2 ir 1

f f f .... f .

Las frecuencias acumuladas tienen las siguientes propiedades:

i) iF 0 , para i = 1, 2,, k. ii)

= +i i 1 iF F f . iii) =kF n .

Otra forma de expresar las frecuencias absolutas, acumuladas o no acumuladas, es

relativizando sus valores con respecto al tamao de la muestra, es decir, dividiendo las frecuencias absolutas por el tamao muestral n, obtenindose las frecuencias relativas.

12

En este sentido, las frecuencias relativas no acumuladas y las frecuencias relativas

acumuladas se definen como sigue: Si la variable es discreta, para cada modalidad ti

o su frecuencia relativ es hi = h(ti) = = fi/n, o su frecuencia relativa acumulada es Hi = H(ti) = = Fi/n.

Si la variable es continua, para cada intervalo de clase (ai-1, ai] o su frecuencia relativa es hi = h((ai-1, ai]) = fi/n, o su frecuencia relativa acumulada es Hi = H((ai-1, ai]) = Fi/n.

Estas frecuencias relativas no acumuladas satisfacen las siguientes propiedades:

i) 0 < ih < 1, para i = 1, 2,, k.

ii) =k i1

h 1.

iii) = + = +i j i j i jh(t ,t ) h(t ) h(t ) h h iv) h((ai-1, ai] (aj-1, aj]) = h((ai-1, ai])+h((aj-1, aj]) = hi +hj

y las frecuencias relativas acumuladas verifican:

i) 0 < iH 1, para i = 1, 2,, k. ii)

= +i i 1 iH H h . iii) =kH 1.

Observar que en la prctica tambin es habitual expresar estas frecuencias relativas, que

por definicin se encuentran en el intervalo (0,1), en trminos de porcentajes para facilitar su interpretacin.

Veamos a continuacin la forma que adoptan las tablas de frecuencias para cada tipo de

variable (discreta o continua) y cada tipo de frecuencias absolutas o relativas (acumuladas o no acumuladas), para lo que utilizaremos muestras ficticias. Tablas de frecuencias para una variable cualitativa o discreta

En este caso, las siguientes tablas de frecuencias corresponden a una variable con 5 modalidades y una muestra de tamao 21.

Tabla 4. Frecuencias absolutas no acumuladas

Modalidades ti t2 t3 t4 t5 Frecuencias f1 = 2 f2 = 5 f3 = 8 f4 = 4 f5 = 2 n = 21

Tabla 5. Frecuencias absolutas acumuladas

Modalidades ti t2 t3 t4 t5 Frecuencias F1 = 2 F2 = 7 F3 = 15 F4= 19 F5 = 21

Tabla 6. Frecuencias relativas no acumuladas

Modalidades ti t2 t3 t4 t5 Frecuencias h1= 2/21 h2 = 5/21 h3 = 8/21 h4 = 4/21 h5 = 2/21 1

Tabla 7. Frecuencias relativas acumuladas

Modalidades ti t2 t3 t4 t5 Frecuencias H1 = 2/21 H2 = 7/21 H3 = 15/21 H4 = 19/21 H5 = 21/21

13

Tablas de frecuencias para una variable cuantitativa continua

En este caso, las siguientes tablas de frecuencias corresponden a una variable continua con conjunto de modalidades T = [a, b], y una muestra de tamao 50. Para construir las tablas de frecuencias, tenemos que estalecer los intervalos de clase que forman la particin del intervalo [a,b].

As, teniendo en cuenta que a y b son los valores mnimo y mximo que puede tomar la

variable, se elige un nmero de intervalos de clase k para agrupar los n datos, por ejemplo puede calcularse mediante la regla de Sturges u otras similares. En este caso, si se toma k=5, los extremos de los intervalos de clase se obtienen como sigue:

Se determina la amplitud h de cada clase: h = (b a)/k. Se calculan los lmites de clase: ai, para i = 0, 1, 2,...., k, mediante las relaciones:

a0 = a, a1 = a + h, a2 = a1 + h,..., ak = ak-1 + h = b.

Se calculan las marcas de clase de cada intervalo: zi, = (ai-1 + ai)/2, para i = 1, 2, ..., k.

Tabla 8. Frecuencias absolutas no acumuladas Clases [a0, a1] (a1, a2] (a2, a3] (a3, a4] (a4, a5]

Marcas de clase z1 z2 z3 z4 z5

Frecuencias f1 = 3 f2 = 9 f3 = 15 f4 = 13 f5 = 10 n = 50

Tabla 9. Frecuencias absolutas acumuladas Clases [a0, a1] (a1, a2] (a2, a3] (a3, a4] (a4, a5]


Frecuencias F1 = 3 F2 = 12 Fi = 27 Fk-1 = 40 Fk = 50

Tabla 10. Frecuencias relativas no acumuladas Clases [a0, a1] (a1, a2] (a2, a3] (a3, a4] (a4, a5]

Marcas de clase z1 z2 z3 z4 z5 Frecuencias h1 = 3/50 h2 = 9/50 h3 = 15/50 h4 = 13/50 hk = 10/50 1

Tabla 11. Frecuencias relativas acumuladas

Clases [a0, a1] (a1, a2] (a2, a3] (a3, a4] (a4, a5]


Frecuencias H1 = 3/50 H2 = 12/50 H3 = 27/50 H4 = 40/50 H5 = 50/50 2.2. Representaciones grficas.

Como indicbamos ms arriba las representaciones grficas tienen la finalidad de visualizar la informacin procedente de la muestra cuando se ha sintetizado en una tabla de frecuencias agrupadas.

Por ejemplo, las siguientes grficas ilustran algunos de los casos bsicos para representar

las frecuencias de una variable segn su naturaleza (cualitativa o cuantitativa), las cuales son sencillas de realizar con cualquier programa estadstico.

14

Grfico de sectores (variables cualitativas)

PastorCanicheDogoMastnMaltsDobermanGalgoLabrador

Category

Pictograma de Razas

N = 202 Diagrama de barras (variables discretas)

86420

9

8

7

6

5

4

3

2

1

0

Parsitos

Freq

uenc

y

Histogram of Parsitos

Polgono de frecuencias acumuladas o polgono acumulativo (variables discretas)

10987654321

500

400

300

200

100

0

Pinos/parcelaFr

ec.A

cum

ulad

as.

Polgono acumulativo de Pinos/parcela

15

Histograma de frecuencias absolutas no acumuladas (variables continuas)

16141210864

14

12

10

8

6

4

2

0

Periodo de latencia

Freq

uenc

y

Histograma de Periodo de Latencia

Tamao de muestra = n = 100 Histograma de frecuencias absolutas acumuladas (variables continuas)

86420

50

40

30

20

10

0

Nmero de Parsitos

Frec

uenc

ia a

cum

ulad

a

Histograma acumulativo de Parsitos

3. Medidas descriptivas de un conjunto de datos de una variable.

Comos hemos mencionado anteriormente, las medidas descriptivas o estadsticos reducen la cantidad de datos proporcionando valores que resumen la informacin de la muestra describiendo las caractersticas principales del conjunto de datos.

As, el trmino estadstico tiene un doble significado. Por una parte, un estadstico es una

funcin de los valores de la muestra, o una funcin de las modalidades de la variable y de sus frecuencias correspondientes,

E = f 1 2 i n(x ,x ,...,x ,...x ) . Por otra parte, un estadstico es el valor obtenido cuando en esta funcin de la muestra se

sustituyen las variables por las observaciones o datos concretos de la muestra. En este caso, se suele hablar de valor del estadstico, utilizando el smbolo e para indicar el nmero obtenido al sustituir cada variable ix por su valor concreto en la muestra.

16

Por ejemplo, consideremos una muestra cualquiera 1 2 3(x ,x ,x ) de una variable X. La funcin = + 21 2 3y x 2.x x es un estadstico. Si se realizan las tres pruebas, obteniendo la muestra concreta 1 2 3(x ,x ,x ) = (2, 5, -2), entonces

22 2.5 ( 2) 4y = + = es el valor del estadstico. Como vimos, los estadsticos ms comunes se clasifican estadsticos de localizacin,

dispersin y forma. No obstante, la mayora de ellos se basan en los estadsticos llamados momentos: momentos respecto del origen y momentos centrados.

Se llama momento respecto del origen de orden r a la funcin: Si los datos proceden de la muestra sin agrupar

ar = n ri

1x

n, para r = 0, 1, 2, 3,.

Si los datos proceden de una variable discreta y se han agrupado en una tabla de frecuencias, con modalidades ti y frecuencias fi, el momento se calcular por medio de la frmula

ar = k ri i

1f .t

n, para r = 0, 1, 2, 3,.

Si los datos proceden de una variable continua y se han agrupado en una tabla de frecuencias, con marcas de clase zi y frecuencias fi, utilizaremos la frmula

ar = k ri i

1f .z

n, para r = 0, 1, 2, 3,.

Los momentos respecto del origen de orden 1, 2, 3 y 4 sern utilizados frecuentemente en

el clculo de distintos estadsticos: a0 = 1.

a1 = + + + +

=

n i1 2 3 n1

xx x x ... x

n n= x se llama media aritmtica o media.

a2 = n 2i

1x

n =

+ + +2 2 21 2 nx x .... xn

= 2x es la media de los cuadrados.

a3 = n 3i

1x

n =

+ + +3 3 31 2 nx x .... xn

= 3x es la media de los cubos.

a4 = n 4i

1x

n =

+ + +4 4 41 2 nx x .... xn

= 4x es la media de las potencias de orden cuatro.

Los momentos centrados o respecto de la media se definen y calculan como los momentos

respecto del origen cuando los datos ix son sustituidos por sus desviaciones respecto de la media i(x x) . As, el momento central de orden r,se define por medio de la frmula:

Para una muestra sin agrupar,

mr = n ri

1(x x)

n, para r = 0, 1, 2, 3,.

17

Para una muestra agrupada, de una variable discreta o continua, las frmulas son equivalentes a las de los momentos respecto al origen (con las correspondientes sustituciones de ix por i(t x) para las primeras, y por i(z x) para las segundas.

Observar que los momentos centrales estn relacionados con los momentos respecto del

origen, por ejemplo para los 4 primeros momentos de cada tipo. m0 = a0 = 1. m1 = a1 - a1 = x x = 0. m2 = a2 (a1)2 = 2x - ( x )2, se llama varianza de la muestra ( desviacin tpica). m3 = a3 3. a2. a1 + (a1)3 =

3x - 3. 2x + 2.( x )3.

m4 = a4 4. a3.a1 + 6. a2.(a1)2 3.(a1)4 = 4x - 4. 3x . x + 6. 2x .( x )2 3.( x )4.

3.1. Estadsticos de localizacin

Los estadsticos de posicin o localizacin son valores obtenidos a partir de la muestra que nos indican caractersticas sobre la posicin, generalmente central, de los datos. Veamos algunos de ellos. 3.1.1. Media aritmtica x

A partir de la muestra en bruto: x = n i

1x

n

A partir de la tabla de frecuencias absolutas: x = k i i

1f .t

n

A partir de la tabla de frecuencias relativas: =k i i1

x h .t

Propiedades de la media: i) Si todos los datos de la muestra se multiplican por un mismo nmero a, la media de

los nuevos datos es igual al producto de a por la media de los datos originales: Si yi = a. xi, entonces =y a.x .

ii) Si a todos los datos de una muestra se les suma una constante b, la media de los nuevos datos es igual a la suma de b y la media de los datos originales:

Si yi = xi + b, entonces = +y x b . iii) Si se tipifican o estandariza los datos, es decir, se les resta la media de la muestra y las

diferencias se dividen por la desviacin tpica de la muestra, los nuevos datos tienen media 0 y desviacin tpica 1:

Si

=i

ix

(x x)ys

, entonces y 0= , ys 1= .

iv) Si M1 = (x1, x2, x3,..... xn-1, xn) y M2= (y1, y2, y3,......, ym-1, ym) son dos muestras de medias x e y , respectivamente, entonces la media de la muestra resultante de la unin, M1 U M2 = (x1, x2, x3,..... xn-1, xn) U (y1, y2, y3,..... ym-1, ym), tiene la siguiente media:

+=

+

(n.x m.y)w(n m)

donde (w1, w2, w3,..... wn+m-1, wn+m)=(x1, x2, x3,..... xn-1, xn, y1, y2, y3,..... ym-1, ym). Ejemplo. Los siguientes grficos proceden de los datos de la variable IQ (cociente de inteligencia) de una muestra de 100 personas (los datos pueden encontrarse en Datos 1: fichero Inteligencia).

18

En ellos pueden observarse los efectos producidos en el histograma de la variable IQ cuando se le aplican, sucesivamente, las transformaciones (100 + IQ), (IQ/4) y (100 + IQ/4).

Grfico 2

Grfico 3

3.1.2. Medias geomtrica xg y armnica xh.

En algunos experimentos los datos presentan rangos de variacin de los datos que hacen difcil la visualizacin y el uso de los estadsticos para su interpretacin. Dos ejemplos pueden ilustrar estas situaciones. Ejemplo 5. Si se est estudiando la distribucin de los ingresos anuales de las personas individuales y de las empresas nos encontramos con que los ingresos varan entre los 1000 euros (103) y los 10 millones de euros (107), mientras que las frecuencias, el nmero de personas o empresas que ingresan esas cantidades, varan entre 2.000 millones (2.109), para los ingresos menores, y 10.000 (104).

En esta situacin, ningn grfico razonable (del tamao de un folio, por ejemplo) puede ofrecernos una visin realista de la distribucin de los ingresos junto a la de los perceptores de los mismos. Ejemplo 6. Cuando se intenta establecer el comportamiento de las burbujas de oxgeno en la sangre nos encontramos con que los dimetros oscilan entre 0.00017 y 0.00312 milmetros, por ejemplo. Es decir se encuentran el un rango que va de 10-4 y 10-3.

Para conseguir llevar a los datos a situaciones manejables se emplean transformaciones como la logartmica ln(x) o la funcin 1/x. La primera transforma un nmero como 5.107 en el nmero 17,73; la segunda transforma un nmero como 0.00312 en el nmero 320,51.

Las dos medias, geomtrica y armnica, se obtienen de manera similar: se transforman los datos, se halla la media de los datos transformados, y se aplica la transformacin inversa a la

24020016012080

40

30

20

10

0

Data

Freq

uenc

y

IQIQ+100

Variable

Histogram of IQ; IQ+100

14012010080604020

60

50

40

30

20

10

0

Data

Freq

uenc

y

IQIQ/4

Variable

Histogram of IQ; IQ/4

15014013012011010090

40

30

20

10

0

Data

Freq

uenc

y

IQ100+IQ/4

Variable

Histogram of IQ; 100+IQ/4

media as ambas me

3.1.3. Mo

En

encontremmodas.

Los

primera tie

La

longitudes superior a estructura cuales los 3.1.4. Me

La siguientes:

al m al m

Util

la siguiente F(m 1

En

se ordenan

obtenida. Sedias.

Media geo

Media arm

oda: Mo. Para una frecuenciaPara una v

general, unmos ms de

s dos grficene una sola

existencia de los animla de las heen dos suestadstico

ediana: m. mediana m: menos el 50menos el 50

izando la ne manera

m) = f(X < mF(m) = f(X

el caso de n los datos

Sin entrar en

mtrica: xg

nica: xh =

variable d.

variable con

na poblaciuna moda

cos siguiena moda, mie

de dos momales de unembras. De

ubpoblacions no solo la

m de una m

0% de los va0% de los va

nomenclatur

m) > n/2, y > m) > n/2.

una variabs de la mue

n estos pro

=

n i1

ln(x )

ne

+ + ++1 2

n1 1 ....

x x

discreta: la

ntinua: la mo

n puede te. Se emple

ntes muestentras que

odas en la na especie ee hecho, la es, la de lo

a moda) tom

muestra es e

alores de laalores de la

ra usual, es

ble discreta,estra de me

cesos, vere

+4

1x

moda es

oda es la m

ener varias ea el trmin

tran los hisla segunda

Grfico 4

segunda men la que lopoblacin tos machos

man diferent

el valor de

a muestra sa muestra s

stas dos co

la medianaenor a mayo

emos las f

la modali

marca de la c

modas, lo o poblacin

stogramas d posee dos

4

muestra se os machos otal de dich y la de lates valores.

la variable

on inferioreon superior

ndiciones s

a se obtienor y se rea

rmulas que

dad de la

clase con m

que implican n-modal a

de dos mu.

explica porposen una hos animales hembras.

que verific

es o iguales res o iguale

se expresan

e por un oblizan dos re

e nos permit

a variable

mayor frecu

a que en una aquella qu

uestras de

rque esta clongitud no

es puede cos, en cada

ca las dos c

a m, y es a m.

n matemtic

bservacin ecuentos d

19

ten calcular

con mayor

encia.

na muestraue posee n

las que la

consiste entablemente

onsiderarseuna de las

condiciones

camente de

y recuento:e los datos

9

r

r

a n

a

n e e s

s

e

: s

20

reordenados, el primero de izquierda a derecha y el segundo de derecha a izquierda, hasta localizar el valor que verifica las dos condiciones de la definicin.

Supongamos que la muestra M de tamao 48: M = (5, 7, 8, 7, 6. 7, 3, 4, 0, 9, 7, 5, 4, 3, 5, 4, 6, 8, 9, 7, 2, 5,1, 1, 2, 6, 4, 7, 6, 9, 3, 3, 6, 7, 3, 4, 4, 6, 7, 5, 9, 0, 1, 2, 7, 4, 1, 8)

Observemos, en primer lugar que n/2 = 48/2 = 24, lo que supone que la mediana m debe

dejar a su izquierda al menos 24 valores de la muestra y a su derecha al menos 24 valores. Para proceder a su determinacin, ordenemos los elementos de la muestra de menor a

mayor y contemos de izquierda a derecha 24 lugares y otros 24 de derecha a izquierda: 0, 0, 1, 1, 1, 1, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 7, 7, 7, 7, 7, 7, 7, 7, 7, 8, 8, 8, 9, 9, 9, 9.

entonces, el valor 5 es la mediana ya que f(X < 5) = 26 >24 y f(X > 5) = 28 > 24.

En el caso de una variable continua con los datos agrupados por intervalos, se identifica el intervalo para el se verifica una de las dos condiciones de la mediana, supongamos que es el intervalo de clase (ai, ai+1] para el que

Fi < 2n < Fi+1 o Hi <

12

< Hi+1,

segn utilicemos frecuencias acumuladas absolutas o relativas, respectivamente, entonces el valor m de la mediana se calcula por:

i

i i 1 ii 1 i

n( F )2m a .(a a )

(F F) ++

= +

= i

i i 1 ii 1 i

1( H )2a .(a a )

(H H ) ++

+

.

Notar que para el estadstico de posicin moda M0 indica el valor de la variable con mayor

frecuencia muestral, y el estadstico media x proporciona la situacin del centro de gravedad de la muestra. Asimismo, la mediana m de una muestra nos serva para situar un valor de la variable que, con matizaciones, dejaba un 50% de los datos por debajo de l, y el restante 50% por encima. Tambin las observaciones mnima y mxima pueden entenderse como medidas de posicin: el 100% de los datos son superiores o iguales a la observacin mnima, y el 100% de los datos son inferiores o iguales a la observacin mxima.

Vamos, pues, a generalizar la nocin de mediana a unos nuevos estadsticos denominados

cuantiles, los cuales tienen la caracterstica de dejar por debajo de ellos un porcentaje del p % de los valores de la muestra (y, lgicamente, dejarn por encima un porcentaje del (100 p) % de los valores muestrales). En particular, consideraremos un cuantil o percentil p % que se representar con el smbolo cp, siendo p un nmero comprendido entre 0 y 100. 3.1.5. Cuantiles.

Un cuantil al p% de una muestra es el valor cp de la variable que verifica las dos condiciones siguientes:

al menos el p% de los valores de la muestra son inferiores o iguales a cp, y al menos el p% de los valores de la muestra son superiores o iguales a cp.

Utilizando la nomenclatura usual, estas dos condiciones se expresan matemticamente de

la siguiente manera F(cp) = f(X < cp) > n.p/100, 1 F(cp) = f(X > cp) > n.p/100.

Tipos usuales de cuantiles. Cuartiles: cuantiles para p = 25, 50 y 75 %:

q1 = cuartil inferior, q2 = m = mediana, q3 = cuartil superior. Deciles: cuantiles para p = 10, 20,....., 90 %: d10, d20,..., d90. Centiles o percentiles: cuantiles para p = 1, 2, 3,...., 98 y 99 %: p1, p2, p3,..., p97, p98, p99.

Par

localizaremtiene que necesarios

3.2. Est

En 6.00, pero en los sigmucho me

Los

numricas ejemplo, lahistograma Rango o r

Recorrido

Desviaci

3.2.1. Var

La datos de la

ra el clcumos el interv

verificar las para aplica

tadsticos d

primer lugse encuenuientes his

enos en el te

s estadstico menores a medida dea, 1.26 para

recorrido: R

o intercuart

n media: D

rianza sesgvarianza o

a muestra:

Para una m

Para una t

Para una t

ulo de los valo de clas

a propiedadar las siguie

p ic a (a= +

de dispers

ar, veamostran desigu

stogramas: ercero.

os de dispea los histoe dispersi

a el segundo

R = xmax x

tlico: Q = q

D =

n

i1

x

n

gada o varianza s

muestra en

abla de dat

abla de dat

cuantiles, se (ai, ai+1]

d Fi < n.p/1entes frmu

i 1 ii

n(10a a ).(F+

in

s tres casoualmente disms conce

ersin cuantogramas men denominao y 2.45 pa

min.

q3 q1.

x

sesgada de

bruto: 2Xs =

tos agrupad

tos agrupad

en la taben el que s100 < Fi+1. ulas:

i

ii 1 i

.p F )00 a

F F)+

=

s de los daspersos resentrados en

Grfico 5

tifican esta enos dispeada desviacra el tercero

e una varia

n

i1

x x

n

=

( )

dos de una v

dos de una v

la de frecse encuentr

Entonces

i 1 i(a a ).++

atos que tispecto a esn el primer

propiedad ersos y maycin tpica to:

able cuantit

2).

variable dis

variable con

uencias aga el cuantil tendremos

i

i 1 i

(n.p H )(H H )+

.

enen la mie valor ceno, algo me

de los datoyores a lostoma el val

ativa se de

screta: 2Xs =

ntinua: 2Xs =

grupadas a cp utilizand

s todos los

sma mediantral, como enos en el

os: asignan s ms dispor 0.76 par

efine segn

k

i i1

f t x

n

=

.(k

i i1

f z

n

=

.(

21

acumuladasdo que este

elementos

a aritmticase observasegundo y

cantidadespersos. Porra el primer

n el tipo de

2x).

2x).

s e s

a a y

s r r

e

22

3.2.2. Varianza insesgada (cuasivarianza):

Para una muestra en bruto:

n2

i2 1X

x xS

n 1

=

( )( )

.

Para una tabla de datos agrupados de una variable discreta:

k2

i i2 1X

f t xS

n 1

=

.( )( ) .

Para una tabla de datos agrupados de una variable continua:

k2

i i2 1X

f z xS

n 1

=

.( )( )

Propiedades de la varianza:

i) Si los datos xi se multiplican por un nmero a, yi = a.xi, las varianzas sx2 y sy2 estn relacionadas por la frmula

sy2 = a2.sx2. ii) Si a los datos xi se les suma un nmero b, yi = xi + b, las varianzas sx2 y sy2 son

iguales: sy2 = sx2.

iii) Las varianzas sesgada e insesgada estn relacionadas por la igualdad: 2 2X X

nS sn 1

.=

.

iv) Si M1 = (x1, x2, ..., xn) y M2= (y1, y2, ..., ym) son dos muestras de medias x e y , y varianzas sx2 y sy2, respectivamente, entonces la varianza media de la unin de las muestras M1 U M2 = (x1, x2, x3,..... xn-1, xn) U (y1, y2, y3,..... ym-1, ym), tiene la siguiente varianza:

2 2 2 2X y2

w

n s m s n x w m y wsn m n m

+ +

= ++ +

. . .( ) .( )( ) ( )

donde (w1, w2, ..., wn+m)=(x1, x2, ..., xn, y1, y2, ..., ym). Desviaciones tpicas:

Las desviacin tpica se define mediante la raz cuadrada positiva de la varianza: La desviacin tpica sesgada: La desviacin tpica insesgada:

Propiedades de la desviacin tpica: i) Si los datos xi se multiplican por un nmero a, yi = a.xi, las desviaciones tpicas sx y

sy estn relacionadas por la frmula: sy = |a|.sx.

ii) Si a los datos xi se les suma un nmero b, yi = xi + b, las desviaciones tpicas sx y sy son iguales:

sy = sx.

iii) Las desviaciones tpicas se relacionan por la igualdad: X XnS s

n 1.=

.

3.2.3. Coeficiente de variacin:

Coeficiente de variacin sesgado: cvx = 100. Xsx

.

Coeficiente de variacin insesgado: CVx = 100. XSx

.

3.3. Est

3.3.1. Coe

En tipo de sim

Com

medias, caderecha. A

En

cuantitativo

Coeficient

Coeficient

Propiedade

i) ii) iii) iv)

3.3.2. CoeLos

histograma

y su repres

tadsticos d

eficientes dprimer luga

metra o asim

mo se obseada histogr

As, Un histograUn histogrcola derecUn histogrcola izquie

este marco de la desv

te de asime

te de asime

es: Si la asSi hay Si la asg1 es a

eficientes ds coeficienta respecto a

sentacin e

de forma

de asimetrar mostraremetra:

erva en los rama queda

ama es simrama es asiha rama es aserda

o, un coefiviacin de l

etra de Fisg1 =

etra de Pe

simetra es simetra: g1simetra es adimensiona

de apuntamtes de cura la curva n

es:

ra. emos un eje

tres histoga dividido e

mtrico si ammtrico por

imtrico po

iciente de aa simetra d

sher: = ((xi x)3/

arson:

g1 =

por la izqui

1 = 0. Adempor la derec

al: no vara

miento o curtosis o apnormal o cam

emplo de tre

Grafico

ramas, conen dos par

mbas colas r la izquierd

or la derech

asimetra ede un histog

/n)/sx3 = (f

+ 1 3(q q 22.m

erda: g1 < 0ms, en este

cha: g1 > 0.al realizar c

urtosis. puntamientompana de G

es conjunto

6

nsiderando crtes, que lla

son simtricda si su col

ha si su co

es un estadgrama.

fi.(zi x)3/n)

2.m).

0. Adems, e caso, x =. Adems, ecambios line

o dan una Gauss, dad ,

os de datos

como refereamaremos

cas respectla izquierda

la derecha

dstico que

/sx3.

en este cas

0m M= en este casoeales de la

medida dea por la ecu

s que refleja

encia de abcola izquie

to a la meda es ms la

es ms la

sirve como

so, x m

o, x m variable.

e la situacuacin

23

an diferente

bscisas suserda y cola

ia arga que su

rga que su

o indicador

0M

0M

cin de un

3

e

s a

u

u

r

n

Por

para comp

Par

intervalo ce

As

del histogr Un

der Un

cen Un

der

r ejemplo, sparar con la

ra ello, divientral est

C

, la curtosisrama situad

histogramarecha y ms

histogramantral

histogramarecha y ms

supongamocurva norm

diremos el centrado en

Cola izquier

s o apuntamas sobre caa es platics alto en la a es mesoc

a es leptocs bajo en la

os que un cmal:

recorrido dn la media a

rda Z

miento se cada una de rtico si es zona centracrtico si co

rtico si es zona centr

Grfico 7

conjunto de

Grfico 8

de la variaaritmtica, e

Zona centra

clasifica tenestos intervms bajo qal oincide con

ms alto qral.

e datos pro

ble en treses decir,

al C

niendo en cvalos:

que la curva

n la curva n

que la curva

porciona el

s intervalos;

Cola derech

cuenta histo

a normal en

normal en la

a normal en

l siguiente

; de tal for

ha

ograma las

n las colas

as colas y

n las colas

24

histograma

rma, que el

tres partes

izquierda y

en la zona

izquierda y

4

a

l

s

y

a

y

25

Definicin. Se llama coeficiente de curtosis al estadstico: g2 = = ((xi x)4/n)/sx4 = (fi.(zi x)4/n)/sx4

o bien, al estadstico: g2 = g2 3.

Propiedades:

i) Si el histograma es platicrtico: g2 < 3 (g2 < 0). ii) Si el histograma es mesocrtico: g2 = 3 (g2 = 0). iii) Si el histograma es leptocrtico: g2 > 3 (g2 > 0). iv) g2 es adimensional: no vara al realizar cambios lineales de la variable.