Capítulo1 EstadísticaDescriptiva - Universidad Autónoma …€¦ ·  · 2009-02-11Unavariable...

22
Capítulo 1 Estadística Descriptiva x i n i 10 11 12 13 14 15 16 17 18 19 1 2 3 4 5 6 7 8 El primer paso para el estudio de una o varias características de una población es la recogida de datos. Se realiza esta sobre una muestra de la población, lo suficientemente significativa para que las conclusiones a las que lleguemos, sobre las características objeto de estudio, sean bastante plausibles (tengan una alta fiabilidad). En este capítulo nos ocupamos de la primera, aunque no menos importante, etapa de la descripción de los datos tomados. 1.1 Variables estadísticas Los datos numéricos, o serie estadística, de las observaciones realizadas en una población deben presentarse ordenados y clasificados, siguiendo un criterio prefijado, que dependerá del estudio que estemos realizando. Por lo general, estos se presentan agrupados en una tabla estadística, aunque para una mejor lectura de los mismos se acompañan de una representación gráfica (ver §1.3.1). 1.2 Tipos, muestras Entre las series estadísticas podemos encontrarnos con series temporales, en las que se toman datos referidos a una magnitud en diferentes instantes de un período de tiempo. Ejemplos de series tem- porales son: las cotizaciones de un valor a lo largo del año; la renta per cápita de una población en un periodo de tiempo; las precipitaciones mensuales de un año; ... . La tabla estadística de una serie temporal es la de una variable bidimensional, con el tiempo como una de las variables. Por contra, si las observaciones se han efectuado en un momento fijo, nos encontramos ante una serie atemporal, y estas pueden ser espaciales y de frecuencias. Las primeras tratan de comparar los valores de una variable en distintos espacios geográficos, como la tasa de natalidad en las distintas provincias españolas. Las de frecuencias estudian la repetición de un determinado hecho o fenómeno; son las más usuales y a ellas nos dedicaremos.

Transcript of Capítulo1 EstadísticaDescriptiva - Universidad Autónoma …€¦ ·  · 2009-02-11Unavariable...

Capítulo 1

Estadística Descriptiva

xi

ni

10 11 12 13 14 15 16 17 18 19

12345678

El primer paso para el estudio de una o varias características de una población es la recogidade datos. Se realiza esta sobre una muestra de la población, lo suficientemente significativa paraque las conclusiones a las que lleguemos, sobre las características objeto de estudio, sean bastanteplausibles (tengan una alta fiabilidad). En este capítulo nos ocupamos de la primera, aunque nomenos importante, etapa de la descripción de los datos tomados.

1.1 Variables estadísticas

Los datos numéricos, o serie estadística, de las observaciones realizadas en una población debenpresentarse ordenados y clasificados, siguiendo un criterio prefijado, que dependerá del estudio queestemos realizando. Por lo general, estos se presentan agrupados en una tabla estadística, aunquepara una mejor lectura de los mismos se acompañan de una representación gráfica (ver §1.3.1).

1.2 Tipos, muestras

Entre las series estadísticas podemos encontrarnos con series temporales, en las que se toman datosreferidos a una magnitud en diferentes instantes de un período de tiempo. Ejemplos de series tem-porales son: las cotizaciones de un valor a lo largo del año; la renta per cápita de una población enun periodo de tiempo; las precipitaciones mensuales de un año; . . . . La tabla estadística de una serietemporal es la de una variable bidimensional, con el tiempo como una de las variables.

Por contra, si las observaciones se han efectuado en un momento fijo, nos encontramos ante unaserie atemporal, y estas pueden ser espaciales y de frecuencias. Las primeras tratan de comparar losvalores de una variable en distintos espacios geográficos, como la tasa de natalidad en las distintasprovincias españolas. Las de frecuencias estudian la repetición de un determinado hecho o fenómeno;son las más usuales y a ellas nos dedicaremos.

Una variable

1.3 Una variable

1.3.1 Diagramas (cualitativas: de barras y de sectores; cuantitativas:de tallos y hojas e histogramas)

Las distribuciones de frecuencias tratan de observar, clasificar y ordenar las repeticiones de ciertosvalores de una variable. Pueden ser cualitativas o cuantitativas, pudiendo ser las últimasde carácter discreto o continuo, según la variable. Los datos se presentan mediante tablas defrecuencias.

En una tabla de frecuencias se llama frecuencia absoluta al número de veces que se repiteun valor de la variable; se representa por ni, y significa que el valor xi aparece ni veces. La suma detodas las frecuencias absolutas debe coincidir, obviamente, con el número total de elementos de lamuestra, y se denomina tamaño muestral, representado por N .

Llamamos frecuencia relativa a la razón entre la frecuencia absoluta y el tamaño muestral,y mide la proporción de cada valor dentro de la muestra. Se representa por fi y, según se ha definido,es:

fi =ni

N.

Es claro que fi ≤ 1, así como que∑i

fi = 1.

Por último, llamamos frecuencias acumuladas, a las sumas de las frecuencias hasta undeterminado valor de la variable. Las denotaremos por Ni o Fi según se refieran a frecuencias absolutaso relativas, respectivamente. Para calcularlas se ordenan previamente los valores observados de lavariable, y se puede hacer de menor a mayor (frecuencias acumuladas crecientes: Ni ↑, Fi ↑ ), o demayor a menor (frecuencias acumuladas decrecientes: Ni ↓, Fi ↓).

Si los datos observados corresponden a una variable continua, o hay poca repetición de datos, escomún agrupar estos en intervalos de clase, de la forma: [Li−1, Li) (cerrados por la derecha y abiertospor la izquierda). En estos casos se define, además, la marca de clase, xi, como el punto mediode cada intervalo:

xi =Li + Li−1

2.

De este modo, los valores del intervalo [Li−1, Li) pueden tratarse como si fueran todos iguales a sumarca de clase, xi, con la consiguiente pérdida de información o error de agrupamiento.

Ejemplos

Ejemplo 1 Encuestadas cincuenta parejas respecto a su número de hijos, se obtuvieron los siguientesdatos:

2; 4; 2; 3; 1; 2; 4; 2; 3; 0; 2; 2; 2; 3; 2; 6; 2; 3; 2; 2; 3; 2; 3; 3; 4; 1; 3;3; 4; 5; 2; 0; 3; 2; 1; 2; 3 ; 2; 2; 3; 1; 4; 2; 3; 2; 4; 3; 3; 2; 2 .

Constrúyase una tabla estadística que represente dichos datos, indicando frecuencias absolutas,relativas y acumuladas relativas crecientes.

8

Estadística Descriptiva

Solución:

xi ni fi Fi ↑0 2 1

25125

1 4 225

325

2 21 2150

2750

3 15 310

4250

4 6 325

4850

5 1 150

4950

6 1 150

1

N = 50

Ejemplo 2 Los datos que se dan a continuación corresponden a los pesos en kilogramos de 80personas:

60; 66; 77; 70; 66; 68; 57; 70; 66; 52; 75; 65; 69; 71; 58; 66; 67; 74; 61; 63;69; 80; 59; 66; 70; 67; 78; 75; 64; 71; 81; 62; 64; 69; 68; 72; 83; 56; 65; 74;67; 54; 65; 65; 69; 61; 67; 73; 57; 62; 67; 68; 63; 67; 71; 68; 76; 61; 62; 63;76; 61; 67; 67; 64; 72; 64; 73; 79; 58; 67; 71; 68; 59; 69; 70; 66; 62; 63; 66.

(a) Obténgase una distribución de datos en intervalos de amplitud 5, empezando en [50, 55).

(b) Calcúlese el porcentaje de personas de peso menor que 65 Kg.

(c) ¿Cuántas personas tienen peso mayor o igual que 70 Kg pero menor que 85?

Solución:

(a) Como queremos efectuar una distribución de datos agrupados, debemos obtener primero losintervalos correspondientes, quedando la siguiente tabla, donde hemos añadido una columnacorrespondiente a la marca de clase:

[Li−1, Li] xi ni Ni ↑ fi Fi ↑[50, 55) 52.5 2 2 1

40140

[55, 60) 57.5 7 9 780

980

[60, 65) 62.5 17 26 1780

1340

[65, 70) 67.5 30 56 38

710

[70, 75) 72.5 14 70 740

78

[75, 80) 77.5 7 77 780

7780

[80, 85) 82.5 3 80 380

1

N = 80

9

Una variable

(b) Observando la columna de frecuencias acumuladas (absolutas), se deduce que existen N3 = 26individuos cuyo peso es menor que 65 Kg, que, en términos de porcentajes corresponden a:

F3 · 100 =13

40· 100 = 32.5 % .

(c) El número de individuos con peso comprendido entre 70 y 85 Kg es:

n5 + n6 + n7 = 14 + 7 + 3 = 24 , equivalentemente: N7 −N4 = 80− 56 = 24 .

Representaciones gráficas

Puede resultar laboriosa la “lectura” de una tabla estadística. Para facilitar esta tarea se suele acom-pañar de una gráfica, que proporciona una visión rápida del aspecto que se estudia. Estas repre-sentaciones gráficas deben tomarse como una ayuda a la interpretación, y las conclusiones han deobtenerse de la tabla.

Presentamos, mediante ejemplos, las representaciones gráficas más usuales.

Ejemplo 3 (Diagrama de barras) Se utiliza para distribuciones con poca variedad de datos. Se co-locan sobre un eje horizontal los valores de la variable y sobre cada uno una barra cuya altura seaigual a su frecuencia absoluta. Las escalas de los ejes horizontal y vertical se pueden tomar distintas,con el objetivo de que el diagrama quede proporcionado.

Las temperaturas medias registradas en el mes de mayo de 2002 en Madrid, en grados centígrados,están dadas por la siguiente tabla:

Temperatura 13 14 15 16 17 18 19 20 21 22Núm. de días 1 1 2 3 6 8 4 3 2 1

La representación gráfica es el siguiente diagrama de barras:

xi

ni

13 14 15 16 17 18 19 20 21 22

12345678

Ejemplo 4 (Histograma) Si hemos agrupado los datos en intervalos, utilizamos un histogramade frecuencias. Se colocan los intervalos que definen las clases sobre un eje horizontal, y sobre cadauno de ellos se coloca un rectángulo cuya área sea igual a la frecuencia absoluta. Así, la altura delrectángulo sobre un intervalo [Li−1, Li), de amplitud ai = Li −Li−1, con frecuencia absoluta ni será:

hi =ni

ai

.

10

Estadística Descriptiva

Cuando todos los intervalos son de la misma amplitud, es más cómodo colocar como alturas lasfrecuencias absolutas, ni. En este caso las áreas no coincidirán con las frecuencias, pero serán pro-porcionales, y el aspecto de la gráfica será el mismo.

El histograma de frecuencias del ejemplo 2 sería:

50 55 60 65 70 75 80 85

5

10

15

20

25

30

Ejemplo 5 (Polígono de frecuencias) Consiste en unir con una línea poligonal:

– los extremos superiores consecutivos de las barras en un diagrama de barras

– o los puntos medios consecutivos de los lados superiores de los rectángulos de un histograma.

Los polígonos de frecuencias se pueden utilizar también para representar las frecuencias acumuladas,absolutas o relativas, crecientes o decrecientes.

En los casos anteriores quedarían los siguientes polígonos de frecuencias:

xi

ni

13 14 15 16 17 18 19 20 21 22

12345678

50 55 60 65 70 75 80 85

5

10

15

20

25

30

Nota: Se acostumbra a prolongar la poligonal hasta el eje horizontal. Para ello tomamos valoresa ambos lados de los datos observados con frecuencia cero. Para no modificar el aspecto visual, losnuevos puntos del eje horizontal se toman a una distancia igual a la mitad del intervalo adyacente.Haciéndolo, así, en el caso de un histograma, el área bajo la poligonal coincide con la del histograma.

Ejemplo 6 (Diagrama de sectores) Si la variable que estamos considerando es cualitativa, sesuele usar este tipo de diagramas. Se divide un círculo en sectores, uno por cada atributo observado,cuyas áreas respectivas sean proporcionales a las frecuencias.

11

Una variable

Clasificada una muestra de 100 personas según su grupo sanguíneo, obtuvimos los siguientesdatos:

Grupo sanguíneo A B AB ONúm. de personas 42 12 5 41

El siguiente sería un diagrama de sec-tores para los datos de esta muestra:

O A

BAB

Aunque podemos adaptar un diagramade barras para la misma:

0

10

20

30

40

A B AB O

Ejemplo 7 (Diagramas de tallos y hojas) Para variables cuantitativas continuas, los diagramasde tallos y hojas constituyen una sencilla representación. El procedimiento es como sigue:

1. Se redondean los datos a un número conveniente de cifras significativas.

2. Se colocan en una tabla de dos columnas separadas por una línea vertical, escribiendo:

todas las cifras, salvo la última, a la izquierda (forman el tallo);

la última cifra a la derecha (forma la hoja).

3. Cada tallo define una clase y se escribe sólo una vez. El número de hojas representa la frecuenciade dicha clase.

Representemos por un diagrama de tallos y hojas, los siguientes datos, expresados en cm.:11.357; 12.542; 11.384; 12.431; 14.212; 15.213; 13.300; 11.300; 17.206; 12.710;13.455; 16.143; 12.162; 12.721; 13.420; 14.698.

Primero los redondeamos a tres cifras significativas, expresándolos en mm.:

114; 125; 114; 124; 142; 152; 133; 113; 172; 127; 135; 161; 122; 127; 134; 147.

Nos quedaría el siguiente diagrama de tallos y hojas:

11 44312 5472713 35414 2715 216 117 2

y los propios datos nos dan una idea visual de la zona con mayor frecuencia de observaciones. Es fácil,a partir del diagrama de tallos y hojas, construir la tabla de frecuencias:

12

Estadística Descriptiva

[Li−1, Li] xi ni Ni ↑ fi Fi ↑[110, 120) 115 3 3 3

16316

[120, 130) 125 5 8 516

12

[130, 140) 135 3 11 316

1116

[140, 150) 145 2 13 18

1316

[150, 160) 155 1 14 116

78

[160, 170) 165 1 15 116

1516

[170, 180) 175 1 16 116

1

N = 16

1.4 Medidas numéricasEl objeto de todo estudio estadístico es obtener información cuantitativa sobre alguna característicade una población, lo que obligaría a manejar una gran cantidad de datos. Para simplificar el estudio seutilizan ciertas medidas que tratan de darnos la información precisa sobre la característica estudiadaa partir de la tabla. Distinguimos entre estas las medidas de centralización y las medidas dedispersión.

1.4.1 Medidas de centralización

Su pretensión es dar una idea del valor central, alrededor del cual se reparten los valores de la muestra.Definimos las más habituales e interesantes.

Definición 1.4.1. La media muestral se define como:

x =1

N

n∑i=1

nixi =n∑

i=1

fixi .

Definición 1.4.2. La idea de la mediana muestral es la siguiente:

Es el valor de la muestra que deja a izquierda y derecha el mismo número de observaciones (unavez ordenadas).

Para hallar la mediana muestral hemos de fijarnos en la columna de frecuencias absolutas acumuladascrecientes, Ni ↑. Si el número de observaciones, N , es impar, digamos N = 2k + 1 = k + 1 + k, lamediana es el valor central, es decir, xi tal que su índice i es el primero que cumple k < Ni ↑. Si elnúmero de observaciones es par, digamos N = 2k, se toma como mediana el punto medio de los dosvalores centrales.

Para variables continuas con los datos agrupados, lo más que se puede hallar es el intervalomediana; es decir la clase que contiene a la mediana.

Definición 1.4.3. La moda de una muestra de una variable estadística discreta es el valor queaparece más veces repetido.

13

Medidas numéricas

Esta última medida no tiene mucho interés como medida de centralización, por varios motivos:no tiene sentido para variables continuas al tener que agrupar; puede no ser un valor central; puedehaber más de una moda, incluso estar en los extremos; . . . .

1.4.2 Medidas de dispersión

Para complementar la información de las medidas de centralización se definen las medidas de disper-sión. Es evidente que las primeras son insuficientes como muestra el siguiente ejemplo:

• •en el que ambas muestras tienen iguales tanto la media como la mediana muestrales. Las medidasde dispersión diferenciarán estas muestras al medir la “separación” de los datos.

Definición 1.4.4. La varianza muestral se define como:

Vx =1

N

n∑i=1

ni(xi − x)2 .

Se define la desviación típica (o desviación estándar) de la muestra como la raíz cuadradapositiva de la varianza muestral: σx = +

√Vx.

Con la desviación típica se mide la dispersión de la muestra en las unidades originales, ya que lavarianza nos da la media de los cuadrados de las desviaciones a la media muestral.

Es cómodo utilizar la siguiente fórmula en el cálculo de la varianza:

Vx =1

N

( n∑i=1

nix2i

)− x2 =n∑

i=1

fix2i − x2 .

Ejercicio 1 Demostrar la identidad anterior para la varianza.Solución: : Basta desarrollar el cuadrado y sustituir la media muestral:

Vx =1

N

n∑i=1

ni(xi − x)2

=1

N

n∑i=1

nix2i −

2x

N

n∑i=1

nixi +x2

N

n∑i=1

ni

=1

N

n∑i=1

nix2i − 2x2 + x2 =

1

N

n∑i=1

nix2i − x2

Ejemplo 8 Apliquemos los conceptos anteriores a la siguiente muestra de estaturas de 24 personas,expresadas en metros:

1.62; 1.75; 1.60; 1.41; 1.93; 2.00; 1.71; 1.68; 1.60; 1.67; 1.85; 1.83; 1.57; 1.54;1.62; 1.93; 1.84; 2.01; 1.70; 1.85; 2.05; 1.66; 1.90; 1.65 .

14

Estadística Descriptiva

Redondeando a tres cifras significativas, expresándolos en cm., nos quedaría el siguiente diagramade tallos y hojas:

14 115 7416 2080726517 51018 534519 33020 015

Apuntamos ahora estos datos en una tabla, añadiendo, a las ya vistas, algunas columnas útilespara el cálculo de la media y la varianza:

xi ni Ni ↑ nixi x2i nix

2i

141 1 1 141 19881 19881154 1 2 154 23716 23716157 1 3 157 24649 24649160 2 5 320 25600 51200162 2 7 324 26244 52488165 1 8 165 27225 27225166 1 9 166 27556 27556167 1 10 167 27889 27889168 1 11 168 28224 28224170 1 12 170 28900 28900171 1 13 171 29241 29241175 1 14 175 30625 30625183 1 15 183 33489 33489184 1 16 184 33856 33856185 2 18 379 34225 68450190 1 19 190 36100 36100193 2 21 386 37249 74498200 1 22 200 40000 40000201 1 23 201 40401 40401205 1 24 205 42025 42025

Así para calcular la media muestral sumaremos las entradas de la cuarta columna (con cabecera nixi)y dividiremos por N = 24:

x =4197

24≈ 175 cm.

La mediana muestral, al haber 24 datos, será el valor medio entre el valor en lugar 12 y el 13:

mediana muestral =170 + 171

2= 170.5 .

Para la varianza, sumamos las entradas de la sexta columna (nix2i ), dividimos por N = 24, y

restamos el cuadrado de la media:

Vx =740413

24− 1752 ≈ 30851− 30625 = 226 .

15

Medidas numéricas

La desviación estándar será σx ≈ 15.

Al haber poca repetición de datos la tabla ha quedado bastante grande, con lo que hemos tenidoque realizar muchos cálculos. Vamos a ver cómo, al agrupar los datos en intervalos, los cálculos sesimplifican, pero, a cambio, perdemos en precisión.

Supongamos que los datos los agrupamos en intervalos de amplitud 10, empezando en [140, 150).Obtendríamos la siguiente tabla de frecuencias:

[Li−1, Li] xi ni Ni ↑ nixi x2i nix

2i

[140, 150) 145 1 1 145 21025 21025[150, 160) 155 2 3 310 24025 48050[160, 170) 165 8 11 1320 27225 217800[170, 180) 175 3 14 525 30625 91875[180, 190) 185 4 18 740 34225 136900[190, 200) 195 3 21 585 38025 114075[200, 210) 205 3 24 615 42025 126075

La media muestral sería: x =4240

24=

530

3≈ 176.7.

El intervalo mediana: [170, 180).

La varianza muestral: Vx =755800

24− 5302

9=

94475

3− 280900

9=

283425− 280900

9=

2525

9≈ 280.6

La desviación típica: σx =

√2525

9=

√2525

3≈ 50.25

3= 16.75.

Para comparar ambos estudios, mostramos los respectivos diagramas de barras e histograma defrecuencias (absolutas al tener intervalos de igual amplitud):

xi

ni

140 150 160 170 180 190 200 210

1

2

3

x ≈ 175

mediana muestral = 170.5

Vx ≈ 226

σx ≈ 15

xi

ni

140 150 160 170 180 190 200 210

12345678

x ≈ 176.7

intervalo mediana [170, 180)

Vx ≈ 280.6

σx ≈ 16.75

16

Estadística Descriptiva

1.4.3 Cuartiles y diagramas de cajas

Una medida elemental de dispersión, una vez ordenados los datos, es el rango o recorrido, R, quees la diferencia entre el mayor y el menor de los datos:

R = xn − x1 .

Siguiendo la idea de la definición de la mediana, introducimos los cuartiles. La mediana separaen dos mitades el conjunto de observaciones. Los 3 cuartiles, Q1, Q2 y Q3, lo hacen en 4 partes conel “mismo” número de elementos. Así, los cuartiles, Q1, Q2 y Q3 son tales que:

– el 25% de los datos están a la izquierda del primer cuartil, Q1, y el 75% a su derecha;

– el 50% de los datos están a la izquierda del segundo cuartil, Q2, y el 50% a su derecha (es decirQ2 = mediana );

– el 75% de los datos están a la izquierda del tercer cuartil, Q3, y el 25% a su derecha.

Igual que ocurría con la mediana, hemos de considerar distintos casos según el tamaño muestralsea o no divisible por 4: N = 4k, N = 4k + 1, N = 4k + 2 ó N = 4k + 3.

Las únicas novedades son el primer y el tercer cuartiles. A partir de estas dos cantidades se defineel rango intercuartílico, RI, que es una medida de dispersión definida por:

rango intercuartílico RI = Q3 −Q1 .

La misma idea seguida para definir los cuartiles nos llevaría a la definición de los 99 percentiles,P1, . . . , P99. En general el percentil de orden k será el menor valor que supera al k por ciento de losdatos.

1.4.4 Diagramas de cajas. Datos atípicos

El diagrama de caja es un gráfico basado en los cuartiles que contiene además información sobrela simetría de la distribución y nos permitirá definir el concepto de dato atípico. El siguiente diagramamuestra la construcción del diagrama de caja de una muestra dada. Se han de calcular los cuartiles,Q1, mediana y Q3, así como el rango intercuartílico RI = Q3 −Q1.

Q1 med. Q3

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

¾ -RI

..

..

..

..

..

..

..

..barrera interior barrera interior

¾ ¾- -1.5RI 1.5RI

..

..

..

..

..

..

..

..

..

..

..

..barrera exterior barrera exterior

¾ ¾- -3RI 3RI

•• ◦ ◦• • •◦

17

Medidas numéricas

Los segmentos dibujados a ambos lados de la caja, denominados “bigotes” , unen cada lado con losdatos más extremos que aparecen dentro de las barreras interiores. Llamamos datos atípicos alas observaciones que están fuera de las barreras interiores, es decir, a más de 1.5 veces el rangointercuartílico del correspondiente cuartil. Si además están a más de 3 veces el rango intercuartílico(fuera de las barreras exteriores), se denominan datos atípicos extremos. En el gráfico anteriorhemos representado con el símbolo ◦ los datos atípicos extremos, y con • los datos atípicos noextremos.

Este tipo de observaciones atípicas requiere una atención particular: bien porque responden aerrores en la medida o en el tratamiento de datos; bien porque contienen información relevante sobreel comportamiento de la variable.

1.4.5 Comparación de media y mediana: robustez

Un rasgo que diferencia a media y mediana es su comportamiento frente a datos atípicos.Supongamos dada la siguiente muestra de datos:

5.3; 2.8; 3.4; 7.2; 1.7; 6.2; 9.3; 3.2; 5.9 ;

que tiene media 5 y mediana 5.3. Si introducimos un dato más que sea un valor atípico extremo, porejemplo 83, la muestra quedaría con la misma mediana, pero la media cambia drásticamente a 12.8.

La resistencia o estabilidad de la mediana frente a la existencia de datos atípicos es un fenómenoque recibe el nombre de robustez. Todos los estadísticos basados en el orden –mediana, cuartiles,percentiles, . . . – tienen esta misma propiedad, y se dice que son robustas. Las medidas que se basanen la suma –como la media y la desviación típica– son más sensibles a los datos atípicos y son, portanto, poco robustas.

Esta sensibilidad de la media a las observaciones atípicas explica la posición relativa de la medianay media en distribuciones asimétricas, como muestran las siguientes figuras:

Simétrica Asimétrica a la dcha. Asimétrica a la izqda.

xmed.

med. x x med.

Los datos atípicos a la derecha (izquierda) del diagrama de caja, atraen a la media, desplazándolahacia la derecha (izquierda), creando los distintos tipos de asimetría.

Conclusión: La media y la desviación típica deben utilizarse para resumir distribuciones homogé-neas (simétricas y sin datos atípicos). En otros casos, es preferible utilizar la mediana y el rangointercuartílico.

18

Estadística Descriptiva

Ejemplo 9 Las ventas de zapatos de caballero en una zapatería, distribuidas por tallas, han sido,durante cierto mes, las siguientes:

Talla 37 38 39 40 41 42 43 44 45Núm. de pares 3 4 55 234 366 229 57 6 2

El número total de zapatos vendidos en ese mes es N = 956. Para calcular los cuartiles vemos que:

25 % de 956 = 239

de manera que:

Q1 = 40 , Q2 = 41 , Q3 = 42 , y el rango intercuartílico es: RI = 2 .

Las barreras interiores del diagrama de caja estarían en 37 y 45, de manera que no tenemos datosatípicos, y los bigotes tienen la misma longitud, pues existen los datos 37 y 45 en la muestra. Además,la distribución de datos de la caja es simétrica respecto a la mediana:

Tabla de frecuencias:

xi ni Ni ↑ Ni ↓ ni xi x2i ni x

2i

37 3 3 956 111 1369 410738 4 7 953 152 1444 577639 55 62 949 2145 1521 8365540 234 296 894 9360 1600 37440041 366 662 660 15006 1681 61524642 229 891 294 9618 1764 40395643 57 948 65 2451 1849 10539344 6 954 8 264 1936 1161645 2 956 2 90 2025 4050

Cálculos:

x =39197

956≈ 41

Vx =1608199

956− x2 ≈ 1.131

σx =√

Vx ≈ 1.06

moda = 41 .

El dueño de la zapatería decide tomar esta muestra como representativa de su venta dezapatos. Así, a la vista de estos resultados, si X es la variable “talla de zapato vendido” , decide queX ∼ N(41 ; 1.06), de manera que:

X − 41

1.06∼ N(0 ; 1) .

19

Medidas numéricas

Ejemplo 10 La clasificación de 100 familias por el número de hijos es:

Núm. de hijos 0 1 2 3 4 5 6 7 8Núm. de familias 11 13 20 25 14 10 4 2 1

Vamos a analizar la variable aleatoria X =“número de hijos por familia” . Se tiene:

x =280

100=

14

5= 2.8 , Vx =

1098

100− 196

25=

549− 392

50=

157

50≈ 3.14 , σx =

√157

50≈ 8.86

5= 1.77 .

De los 100 datos el lugar 50 lo ocupa el 3, y el 51 también; luego la mediana es 3: Q2 = 3. Por su partelos otros dos cuartiles son Q1 = 2 y Q3 = 4 (¿por qué?), con lo que tenemos rango intercuartílico:

RI = 4− 2 = 2

y el diagrama de caja queda con un dato atípico, 8, que es no extremo pues no supera la barreraexterior derecha (la vertical en Q3 + 3RI = 4 + 6 = 10).

La influencia de este dato atípico no puede ser muy grande, pues aparece en el 1% de la muestra.De hecho, si lo ignoramos de la muestra quedaría media 2.75. Además la media y la mediana estánmuy próximas: si redondeamos a enteros coinciden.

Bajo estas consideraciones podemos tratar la muestra como casi–simétrica, y así tomaremos unaN(2.8; 1.77) como modelo de distribución para la variable X =“número de hijos por familia” .

Ejemplo 11 De una encuesta de la población española en el año 1973 sobre presupuestos familiares,se obtuvieron los siguientes datos para la variable G =“gasto mensual por familia” (en miles de ptas.),sobre una muestra de 75 familias:

[Li−1, Li) ni fi Fi ↑[0, 50) 1 0.01 0.01

[50, 100) 10 0.13 0.15[100, 150) 9 0.12 0.27[150, 200) 12 0.16 0.43[200, 250) 12 0.16 0.59[250, 300) 10 0.13 0.72[300, 350) 3 0.04 0.76[350, 400) 1 0.01 0.77[400, 450) 6 0.08 0.85[450, 500) 5 0.07 0.92[500, 550) 1 0.01 0.93[550, 600) 0 0.00 0.93[600, 650) 2 0.03 0.96[650, 700) 1 0.01 0.97[700, 750) 1 0.01 0.99[750, 800) 0 0.00 0.99[800, 850) 0 0.00 0.99[850, 900) 1 0.01 1.00[900, 950) 0 0.00 1.00

El primer intervalo cuartílico es [100, 150), el intervalo mediana, [200, 250), y el tercer cuartil estáen el intervalo [300, 350). Tendríamos así un rango intercuartílico

150 < RI ≤ 350− 100 = 250 .

20

Estadística Descriptiva

El diagrama de caja tendría barreras interiores extremas en −275, a la izquierda, y 725 a laderecha. En concreto, vemos de la tabla que el 76− 15 = 61 % de los datos se encontraría en la caja,un 15% en el segmento izquierdo, y un 24% en el segmento derecho, del cual el 1% corresponde adatos atípicos, que podrían llegar a ser extremos.

Vemos, en cualquier caso, que la distribución es asimétrica a la derecha.Si tomamos las marcas de clase como representativas de cada intervalo, podemos calcular la media

y la desviación típica de esta muestra, obteniendo: x ≈ 264 miles de pesetas; σx ≈ 170.8 .

1.5 Transformaciones lineales

Supongamos que tenemos una muestra de datos x1, x2, . . . , xn con media muestral x y desviacióntípica σx. Puede interesar cambiar la escala en la que nos dieron los datos. ¿Cómo influirá estecambio de escala en x y σx?

En general, un cambio de escala viene dado por y = kx, que es un caso particular de las trans-formaciones lineales: y = ax + b. Veamos cómo varían los estadísticos media y desviación típica:

Siendo: x =n∑

i=1

fixi tendríamos: y =n∑

i=1

fi(a xi + b) = a

n∑i=1

fixi + b

n∑i=1

fi

de donde: y = a x + b ;

Análogamente si: Vx =n∑

i=1

fix2i − x2

entonces: Vy =n∑

i=1

fi(a xi + b)2 − (a x + b)2

= a2

n∑i=1

fix2i + 2ab

n∑i=1

fixi + b2

n∑i=1

fi − a2 x2 − 2abx− b2

= a2

n∑i=1

fix2i + 2abx + b2 − a2 x2 − 2abx− b2

= a2( n∑

i=1

fix2i − x2

)= a2Vx ;

por tanto: σy = |a|σx .

Ejercicio 2 ¿Cómo influye una transformación lineal sobre los datos de una muestra en sus cuar-tiles?

Definición 1.5.1. (Tipificación) Si x y σx son la media y desviación típica muestrales de unamuestra, x1, . . . , xN , correspondiente a una variable X, la muestra correspondiente a la variabletipificada

Y =X − x

σx

, yi =xi − x

σx

, i = 1, . . . , N ,

tiene media muestral y = 0 y desviación típica muestral σy = 1.

21

Dos variables

1.6 Dos variables

En ocasiones estudiaremos varias características de una población. Un problema interesante serádeterminar si existe algún tipo de relación entre ellas. Dedicaremos esta sección a este problema.Como en capítulos anteriores, nos bastará con entender el caso de dos variables aleatorias.

Supongamos, pues, que estamos realizando el estudio conjunto de dos variables aleatorias cuan-titativas, X e Y . Dispondremos de una muestra de N pares de observaciones:

(x1, y1), (x2, y2), . . . , (xN , yN) ;

es decir, para el elemento i–ésimo de la muestra, (xi, yi), se ha observado que X = xi e Y = yi.Utilizaremos una tabla de doble entrada para la distribución “conjunta” . De ella podemos calcular

las distribuciones marginales y, en particular, calcular los estadísticos de cada variable: x, medx,modax, Sx, S2

x, . . . para la muestra marginal de la variable X; y los respectivos para Y .Las representaciones gráficas de la distribución conjunta, se realizan en 3 dimensiones. Como

alternativa a estos gráficos se introduce la nube de puntos:

Con ella representamos, por ejemplo, los valores observados de X enel eje horizontal, y los de Y en el vertical. Cada punto es una observacióndel vector (X,Y ). La nube de puntos mostrada a la izquierda se harealizado a partir de la muestra:

(23, 15) ; (43, 16) ; (42, 25) ; (23, 25) ; (28, 17) ; (29, 22) ; (31, 35) ;(32, 28) ; (34, 18) ; (36, 32) ; (40, 38) ; (34, 18) ; (36, 23) ; (38, 28) ;(45, 25) ; (65, 26) ; (64, 35) ; (45, 35) ; (50, 27) ; (51, 32) ; (53, 45) ;(54, 38) ; (56, 28) ; (58, 42) ; (65, 48) ; (56, 28) ; (58, 33) ; (60, 38) .

X

Y

• •••

••

•••

••

••• • •

••••

•••

••

•••

El objetivo marcado en esta sección es encontrar una curva sencilla que exprese (de maneraresumida) una posible relación entre X e Y . Para ello es fundamental dibujar, primero, la nube depuntos, para decidir si puede existir esta relación. Una medida numérica que recoge esta posiblerelación es la covarianza muestral que se define como:

covx,y =1

N

N∑i=1

(xi − x)(yi − y) .

Para calcularla es más sencillo utilizar la igualdad:

covx,y =1

N

N∑i=1

xiyi − xy

que se demuestra fácilmente (ejercicio).La covarianza aparece de manera natural al intentar ajustar una “recta de regresión” a una nube

de datos.

22

Estadística Descriptiva

1.6.1 Recta de regresión y correlación

Si de la nube de puntos decidimos que puede existir una recta, y = ax + b, que se ajuste a la misma,resumiremos toda la nube con ella. Esta recta trataría de formalizar la idea de que existe una relaciónlineal entre los valores de X e Y .

Definición 1.6.1. La recta de regresión de Y sobre X es la recta y = a+bx que minimiza el errorcuadrático medio (en adelante, E.C.M.):

E.C.M. =1

N

N∑i=1

(yi − a− bxi)2 .

Nota: Con la recta de regresión de Y sobre X, se pretende minimizar el E.C.M., en cuya definiciónse promedian las distancias verticales de cada punto de la muestra a la recta. Esta recta se usarápara estimar valores de Y para valores conocidos de X. Podemos, análogamente, calcular la rectade regresión de X sobre Y , que servirá para estimar valores de X para valores conocidos de Y .El desarrollo es el mismo, pero partiendo del error cuadrático medio para las distancias horizontales:

1

N

N∑i=1

(xi − c− dyi)2 ,

con x = c + dy. Puesto que los resultados son análogos, para no alargar innecesariamente la sección,nos centraremos en la primera de las rectas: y = a + bx.

Como viene siendo costumbre, presentamos una identidad para el cálculo de este nuevo número:

E.C.M. =1

N

( N∑i=1

y2i + Na2 + b2

N∑i=1

x2i − 2a

N∑i=1

yi − 2bN∑

i=1

xiyi + 2ab

N∑i=1

xi

)

=(Vy + y2

)+ a2 +

(Vx + x2

)b2 + 2x a b− 2y a− 2

(covx,y + xy

)b ;

aunque en esta ocasión para justificar los cálculos posteriores, que resuelven (calculan) los coeficientesde la recta que minimizan esta cantidad. Diremos que y = a + bx es la recta de regresión de Y sobreX si a y b son tales que:

∂(E.C.M.)

∂a= 2 a + 2x b− 2y = 0

∂(E.C.M.)

∂b= 2(Vx + x2) b + 2x a− 2(covx,y + xy) = 0 .

La solución es inmediata:a = y − covx,y

Vx

x ; b =covx,y

Vx

aportando, además, esta solución un mínimo de la función E.C.M.. Por tanto, la recta de regresiónde Y sobre X es:

y − y =covx,y

Vx

(x− x) .

Obsérvese que la recta de regresión pasa por el punto de medias: (x, y).

23

Dos variables

Justificaremos el uso de la recta de regresión por el valor concreto del E.C.M. cometido:

Definición 1.6.2. La varianza residual es el E.C.M. cometido con la recta de regresión de Ysobre X, es decir:

Varianza residual =1

N

N∑i=1

(yi − y − covx,y

Vx

(xi − x)

)2

Desarrollando y agrupando esta última igualdad, podemos reescribirla como:

Varianza residual = Vy(1− r2) , siendo: r =covx,y

σxσy

.

Al cociente r se le denomina coeficiente de correlación y nos da una medida de la bondad delajuste por la recta de regresión. En concreto, r es un número entre −1 y 1, y cuánto más próximoesté a los valores extremos (|r| ≈ 1), más pequeño será el E.C.M. cometido; en otras palabras, mejorserá el ajuste.

Ejemplo 12 (Frank Anscombe) En la siguiente tabla se presentan tres conjuntos de datos pre-parados por el estadístico Frank Anscombe para ilustrar los peligros de hacer cálculos sin antesrepresentar los datos:Conjunto de datos A:

(10, 8.04); (8, 6.95); (13, 7.58); (9, 8.81); (11, 8.33); (14, 9.96); (6, 7.24); (4, 4.26); (12, 10.84); (7, 4.82); (5, 5.68) .

Conjunto de datos B:

(10, 9.14); (8, 8.14); (13, 8.74); (9, 8.77); (11, 9.26); (14, 8.10); (6, 6.13); (4, 3.10); (12, 9.13); (7, 7.26); (5, 4.74) .

Conjunto de datos C:

(8, 6.58); (8, 5.76); (8, 7.71); (8, 8.84); (8, 8.47); (8, 7.04); (8, 5.25); (8, 5.56); (8, 7.91); (8, 6.89); (19, 12.50) .

Los cálculos correspondientes sobre cada conjunto aportan los siguientes valores, comunes a lostres conjuntos de datos:

x = 9; σx ≈ 3.16; y ≈ 7.50; σy ≈ 1.94;1

11

11∑i=1

xiyi = 72.51;

covx,y ≈ 5;covx,y

Vx

≈ 0.5; r ≈ 0.82; Varianza residual = Vy(1− r2) ≈ 1.23

y así la recta de regresión de Y sobre X sería, para los tres:

y − 7.50 = 0.5(x− 9) ⇐⇒ y = 3 + 0.5x .

Las nubes de datos de sendos conjuntos son:

Datos A Datos B Datos C

•• •• • ••

•••• •• • •

••

••

• ••••••••••

A la vista de las mismas, tomamos la recta de regresión como buen ajuste sólo para la muestra A.

24

Estadística Descriptiva

1.6.2 Otras dependencias funcionales

En ocasiones intentar resumir la nube de puntos por una recta puede que no tenga mucho sentido.Podemos pensar en muchos modelos alternativos al modelo lineal. Vamos a dedicar esta sección aindicar cómo aplicar los resultados del modelo de regresión lineal a otros modelos como el logarítmicoy el exponencial.

La idea es podernos restringir al modelo lineal mediante una sencilla transformación, fácil deinvertir.

En general, si disponemos de observaciones (x1, y1), . . . , (xN , yN) de dos características X e Y deuna población, y queremos ajustar un modelo de la forma:

y = a + b g(x)

a estos datos, podemos definir una nueva variable T = g(X) y hallar la recta de regresión de Ysobre T . Esta correspondería a los datos

(t1, y1), . . . , (tN , yN), donde: tj = a + b g(xj), para cada j = 1, . . . , N .

Una vez obtenida la recta de regresión de Y sobre T , deshacemos el cambio y obtenemos la curvapedida.

Ejemplo 13 (Regresión logarítmica) Si la nube de puntos recuerda a la gráfica de la funciónlogaritmo, se ajustará por un modelo de la forma:

y = a + b log x (regresión logarítmica) .

Para ello definimos T = log(X), hallamos la recta de regresión de Y sobre T , con la muestra con-veniente modificada. Si obtenemos, por ejemplo, y = 2 + 3t, diremos que y = 2 + 3 log x es nuestromodelo de regresión logarítmica para la muestra original.

Ejemplo 14 (Regresión exponencial) Cuando la nube de puntos recuerde a una gráfica expo-nencial (y = ex ó y = e−x), la intentaremos representar mediante un modelo de la forma:

y = a ebx (regresión exponencial) .

Tomando logaritmos en este modelo tendríamos:

log y = log a + bx .

Si definimos la variable T = log(Y ), y hallamos la recta de regresión de T sobre X, al deshacer elcambio obtendríamos los datos de la regresión exponencial. Por ejemplo, si obtenemos t = −2 + 3x,la curva pedida sería:

y = e−2 e3x ≈ 0.135 e3x .

25

Problemas

Problemas1. Antes de que los hornos microondas se puedan poner a la venta, el fabricante debe asegurarse

de que la radiación emitida a través de la puerta se encuentra por debajo de un límite deseguridad. Las cantidades de radiación emitidas por 25 hornos (en mw/cm2) con la puertacerrada son:

15 9 18 10 512 8 5 8 107 2 1 5 35 15 10 15 98 18 1 2 11

(a) Calcula la media, la varianza y la desviación típica.(b) Calcula la mediana, los cuartiles y el rango intercuartílico.(c) Dibuja el diagrama de cajas correspondiente a estos datos.

2. Determina razonadamente si las siguientes afirmaciones son verdaderas o falsas:

(a) Si añadimos 7 a todos los datos de un conjunto, el primer cuartil aumenta en 7 unidadesy el rango intercuartílico no cambia.

(b) Si todos los datos de un conjunto se multiplican por -2, la desviación típica se dobla.(c) Si todos los datos de un conjunto se multiplican por 2, la varianza se dobla.(d) Si cambiamos el signo de todos los datos de un conjunto, el coeficiente de asimetría de

Fisher también cambia de signo.(e) Al multiplicar por tres todos los datos de un conjunto, el coeficiente de asimetría Fisher

no varía.(f) Si el coeficiente de correlación entre dos variables vale -0.8, los valores por debajo del

promedio de una variable están asociados con valores por debajo del promedio de la otra.(g) Si para todo i, se cumple yi < xi, el coeficiente de correlación entre x e y es negativo.(h) Al restar una unidad a cada dato de un conjunto, la desviación típica siempre disminuye.(i) Si a un conjunto de datos con media x se le añade un nuevo dato que coincide con x, la

media no cambia y la desviación típica disminuye.

3. Un estudio sobre el efecto de la temperatura en el rendimiento de un proceso químico propor-ciona los siguientes resultados:

Temperatura (x) -5 -4 -3 -2 -1 0 1 2 3 4 5Rendimiento (y) 1 5 4 7 10 8 9 13 14 13 18

(a) Representa el diagrama de dispersión de los datos anteriores y calcula el coeficiente decorrelación entre las dos variables. ¿Se puede admitir que existe una relación lineal apro-ximada entre ambas, es decir, yi ≈ a + bxi?

(b) Calcula el término independiente y la pendiente de la recta de mínimos cuadrados.(c) ¿Qué rendimiento predecirías para un nuevo proceso realizado a temperatura x = 3.5?

26

Estadística Descriptiva

4. Con el fin de hacer un estudio de aceptación sobre dos modelos de automóviles de recientefabricación, se han considerado las ventas efectuadas por un concesionario durante los días nofestivos del último mes de septiembre, que han sido las siguientes:

Mod. A Mod. B Núm. de días0 2 11 3 12 1 32 2 53 1 83 2 44 0 14 1 2

Obténganse las distribuciones marginales, dando sus medias y varianzas respectivas. Hállese lacovarianza de la distribución bidimensional, dibujar la nube de puntos de la misma.

5. Comparadas las edades de cien madres con la de su primer hijo, se obtuvo la siguiente distri-bución bidimensional:

Edad del hijoEdad de la madre

20–30 30–40 40–50 50–60 60–700–10 11 310–15 18 115–20 15 620–25 1225–30 10 630–40 9 340–50 6

Hállense la covarianza de la distribución y las varianzas correspondientes, tomando en cadaclase su marca de clase central. A partir de esta muestra estúdiese la edad de una madre alnacer su primer hijo.

6. Consultando el fichero de un departamento de pediatría, se obtuvieron los siguientes datosrespecto a los pesos y edades de los niños atendidos:

Peso (en kg)Edad (en años)

0 1 2 3 40–5 25–10 4 210–15 8 9 715–20 1 2 8 1420–25 1

Obténgase la recta de regresión de Y (pesos) sobreX (edades). Con la recta obtenida, decídase cuál esel peso que debe esperarse para un niño de 5 años.

27

Problemas

7. Hállense y represéntense las rectas de regresión correspondientes a la distribución estadística:

xi yi ni,i

1 5 22 6 63 6 73 7 64 7 74 8 45 8 56 9 3

8. Una distribución estadística de variables X e Y es tal que x = 3.5, y = 4 x, y Vx = 3 covx,y.Sabiendo que en una de las observaciones es xi = 5, ¿qué valor debe esperarse para yi en elsupuesto de una dependencia lineal entre las variables?

9. Ajústese una función del tipo y = aebx a la siguiente distribución bidimensional:

xi 1 1.5 2 2.5 3 4yi 2.2 6 16 44.5 121 895

10. Conocidas la media y varianza muestrales de cada una de las variables asociadas a una distri-bución bidimensional,

x = 3 , Vx = 6 , y = 6 , Vy = 8 ,

de la que se conoce, además, la recta de regresión de Y sobre X

2x + 3y − 12 = 0

obténgase la recta de regresión de X sobre Y .

11. Dadas dos variables X e Y , la recta de regresión de Y sobre X es y = 1.16x+10.8 mientras quela de X sobre Y es x = 0.13y − 0.6. Calcula las medias de las variables X e Y y el coeficientede correlación entre ambas.

12. Calcúlese la recta de regresión, `1, de Y sobre X para la muestra:

(1, 3), (3, 4), (5, 2) .

Añadir a la muestra anterior el punto de la recta `1 con coordenada x = 7. Calcular la rectade regresión, `2, de Y sobre X para la muestra aumentada.

Repetir lo mismo añadiendo a la muestra original el punto de `1 con primera coordenada x = −9(obteniendo una tercera recta `3).

Dibuja las tres rectas con sus muestras en un mismo gráfico e interpreta el resultado.

28