DOCUMENTO 8: ESTADÍSTICA BIDIMENSIONAL … · Web viewson las de las variables, por lo que no se...

9
IES LILA Curso 10/11 1º BACH. MÁT. APLICADAS DOCUMENTO 10: COEFICIENTE DE CORRELACIÓN LINEAL La nube de puntos o diagrama de dispersión nos da una aproximación de la correlación existente entre dos variables. Como habrás comprobado, en ocasiones los puntos parecen ajustarse a una línea recta, en otros casos a una curva. ESTUDIAREMOS SOLAMENTE LA CORRELACIÓN LINEAL, ES DECIR, LA QUE SE REFIERE AL AJUSTE POR LÍNEAS RECTAS. Una vez observado que existe correlación entre las variables, tiene interés cuantificar de forma más objetiva y precisa esa correlación. La cuantificación de la correlación lineal se realiza a través de un coeficiente denominado coeficiente de correlación lineal de Pearson, cuyo valor puede calcularse por la siguiente expresión: x y y son las desviaciones típicas de las variables X e Y. El parámetro xy se denomina covarianza. Es la media aritmética de los productos de las desviaciones de cada variable con respecto a su media. Se calcula a través de la siguiente expresión: o bien La covarianza puede ser positiva, negativa o nula. Su signo indica el sentido de la correlación entre las variables: Si xy > 0, la correlación es positiva o directa. Si xy < 0, la correlación es negativa o inversa. Si xy = 0, no hay correlación lineal. Las unidades de xy son las de las variables, por lo que no se puede comparar la fuerza de relación entre variables muy diferentes (por ejemplo, la covarianza que resulta de comparar estatura y peso con la que resulta de comparar gasto en publicidad y ventas obtenidas). Por ello, como coeficiente adimensional, se utiliza r. Este es el coeficiente en el que nos fijaremos para estudiar si existe o no correlación lineal entre dos variables. El valor de r está comprendido entre -1 y 1. -1 r 1 Si la correlación es perfecta (dependencia funcional), entonces r = 1 ó r = -1. Si la correlación es fuerte, r es próximo a 1 (correlación positiva ó correlación negativa) Si r es próximo a 0, la correlación (positiva o negativa) es débil. 1

Transcript of DOCUMENTO 8: ESTADÍSTICA BIDIMENSIONAL … · Web viewson las de las variables, por lo que no se...

Page 1: DOCUMENTO 8: ESTADÍSTICA BIDIMENSIONAL … · Web viewson las de las variables, por lo que no se puede comparar la fuerza de relación entre variables muy diferentes (por ejemplo,

IES LILA Curso 10/11 1º BACH. MÁT. APLICADAS

DOCUMENTO 10: COEFICIENTE DE CORRELACIÓN LINEAL

La nube de puntos o diagrama de dispersión nos da una aproximación de la correlación existente entre dos variables. Como habrás comprobado, en ocasiones los puntos parecen ajustarse a una línea recta, en otros casos a una curva. ESTUDIAREMOS SOLAMENTE LA CORRELACIÓN LINEAL, ES DECIR, LA QUE SE REFIERE AL AJUSTE POR LÍNEAS RECTAS.

Una vez observado que existe correlación entre las variables, tiene interés cuantificar de forma más objetiva y precisa esa correlación. La cuantificación de la correlación lineal se realiza a través de un coeficiente denominado coeficiente de correlación lineal de Pearson, cuyo valor puede calcularse por la siguiente expresión:

x y y son las desviaciones típicas de las variables X e Y. El parámetro xy se denomina covarianza. Es la media aritmética de los productos de las

desviaciones de cada variable con respecto a su media. Se calcula a través de la siguiente expresión:

o bien

La covarianza puede ser positiva, negativa o nula. Su signo indica el sentido de la correlación entre las variables:

Si xy > 0, la correlación es positiva o directa.Si xy < 0, la correlación es negativa o inversa.Si xy = 0, no hay correlación lineal.

Las unidades de xy son las de las variables, por lo que no se puede comparar la fuerza de relación entre variables muy diferentes (por ejemplo, la covarianza que resulta de comparar estatura y peso con la que resulta de comparar gasto en publicidad y ventas obtenidas). Por ello, como coeficiente adimensional, se utiliza r. Este es el coeficiente en el que nos fijaremos para estudiar si existe o no correlación lineal entre dos variables.

El valor de r está comprendido entre -1 y 1. -1 r 1

Si la correlación es perfecta (dependencia funcional), entonces r = 1 ó r = -1.Si la correlación es fuerte, r es próximo a 1 (correlación positiva ó correlación negativa)Si r es próximo a 0, la correlación (positiva o negativa) es débil.Si r = 0, no existe correlación lineal. Esto no excluye que las variables estadísticas puedan estar

relacionadas por otro tipo de correlación.

Ejemplo: Si los coeficientes de correlación de las distribuciones de los diagramas que siguen son (no necesariamente por ese orden): -0,04; 0,96; 0,65 y –0,37, Cuál corresponde a cada uno y por qué

1

Page 2: DOCUMENTO 8: ESTADÍSTICA BIDIMENSIONAL … · Web viewson las de las variables, por lo que no se puede comparar la fuerza de relación entre variables muy diferentes (por ejemplo,

IES LILA Curso 10/11 1º BACH. MÁT. APLICADAS

ACTIVIDADES

1.- Los números 0,2; -0,9; -0,7 y 0,6 corresponden a los coeficientes de correlación de las siguientes distribuciones bidimensionales. Asigna a cada gráfica el suyo:

2.- Los coeficientes de correlación de estas distribuciones bidimensionales, son, en valor absoluto: 0,55; 0,75; 0,87 y 0,96. Asigna a cada uno el suyo, cambiando el signo cuando proceda.

En las actividades anteriores te familiarizaste con el coeficiente de correlación lineal pero aún no sabes cómo calcularlo. Con el ejemplo que tienes a continuación lo aprenderás.

CÁLCULO DEL COEFICIENTE DE CORRELACIÓN LINEAL.

Ejemplo: Una asociación dedicada a la protección de la infancia desea estudiar la relación entre la mortalidad infantil en cada país y el número de camas por cada mil habitantes. Para ello, posee los siguientes datos sobre diez países concretos que pueden considerarse representativos del resto:

X 50 100 70 60 120 180 200 250 30 90Y 5 2 2,5 3,75 4 1 1,25 0,75 7 3

De forma que X representa el número de camas por cada mil habitantes e Y, el tanto por ciento de mortalidad infantil en el país correspondiente.

a) Calcula la media y la desviación típica de X e Yb) ¿Qué distribución está más dispersa? Razona la respuesta.c) Calcula e interpreta el coeficiente de correlación lineal.

xi fi xi* fi xi 2* fi yi fi yi* fi yi

2* fi

TOTAL

2

Page 3: DOCUMENTO 8: ESTADÍSTICA BIDIMENSIONAL … · Web viewson las de las variables, por lo que no se puede comparar la fuerza de relación entre variables muy diferentes (por ejemplo,

IES LILA Curso 10/11 1º BACH. MÁT. APLICADAS

Una vez halladas la media y desviación típica de cada una de las variables, vamos a calcular la covarianza, para lo que utilizaremos la siguiente tabla:

xi yi fi xi* yi *fi

TOTAL

ACTIVIDADES

3.- En la siguiente tabla se refleja la natalidad por cada 1000 habitantes de una ciudad española:Año 1996 1997 1998 1999 2000 2001Natalidad 20 21 19 17 15 14

Calcula e interpreta el coeficiente de correlación lineal

DOCUMENTO 11: RECTA DE REGRESIÓN

Cuando la nube de puntos sugiere algún tipo de dependencia entre las dos variables X e Y, condensándose los puntos alrededor de una cierta línea, podemos tratar de encontrar la recta que mejor se ajuste a la distribución. Esta recta se llama recta de regresión.

¿Qué entendemos por la línea que mejor se ajusta al diagrama de dispersión? Aquella línea que haga que la suma de las desviaciones de los puntos de la nube de puntos respecto de los correspondientes de la línea sea lo menor posible.En estas condiciones, diremos que es la línea que menos se separa de la nube de puntos.

Para encontrar la ecuación de la recta que mejor se ajuste a la nube, el método más utilizado es el de los mínimos cuadrados. Este método consiste en hacer mínima la suma de los cuadrados de las diferencias entre los valores observados experimentalmente y los

teóricos que se obtengan mediante la recta.

De la aplicación de este método se deduce que la recta pasa por el punto ( y ). Su ecuación es:

Esta ecuación se llama recta de regresión de Y sobre X. Sustituyendo en esta ecuación los valores de X podemos obtener, con cierta aproximación, los valores esperados para la variable Y que llamamos estimaciones o previsiones.

3

Page 4: DOCUMENTO 8: ESTADÍSTICA BIDIMENSIONAL … · Web viewson las de las variables, por lo que no se puede comparar la fuerza de relación entre variables muy diferentes (por ejemplo,

IES LILA Curso 10/11 1º BACH. MÁT. APLICADAS

Si lo que queremos es estimar los valores de X partiendo de los de Y, utilizaremos la ecuación de la recta de regresión de X sobre Y, que es:

Las rectas de regresión de Y sobre X y de X sobre Y son distintas, por eso hay que saber qué variable es la dependiente, pues X e Y no son intercambiables.

Recuerda el ejemplo que vimos en el Documento 9, que relacionaba los gastos en publicidad (en miles de euros) y las ventas de una compañía (en miles de euros). Para la misma podría resultar interesante averiguar qué ventas podría conseguir si invierte 18000 euros en publicidad, o bien, cuánto necesitaría invertir para que sus ventas ascendieran a 23000 euros.

En el primer caso sabiendo que x = 18000 euros queremos averiguar el valor de y. Por lo tanto, para realizar nuestras estimaciones utilizaríamos la recta de regresión de Y sobre X.

En el segundo caso sabiendo que y = 23000 euros queremos averiguar el valor de x. Por lo tanto, para realizar nuestras estimaciones utilizaríamos la recta de regresión de X sobre Y.

Ejemplo: Una persona se somete a una dieta de adelgazamiento durante 5 semanas. A continuación se detalla su peso al término de cada una de esas semanas:

Semanas de dieta (X) 1 2 3 4 5Peso en Kg. (Y) 88,5 87 84 82,5 79

a) ¿Es razonable suponer que existe correlación lineal entre el peso y la dieta? ¿Cómo puede expresarse esa correlación?

b) ¿Qué peso es de esperar que alcance esa persona si sigue la dieta durante dos semanas más? ¿Y si hace la dieta durante 25 semanas?

4

Page 5: DOCUMENTO 8: ESTADÍSTICA BIDIMENSIONAL … · Web viewson las de las variables, por lo que no se puede comparar la fuerza de relación entre variables muy diferentes (por ejemplo,

IES LILA Curso 10/11 1º BACH. MÁT. APLICADAS

¿Qué fiabilidad podemos conceder a las estimaciones obtenidas a través de la recta de regresión?

Si r es próximo a 0, no tiene sentido realizar previsiones. Si r es próximo a 1 ó -1, probablemente los valores reales sean próximos a nuestras

estimaciones. Si r = 1 ó r = -1, las estimaciones realizadas coincidirán con los valores reales.

Debemos tener en cuenta, además, que:

La recta de regresión debe usarse para hacer estimaciones en valores próximos a los considerados. Pretender una estimación en puntos lejanos puede conducir a situaciones absurdas.

La fiabilidad aumenta al aumentar los datos. Una recta obtenida a partir de pocos datos genera grandes riesgos, aunque r sea muy alto.

ACTIVIDADES

4.- Una distribución bidimensional en la que los valores de x son: 12, 15, 17, 21, 22 y 25, tiene una correlación r = 0,99 y su recta de regresión es: y = 10,5 + 3,2x.Calcula los valores de y para x = 20, x = 13, x = 30 y x = 100. ¿Cuáles de las estimaciones anteriores son fiables, cuál es poco fiable y cuál no se debe hacer?

5.- Los datos de la evolución del crecimiento del PIB y del empleo en España (en porcentaje) durante los últimos nueve años están recogidos en la siguiente tabla:

PIB 4,7 3,7 2,3 0,7 -1,2 2,1 2,8 2,4 3,1Empleo 4,1 2,6 0,2 -1,9 -4,3 -0,9 2,8 3,3 3

a) Dibuja la nube de puntos y estudia la relación entre ambas variables. Si existe correlación lineal, calcula el coeficiente de Pearson.

b) ¿Cuánto crecerá el empleo suponiendo que el PIB crecerá un 3,4% el próximo año

6.- Una empresa dedicada a la elaboración y venta de ropa de jóvenes ha realizado los gastos en publicidad y ha obtenido las ventas que figuran en la siguiente tabla:

Publicidad(en miles de euros) 45 48 51 60 63 72 78 84 90 108Ventas (en miles de euros) 1202 1232 1382 1442 1502 1622 1683 1803 1863 1953

Si denominamos X a la variable Gastos en publicidad e Y a Beneficios de ventas, halla:a) El coeficiente de correlación lineal. Analiza la dependencia entre ambas variables.b) La recta de regresión de X sobre Y.c) La empresa decide invertir el próximo año 150253 en publicidad. Si se mantiene la misma

tendencia de los años anteriores, ¿cuál es el volumen de ventas esperado?

7.- Se ha solicitado a un grupo de 50 individuos información sobre el número de horas que dedica diariamente a dormir y a ver la televisión. La clasificación de las respuestas ha permitido elaborar la siguiente tabla:

Nº de horas dormidas X 6 7 8 9 10Nº de horas televisión Y 4 3 3 2 1fi 3 16 20 10 1

a) ¿Existe algún tipo de correlación entre ambas variables? ¿En qué te basas para responder a la pregunta anterior?

b) Si una persona ve la televisión diariamente durante 5 horas, ¿cuánto tiempo cabe esperar que dedica a dormir? Valora la fiabilidad de tu estimación.

5

Page 6: DOCUMENTO 8: ESTADÍSTICA BIDIMENSIONAL … · Web viewson las de las variables, por lo que no se puede comparar la fuerza de relación entre variables muy diferentes (por ejemplo,

IES LILA Curso 10/11 1º BACH. MÁT. APLICADAS

8.- Los datos correspondientes al número de incendios forestales registrados en España (X) y el número de hectáreas afectadas (Y) durante 15 años se recogen en la siguiente tabla:

X(miles)Y (miles) [0,5) [5,10) [10,15) [15,20)

[0,100) 0 0 2 0[100,200) 1 4 1 1[200,300) 0 2 1 0[300,400) 0 0 0 1[400,500) 0 0 1 1

a) Haz la distribución marginal de ambas variables ¿Cuál de ellas presenta mayor dispersión?b) Dibuja la nube de puntos y, si existe correlación lineal halla el coeficiente de Pearson y la recta de

regresión lineal de Y sobre X.c) ¿Cuántas hectáreas cabe esperar que se quemen un año en el que se produzcan 12500 incendios?

Valora la predicción efectuada.

9.- Si la pendiente de una recta de regresión es negativa, entonces, necesariamente:a) la correlación es débil. c) La correlación es directa (positiva)b) La correlación es inversa (negativa d) La correlación es muy fuerte.

10.- ¿Qué tipo de correlación existe en cada caso? a) r = 1 b) r = 21 c) r = -0,1 d) r = 0,5

11.- Realiza un diagrama de dispersión aproximado para las distribuciones bidimensionales con correlación: a) r = 0,9 b) r = -0,8 c) r = 0,1 d) r = 1

12.- ¿En cuál de las distribuciones anteriores no es bueno el ajuste por una recta?

13.- Se observaron las edades de 5 niños/as y sus pesos respectivos, obteniéndose los siguientes resultados:

Edad, en años (X) 2 4,5 6 7,2 8Peso, en Kg. (Y) 15 19 25 33 34

a) Halla el coeficiente de correlación lineal y las rectas de regresión de Y sobre X y de X sobre Y.b) ¿Qué peso correspondería a un niño/a de 5 años? ¿Qué edad correspondería a un peso de 36 Kg?

14.- Una compañía discográfica ha recopilado la siguiente información sobre el número de conciertos dados, durante el verano, por 15 grupos musicales y las ventas de discos de estos grupos (expresados en miles de CDs):

Conciertos (y)CDs (x) [10, 30) [30, 50) [50,70)

[1, 5) 3 0 0[5,10) 1 4 1

[10, 20) 0 1 5

a) Representa el diagrama de dispersión e indica qué tipo de relación existe entre ambas variables.b) Haz las distribuciones marginales y calcula la media y desviación típica de X e Y.

15.- En una muestra de 64 familias se estudió el número de miembros en edad laboral, x, y el número de ellos que están en activo, y, .Los resultados son los de la siguiente tabla:

X Y 1 2 31 6 0 02 10 2 03 12 5 14 16 8 4

a) Representa el diagrama de dispersión e indica qué tipo de relación existe entre ambas variables.b) Haz las distribuciones marginales y calcula la media y desviación típica de X e Y.

6