Correlación y Regresion Lineal

44
1 Regresión lineal y correlación Objetivos: Al terminar este capítulo podrá: 1. Trazar un diagrama de dispersión. 2. Entender e interpretar los términos variable dependiente y variable independiente. 3. Calcular y explicar el coeficiente de correlación, y el coeficiente de determinación, así como el error estándar de estimación. 4. Realizar una prueba de hipótesis para establecer si el coeficiente de correlación de la población es cero.

description

Correlación y regresión lineal, Estadística II, Ucci La estadística es muy importante para todas las carreras. la correlacion nos servira mucho asi como saber la regresión lineal, binomial, de poisson, etc

Transcript of Correlación y Regresion Lineal

Page 1: Correlación y Regresion Lineal

1

Regresión lineal y correlación Objetivos: Al terminar este capítulo podrá:

1. Trazar un diagrama de dispersión.

2. Entender e interpretar los términos variable dependiente y variable independiente.

3. Calcular y explicar el coeficiente de correlación, y el coeficiente de determinación, así como el error estándar de estimación.

4. Realizar una prueba de hipótesis para establecer si el coeficiente de correlación de la población es cero.

Page 2: Correlación y Regresion Lineal

2

5. Determinar la línea (o recta) de regresión de mínimos cuadrados.

6. Elaborar e interpretar intervalos de confianza e intervalos de predicción para la variable dependiente.

7. Establecer e interpretar una tabla de ANOVA.

Capítulo 13 (Continuación)

Page 3: Correlación y Regresion Lineal

Introducción El vicepresidente de una gran

compañía opina que las ganancias anuales de la empresa dependen de la cantidad gastada en investigación y desarrollo. El presidente de la compañía no está de acuerdo y ha solicitado pruebas.

Page 4: Correlación y Regresion Lineal

Introducción ¿Qué herramienta puede presentar el

vicepresidente que sustenten su teoría? ¿Qué variables tendrá que medir? ¿Qué ecuación ayudará a predecir las

ganancias anuales en función de la cantidad presupuestada en I y D ?

¿Será esta ecuación lineal o no lineal? ¿Qué precisión se puede esperar al usar

esta herramienta de toma de decisiones?

Page 5: Correlación y Regresion Lineal

Año

Gasto en I y D (ciento de

miles )

Ganancia anual

(millones)

1999 2 20

2000 4 25

2001 5 34

2002 4 30

2003 6 33

2004 5 34

2005 5 36

2006 7 35

2007 8 40

2008 7 37

2009 8 41

A continuación se presentan datos de 11 añosA continuación se presentan datos de 11 años

¿Una línea recta podría ser lo más adecuado para relacionar

estas variables?

0

10

20

30

40

50

0 2 4 6 8 10

Page 6: Correlación y Regresion Lineal

6

Análisis de correlación

El análisis de correlación es un grupo de técnicas estadísticas usadas para medir la fuerza de la asociación entre dos variables.

Un diagrama de dispersión es una gráfica que representa la relación entre dos variables.

La variable dependiente es la variable que se predice o calcula.

La variable independiente proporciona las bases para el cálculo. Es la variable de predicción.

Page 7: Correlación y Regresion Lineal

Diagrama de dispersión

Gráfica que presenta la relación entre dos variables de interés

28.527.025.524.0

350

325

300

275

250

12.010.59.07.56.0

150

140

130

120

110

100

90

80

Y1*X1 Y*X

Scatterplot of Y1 vs X1, Y vs X

Page 8: Correlación y Regresion Lineal

8

El coeficiente de correlación, r

El coeficiente de correlación (r) es una medida de la intensidad de la relación lineal entre dos variables.

Requiere datos de nivel de razón. Puede tomar cualquier valor de -1.00 a 1.00. Los valores de -1.00 o 1.00 indican la correlación

perfecta y fuerte. Los valores cerca de 0.0 indican la correlación débil. Los valores negativos indican una relación inversa y los

valores positivos indican una relación directa.

Page 9: Correlación y Regresion Lineal

9

Correlación negativa perfecta

10 9 8 7 6 5 4 3 2 1 0

0 1 2 3 4 5 6 7 8 9 10 X

Y

Page 10: Correlación y Regresion Lineal

10

Correlación positiva perfecta

10 9 8 7 6 5 4 3 2 1 0

0 1 2 3 4 5 6 7 8 9 10 X

Y

Page 11: Correlación y Regresion Lineal

11

Correlación cero

10 9 8 7 6 5 4 3 2 1 0

0 1 2 3 4 5 6 7 8 9 10

Y

X

Page 12: Correlación y Regresion Lineal

12

Correlación positiva fuerte

Y

X

10 9 8 7 6 5 4 3 2 1 0

0 1 2 3 4 5 6 7 8 9 10

Page 13: Correlación y Regresion Lineal
Page 14: Correlación y Regresion Lineal

14

Fórmula para r

Calculamos el coeficiente de correlación de las fórmulas siguientes.

yxssnYYXX

r)1(

))((

2222 )()(

))(()(

YYnXXn

YXXYnr

Page 15: Correlación y Regresion Lineal

15

Año Gasto en I y D Ganancia anual

x y

1999 2 20

2000 4 25

2001 5 34

2002 4 30

2003 6 33

2004 5 34

2005 5 36

2006 7 35

2007 8 40

2008 7 37

2009 8 41

61 365

x*y

40

100

170

120

198

170

180

245

320

259

328

2130

x^2

4

16

25

16

36

25

25

49

64

49

64

373

y^2

400

625

1156

900

1089

1156

1296

1225

1600

1369

1681

12497

2222 )()(

))(()(

YYnXXn

YXXYnr

r=0.915185039

Page 16: Correlación y Regresion Lineal

16

Coeficiente de determinación

El coeficiente de determinación (r2) es la proporción de la variación total en la variable dependiente (y) que se explica por la variación en la variable independiente (x).

Es el cuadrado del coeficiente de correlación. Su rango es de 0 a 1. No da ninguna información sobre la dirección de la

relación entre las variables.

Page 17: Correlación y Regresion Lineal

Qué es el análisis de correlación

lineal ?

Es una herramienta estadística que podemos usar para describir el grado de relación lineal entre las variables.

ANÁLISIS DE CORRELACIÓN

aciónerdeCoefr mindet.

915.0838.0 r

Tiene el mismo signo que b1

Existe un una fuerte correlación lineal directa entre gasto y ganancia.

Page 18: Correlación y Regresion Lineal
Page 19: Correlación y Regresion Lineal

Interpretación:

1. El valor absoluto de r indica la fuerza de la relación entre Y y X.

2. El signo da la dirección de la relación (directa o inversamente proporcional)

r = 1 correlación positiva perfecta.r = -1 correlación negativa perfecta. r = 0 no hay relación lineal entre Y y X.

Page 20: Correlación y Regresion Lineal

20

Page 21: Correlación y Regresion Lineal

21

Ejemplo 2

Juan Escobedo, presidente de la sociedad de alumnos de una Universidad, se ocupa de estudiar el costo de los libros de texto. Él cree que hay una relación entre el número de páginas en el texto y el precio de venta del libro. Para proporcionar una prueba, selecciona una muestra de ocho libros de texto actualmente en venta en la librería. Dibuje un diagrama de dispersión. Compruebe el coeficiente de correlación.

Page 22: Correlación y Regresion Lineal

22

Libro Páginas Precio ($) Intr. a la Historia 500 84 Álgebra 700 75 Intr.a la Psicología 800 99 Intr. a la Sociología 600 72 Mercadotecnia 400 69 Intr. a la Biología 500 81 Fund. de Jazz 600 63 Intr.a la Enfermería 800 93

Ejemplo 1 (Continuación)

Page 23: Correlación y Regresion Lineal

23

400 500 600 700 800

60

70

80

90

100

Page

Scatter Diagram of Number of Pages and Selling Price of Text

Price ($)

Ejemplo 1 (Continuación)

Page 24: Correlación y Regresion Lineal

24

Libro Páginas Precio ($)

X Y XY X2 Y2

Intr. a la Historia 500 84 42,000

Álgebra 700 75 52,500

Intr. a la Psicología 800 99 79,200

Intr. a la Sociología 600 72 43,200

Mercadotecnia 400 69 27,600

Intr. a la Biología 500 81 40,500

Fund. de Jazz 600 63 37,800

Intr. a la Enfermería 800 93 74,400 Total 4,900 636 397,200

Page 25: Correlación y Regresion Lineal

25

Libro Páginas Precio ($)

X Y XY X2 Y2

Intr. a la Historia 500 84 42,000 250,000 7,056

Álgebra 700 75 52,500 490,000 5,625

Intr. a la Psicología 800 99 79,200 640,000 9,801

Intr. a la Sociología 600 72 43,200 360,000 5,184

Mercadotecnia 400 69 27,600 160,000 4,761

Intr. a la Biología 500 81 40,500 250,000 6,561

Fund. de Jazz 600 63 37,800 360,000 3,969

Intr. a la Enfermería 800 93 74,400 640,000 8,649 Total 4,900 636 397,200 3,150,000 51,606

Ejemplo 1 (Continuación)

Page 26: Correlación y Regresion Lineal

26

2222 )()(

))(()(

YYnXXn

YXXYnr

Ejemplo 1 (Continuación)

22 )636()606,51(8)900,4(000,150,3(8

)636)(900,4()200,397(8

614.0

Page 27: Correlación y Regresion Lineal

27

La correlación entre el número de páginas y el precio de venta del libro es 0.614. Esto indica una asociación moderada entre las variables. Pruebe la hipótesis de que no hay correlación en la población. Utilice un nivel de la significancia del .02.

Paso 1: H0: La correlación en la población es cero.

H1: La correlación en la población no es cero.

Paso 2: H0 es rechazada si t>3.143 o si t<-3.143.

Hay 6 grados de libertad, encontrados cerca.

n – 2 = 8 – 2 = 6.

Ejemplo 1 (Continuación)

Page 28: Correlación y Regresion Lineal

28

Paso 3: Para encontrar el valor del estadístico de prueba, utilizamos:

Paso 4: H0 no se rechaza. No podemos rechazar la hipótesis de que no hay correlación en la población. La cantidad de asociación puede ser debido al azar.

905.1)614(.1

28614.

1

222

r

nrt

Ejemplo 1 (Continuación)

Page 29: Correlación y Regresion Lineal

82.6838.01

211915.0

calt

Con un nivel de significancia del 5% se puede afirmar que el gasto en I y D está correlacionado con la ganancia.

Se Rechaza Ho

Page 30: Correlación y Regresion Lineal

EJERCICIOS

Utilice un diagrama de dispersión y el coeficiente de correlación lineal r para determinar si existe una correlación (de que tipo) entre las dos variables:

30

X 1 0 5 2 3

Y 3 1 15 6 8

X 0 3 3 1 4

y 1 7 2 5 5

Page 31: Correlación y Regresion Lineal

31

Análisis de regresión

En análisis de regresión utilizamos la variable independiente (X) para estimar la variable dependiente (Y).

La relación entre las variables es lineal. Ambas variables deben ser por lo menos escala del

intervalo. El criterio de mínimos cuadrados se utiliza para

determinar la ecuación. Este es el término (Y – Y')2

Page 32: Correlación y Regresion Lineal

32

Análisis de regresión

La ecuación de regresión es: Y' = a + bX, donde: Y' es el valor pronosticado de la variable Y para un valor

seleccionado de X. a es la ordenada de la intersección con el eje Y cuando

X = 0. Es el valor estimado de Y cuando X=0 b es la pendiente de la recta, o el cambio promedio en Y'

para cada cambio de una unidad en X. el principio de mínimos cuadrados se utiliza para

obtener a y b.

Page 33: Correlación y Regresion Lineal

33

Análisis de regresión

El principio de mínimos cuadrados se utiliza para obtener a y b. Las ecuaciones para determinar a y b son:

bn XY X Y

n X X

aY

nbX

n

( ) ( )( )

( ) ( )

2 2

Page 34: Correlación y Regresion Lineal

34

Desarrolle una ecuación de regresión para la información dada en el Ejemplo 2 que se puede utilizar para estimar el precio de venta basado en el número de páginas.

05143.)900,4()000,150,3(8

)636)(900,4()200,397(82

b

0.488

900,405143.0

8

636a

Ejemplo 2 (Continuación)

Page 35: Correlación y Regresion Lineal

35

La ecuación de regresión es:

Y' = 48.0 + .05143X La ecuación cruza al eje Y en $48. Un libro sin las

páginas costaría $48. La pendiente de la línea es .05143. El costo de cada

página adicional es de cinco céntimos. El signo del valor de b y el signo del valor de r serán

siempre iguales.

Ejemplo 2 (Continuación)

Page 36: Correlación y Regresion Lineal

36

Podemos utilizar la ecuación de regresión para

estimar valores de Y. El precio de venta estimado de un libro de 800 páginas

es $89.14, encontrado por

14.89)800(05143.00.48

05143.00.48

XY

Ejemplo 2 (Continuación)

Page 37: Correlación y Regresion Lineal

37

El error estándar de estimación

El error estándar de estimación mide la dispersión de los valores observados alrededor de la línea de regresión.

Las fórmulas que se utilizan para comprobar el error estándar son:

2

2

)(

2

2

.

n

XYbYaY

n

YYs xy

Page 38: Correlación y Regresion Lineal

38

Encuentre el error estándar de estimación para el

problema que implica el número de páginas en un libro

y el precio de venta.

408.1028

)200,397(05143.0)636(48606,51

2

2

.

n

XYbYaYs xy

Ejemplo 3

Page 39: Correlación y Regresion Lineal

39

Suposiciones subyacentes en el análisis de regresión lineal Para cada valor de X, hay un grupo de valores de Y, y

estos valores de Y se distribuyen normalmente. Las medias de estas distribuciones normales de valores

Y, caen todas en la recta de regresión. Las desviaciones estándar de estas distribuciones

normales son iguales. Los valores de Y son estadísticamente

independendientes. Esto significa que en la selección de una muestra, los valores de Y elegidos para un valor particular de X no dependen de los valores de Y de ningún otro valor de X.

Page 40: Correlación y Regresion Lineal

40

Intervalo de confianza

El intervalo de confianza para el valor medio de Y para un valor dado de X está dado por:

31.1514.898

)4900(000,150,3

)5.612800(

8

1)408.10(447.214.89

)(

)(1

2

2

22

2

.

n

XX

XX

ntsY xy

Page 41: Correlación y Regresion Lineal

41

Intervalo de predicción

El intervalo de predicción para un valor individual de Y para un valor dado de X se da por:

72.2914.898

)4900(000,150,3

)5.612800(

8

11)408.10(447.214.89

)(

)(11

2

2

22

2

.

n

XX

XX

ntsY xy

Page 42: Correlación y Regresion Lineal

42

Resumir los resultados: El precio de venta estimado para un libro con 800

páginas es $89.14. El error estándar de estimación es $10.41. El intervalo de confianza de 95% para todos los libros con

800 páginas es $89.14+-$15.31. Esto significa que los límites están entre $73.83 y $104.45.

El intervalo de predicción de 95% para un libro particular con 800 páginas es $89.14+-$29.72. Esto significa que los límites están entre $59.42 y $118.86.

Ejemplo 3 (Continuación)

Page 43: Correlación y Regresion Lineal

EJERCICIOS: A continuación se presentan los pesos en

libras y las cantidades de combustible consumidas en carretera (mi/gal) de automóviles elegidos al azar. Calcule el coeficiente de determinación, la ecuación de la recta y el error.

43

PESO 3175 3450 3225 3985 2440 2500 2290

CONSUMO 27 29 277 24 37 34 37

Page 44: Correlación y Regresion Lineal

En la siguiente tabla se muestran los presupuestos (millones de dólares) y los ingresos brutos (millones de dólares) de películas seleccionadas al azar:

Calcule el coeficiente de determinación, la ecuación de la recta predictora y el error.

44

PRESUPUESTO

62 90 50 35 200 100 90

INGRESO BRUTO

65 64 48 57 60 146 47