6 regresion y correlación

33
Regresión lineal y correlación

Transcript of 6 regresion y correlación

Page 1: 6 regresion y correlación

Regresión lineal y correlación

Page 2: 6 regresion y correlación

Análisis de correlación

El análisis de correlación es un grupo de técnicas estadísticas usadas para medir la fuerza de la asociación entre dos variables.

Un diagrama de dispersión es una gráfica que representa la relación entre dos variables.

La variable dependiente es la variable que se predice o calcula.

La variable independiente proporciona las bases para el cálculo. Es la variable de predicción.

Page 3: 6 regresion y correlación

El coeficiente de correlación, r

El coeficiente de correlación (r) es una medida de la intensidad de la relación lineal entre dos variables.

Requiere datos de nivel de razón. Puede tomar cualquier valor de -1.00 a 1.00. Los valores de -1.00 o 1.00 indican la correlación

perfecta y fuerte. Los valores cerca de 0.0 indican la correlación débil. Los valores negativos indican una relación inversa y los

valores positivos indican una relación directa.

Page 4: 6 regresion y correlación

Correlación negativa perfecta

10 9 8 7 6 5 4 3 2 1 0

0 1 2 3 4 5 6 7 8 9 10 X

Y

Page 5: 6 regresion y correlación

Correlación positiva perfecta

10 9 8 7 6 5 4 3 2 1 0

0 1 2 3 4 5 6 7 8 9 10 X

Y

Page 6: 6 regresion y correlación

Correlación cero

10 9 8 7 6 5 4 3 2 1 0

0 1 2 3 4 5 6 7 8 9 10

Y

X

Page 7: 6 regresion y correlación

Correlación positiva fuerte

Y

X

10 9 8 7 6 5 4 3 2 1 0

0 1 2 3 4 5 6 7 8 9 10

Page 8: 6 regresion y correlación

Fórmula para r

Calculamos el coeficiente de correlación de las fórmulas siguientes.

2222 )()(

))(()(

)1())((

YYnXXn

YXXYn

ssnYYXXr

yx

Page 9: 6 regresion y correlación

Coeficiente de determinación

El coeficiente de determinación (r2) es la proporción de la variación total en la variable dependiente (y) que se explica por la variación en la variable independiente (x).

Es el cuadrado del coeficiente de correlación. Su rango es de 0 a 1. No da ninguna información sobre la dirección de la

relación entre las variables.

Page 10: 6 regresion y correlación

Ejemplo 1

Juan Escobedo, presidente de la sociedad de alumnos de la Universidad de Toledo, se ocupa de estudiar el costo de los libros de texto. Él cree que hay una relación entre el número de páginas en el texto y el precio de venta del libro. Para proporcionar una prueba, selecciona una muestra de ocho libros de texto actualmente en venta en la librería. Dibuje un diagrama de dispersión. Compruebe el coeficiente de correlación.

Page 11: 6 regresion y correlación

Libro Páginas Precio ($) Intr. a la Historia 500 84 Álgebra 700 75 Intr.a la Psicología 800 99 Intr. a la Sociología 600 72 Mercadotecnia 400 69 Intr. a la Biología 500 81 Fund. de Jazz 600 63 Intr.a la Enfermería 800 93

Ejemplo 1 (Continuación)

Page 12: 6 regresion y correlación

400 500 600 700 800

60

70

80

90

100

Page

Scatter Diagram of Number of Pages and Selling Price of Text

Price ($)

Ejemplo 1 (Continuación)

Page 13: 6 regresion y correlación

Libro Páginas Precio ($) X Y XY X2 Y2

Intr. a la Historia 500 84 42,000 250,000 7,056Álgebra 700 75 52,500 490,000 5,625Intr. a la Psicología 800 99 79,200 640,000 9,801Intr. a la Sociología 600 72 43,200 360,000 5,184Mercadotecnia 400 69 27,600 160,000 4,761Intr. a la Biología 500 81 40,500 250,000 6,561Fund. de Jazz 600 63 37,800 360,000 3,969Intr. a la Enfermería 800 93 74,400 640,000 8,649 Total 4,900 636 397,200 3,150,000 51,606

Ejemplo 1 (Continuación)

Page 14: 6 regresion y correlación

614.0

)636()606,51(8)900,4(000,150,3(8)636)(900,4()200,397(8

)()())(()(

22

2222

YYnXXn

YXXYnr

Ejemplo 1 (Continuación)

Page 15: 6 regresion y correlación

La correlación entre el número de páginas y el precio de venta del libro es 0.614. Esto indica una asociación moderada entre las variables. Pruebe la hipótesis de que no hay correlación en la población. Utilice un nivel de la significancia del .02.

Paso 1: H0: La correlación en la población es cero.

H1: La correlación en la población no es cero.

Paso 2: H0 es rechazada si t>3.143 o si t<-3.143.

Hay 6 grados de libertad, encontrados cerca. n – 2 = 8 – 2 = 6.

Ejemplo 1 (Continuación)

Page 16: 6 regresion y correlación

Paso 3: Para encontrar el valor del estadístico de prueba, utilizamos:

Paso 4: H0 no se rechaza. No podemos rechazar la hipótesis de que no hay correlación en la población. La cantidad de asociación puede ser debido al azar.

905.1)614(.1

28614.

1

222

r

nrt

Ejemplo 1 (Continuación)

Page 17: 6 regresion y correlación

Análisis de regresión

En análisis de regresión utilizamos la variable independiente (X) para estimar la variable dependiente (Y).

La relación entre las variables es lineal. Ambas variables deben ser por lo menos escala del

intervalo. El criterio de mínimos cuadrados se utiliza para

determinar la ecuación. Este es el término (Y – Y')2

Page 18: 6 regresion y correlación

Análisis de regresión

La ecuación de regresión es: Y' = a + bX, donde: Y' es el valor pronosticado de la variable Y para un valor

seleccionado de X. a es la ordenada de la intersección con el eje Y cuando

X = 0. Es el valor estimado de Y cuando X=0 b es la pendiente de la recta, o el cambio promedio en Y'

para cada cambio de una unidad en X. el principio de mínimos cuadrados se utiliza para

obtener a y b.

Page 19: 6 regresion y correlación

Análisis de regresión

El principio de mínimos cuadrados se utiliza para obtener a y b. Las ecuaciones para determinar a y b son:

bn XY X Yn X X

aYn

bXn

( ) ( )( )( ) ( )

2 2

Page 20: 6 regresion y correlación

Desarrolle una ecuación de regresión para la información dada en el Ejemplo 1 que se puede utilizar para estimar el precio de venta basado en el número de páginas.

05143.)900,4()000,150,3(8

)636)(900,4()200,397(82

b

0.488900,405143.0

8636

a

Ejemplo 2 (Continuación)

Page 21: 6 regresion y correlación

La ecuación de regresión es: Y' = 48.0 + .05143X La ecuación cruza al eje Y en $48. Un libro sin las

páginas costaría $48. La pendiente de la línea es .05143. El costo de cada

página adicional es de cinco céntimos. El signo del valor de b y el signo del valor de r serán

siempre iguales.

Ejemplo 2 (Continuación)

Page 22: 6 regresion y correlación

Podemos utilizar la ecuación de regresión para estimar valores de Y. El precio de venta estimado de un libro de 800 páginas

es $89.14, encontrado por

14.89)800(05143.00.4805143.00.48

XY

Ejemplo 2 (Continuación)

Page 23: 6 regresion y correlación

El error estándar de estimación

El error estándar de estimación mide la dispersión de los valores observados alrededor de la línea de regresión.

Las fórmulas que se utilizan para comprobar el error estándar son:

2

2)(

2

2

.

nXYbYaY

nYYs xy

Page 24: 6 regresion y correlación

Encuentre el error estándar de estimación para el problema que implica el número de páginas en un libro y el precio de venta.

408.1028

)200,397(05143.0)636(48606,51

2

2

.

n

XYbYaYs xy

Ejemplo 3

Page 25: 6 regresion y correlación

Suposiciones subyacentes en el análisis de regresión lineal Para cada valor de X, hay un grupo de valores de Y, y

estos valores de Y se distribuyen normalmente. Las medias de estas distribuciones normales de valores

Y, caen todas en la recta de regresión. Las desviaciones estándar de estas distribuciones

normales son iguales. Los valores de Y son estadísticamente

independendientes. Esto significa que en la selección de una muestra, los valores de Y elegidos para un valor particular de X no dependen de los valores de Y de ningún otro valor de X.

Page 26: 6 regresion y correlación

Intervalo de confianza

El intervalo de confianza para el valor medio de Y para un valor dado de X está dado por:

31.1514.898

)4900(000,150,3

)5.612800(81)408.10(447.214.89

)()(1

2

2

22

2

.

nXX

XXn

tsY xy

Page 27: 6 regresion y correlación

Intervalo de predicción

El intervalo de predicción para un valor individual de Y para un valor dado de X se da por:

72.2914.898

)4900(000,150,3

)5.612800(81

1)408.10(447.214.89

)()(11

2

2

22

2

.

nXX

XXn

tsY xy

Page 28: 6 regresion y correlación

Resumir los resultados: El precio de venta estimado para un libro con 800

páginas es $89.14. El error estándar de estimación es $10.41. El intervalo de confianza de 95% para todos los libros con

800 páginas es $89.14+-$15.31. Esto significa que los límites están entre $73.83 y $104.45.

El intervalo de predicción de 95% para un libro particular con 800 páginas es $89.14+-$29.72. Esto significa que los límites están entre $59.42 y $118.86.

Estos resultados aparecen en la siguiente salida de MINITAB.

Ejemplo 3 (Continuación)

Page 29: 6 regresion y correlación

Regression Analysis: Price versus Pages

The regression equation isPrice = 48.0 + 0.0514 Pages

Predictor Coef SE Coef T PConstant 48.00 16.94 2.83 0.030Pages 0.05143 0.02700 1.90 0.105

S = 10.41 R-Sq = 37.7% R-Sq(adj) = 27.3%

Analysis of Variance

Source DF SS MS F PRegression 1 393.4 393.4 3.63 0.105Residual Error 6 650.6 108.4Total 7 1044.0

Predicted Values for New Observations

New Obs Fit SE Fit 95.0% CI 95.0% PI1 89.14 6.26 ( 73.82, 104.46) ( 59.41, 118.88)

Ejemplo 3 (Continuación)

Page 30: 6 regresion y correlación

Cinco niños de 2, 3, 5, 7 y 8 años de edad pesan, respectivamente, 14, 20, 32, 42 y 44 kilos.

Hallar la ecuación de la recta de regresión de la edad sobre el peso.

¿Cuál sería el peso aproximado de un niño de seis años?

30

Page 31: 6 regresion y correlación

La tabla siguiente nos da las notas del test de aptitud (X) dadas a seis dependientes a prueba y ventas del primer mes de prueba (Y) en cientos de euros.

X 25 42 33 54 29 36

Y 42 72 50 90 45 48

Hallar el coeficiente de correlación e interpretar el resultado obtenido.

Calcular la recta de regresión de Y sobre X. Predecir las ventas de un vendedor que obtenga 47 en el test.

31

Page 32: 6 regresion y correlación

Un centro comercial sabe en función de la distancia, en kilómetros, a la que se sitúe de un núcleo de población, acuden los clientes, en cientos, que figuran en la tabla:

Nº de Clientes (X) 8 7 6 4 2 1 Distancia (Y) 15 19 25 23 34 40

Calcular el coeficiente de correlación lineal.

Si el centro comercial se sitúa a 2 km, ¿cuántos clientes puede esperar?

Si desea recibir a 5 clientes, ¿a qué distancia del núcleo de población debe situarse?

32

Page 33: 6 regresion y correlación

REFERENCIAS http://renanquispellanos.com/recursos/CURSOECONOMETRIA/CLASE%20N

%C2%BA1%20Y%20N%C2%BA2_ANALISIS%20DE%20REGRESION%20APLICADO.ppt

  http://es.slideshare.net/lexoruiz/regresin-lineal-y-correlacin

 http://www.jorgegalbiati.cl/nov_10/TRegresion.ppt.

http://es.slideshare.net/lexoruiz/regresin-lineal-y-correlacin

 http://www.jorgegalbiati.cl/nov_10/TRegresion.ppt.

http://es.slideshare.net/lexoruiz/regresin-lineal-y-correlacin

 http://www.jorgegalbiati.cl/nov_10/TRegresion.ppt.

http://www.vitutor.com/estadistica/bi/ejercicios_regresion.html33