Correlación y Regresion Lineal
-
Upload
brayankenneth -
Category
Documents
-
view
254 -
download
6
description
Transcript of Correlación y Regresion Lineal
1
Regresión lineal y correlación Objetivos: Al terminar este capítulo podrá:
1. Trazar un diagrama de dispersión.
2. Entender e interpretar los términos variable dependiente y variable independiente.
3. Calcular y explicar el coeficiente de correlación, y el coeficiente de determinación, así como el error estándar de estimación.
4. Realizar una prueba de hipótesis para establecer si el coeficiente de correlación de la población es cero.
2
5. Determinar la línea (o recta) de regresión de mínimos cuadrados.
6. Elaborar e interpretar intervalos de confianza e intervalos de predicción para la variable dependiente.
7. Establecer e interpretar una tabla de ANOVA.
Capítulo 13 (Continuación)
Introducción El vicepresidente de una gran
compañía opina que las ganancias anuales de la empresa dependen de la cantidad gastada en investigación y desarrollo. El presidente de la compañía no está de acuerdo y ha solicitado pruebas.
Introducción ¿Qué herramienta puede presentar el
vicepresidente que sustenten su teoría? ¿Qué variables tendrá que medir? ¿Qué ecuación ayudará a predecir las
ganancias anuales en función de la cantidad presupuestada en I y D ?
¿Será esta ecuación lineal o no lineal? ¿Qué precisión se puede esperar al usar
esta herramienta de toma de decisiones?
Año
Gasto en I y D (ciento de
miles )
Ganancia anual
(millones)
1999 2 20
2000 4 25
2001 5 34
2002 4 30
2003 6 33
2004 5 34
2005 5 36
2006 7 35
2007 8 40
2008 7 37
2009 8 41
A continuación se presentan datos de 11 añosA continuación se presentan datos de 11 años
¿Una línea recta podría ser lo más adecuado para relacionar
estas variables?
0
10
20
30
40
50
0 2 4 6 8 10
6
Análisis de correlación
El análisis de correlación es un grupo de técnicas estadísticas usadas para medir la fuerza de la asociación entre dos variables.
Un diagrama de dispersión es una gráfica que representa la relación entre dos variables.
La variable dependiente es la variable que se predice o calcula.
La variable independiente proporciona las bases para el cálculo. Es la variable de predicción.
Diagrama de dispersión
Gráfica que presenta la relación entre dos variables de interés
28.527.025.524.0
350
325
300
275
250
12.010.59.07.56.0
150
140
130
120
110
100
90
80
Y1*X1 Y*X
Scatterplot of Y1 vs X1, Y vs X
8
El coeficiente de correlación, r
El coeficiente de correlación (r) es una medida de la intensidad de la relación lineal entre dos variables.
Requiere datos de nivel de razón. Puede tomar cualquier valor de -1.00 a 1.00. Los valores de -1.00 o 1.00 indican la correlación
perfecta y fuerte. Los valores cerca de 0.0 indican la correlación débil. Los valores negativos indican una relación inversa y los
valores positivos indican una relación directa.
9
Correlación negativa perfecta
10 9 8 7 6 5 4 3 2 1 0
0 1 2 3 4 5 6 7 8 9 10 X
Y
10
Correlación positiva perfecta
10 9 8 7 6 5 4 3 2 1 0
0 1 2 3 4 5 6 7 8 9 10 X
Y
11
Correlación cero
10 9 8 7 6 5 4 3 2 1 0
0 1 2 3 4 5 6 7 8 9 10
Y
X
12
Correlación positiva fuerte
Y
X
10 9 8 7 6 5 4 3 2 1 0
0 1 2 3 4 5 6 7 8 9 10
14
Fórmula para r
Calculamos el coeficiente de correlación de las fórmulas siguientes.
yxssnYYXX
r)1(
))((
2222 )()(
))(()(
YYnXXn
YXXYnr
15
Año Gasto en I y D Ganancia anual
x y
1999 2 20
2000 4 25
2001 5 34
2002 4 30
2003 6 33
2004 5 34
2005 5 36
2006 7 35
2007 8 40
2008 7 37
2009 8 41
61 365
x*y
40
100
170
120
198
170
180
245
320
259
328
2130
x^2
4
16
25
16
36
25
25
49
64
49
64
373
y^2
400
625
1156
900
1089
1156
1296
1225
1600
1369
1681
12497
2222 )()(
))(()(
YYnXXn
YXXYnr
r=0.915185039
16
Coeficiente de determinación
El coeficiente de determinación (r2) es la proporción de la variación total en la variable dependiente (y) que se explica por la variación en la variable independiente (x).
Es el cuadrado del coeficiente de correlación. Su rango es de 0 a 1. No da ninguna información sobre la dirección de la
relación entre las variables.
Qué es el análisis de correlación
lineal ?
Es una herramienta estadística que podemos usar para describir el grado de relación lineal entre las variables.
ANÁLISIS DE CORRELACIÓN
aciónerdeCoefr mindet.
915.0838.0 r
Tiene el mismo signo que b1
Existe un una fuerte correlación lineal directa entre gasto y ganancia.
Interpretación:
1. El valor absoluto de r indica la fuerza de la relación entre Y y X.
2. El signo da la dirección de la relación (directa o inversamente proporcional)
r = 1 correlación positiva perfecta.r = -1 correlación negativa perfecta. r = 0 no hay relación lineal entre Y y X.
20
21
Ejemplo 2
Juan Escobedo, presidente de la sociedad de alumnos de una Universidad, se ocupa de estudiar el costo de los libros de texto. Él cree que hay una relación entre el número de páginas en el texto y el precio de venta del libro. Para proporcionar una prueba, selecciona una muestra de ocho libros de texto actualmente en venta en la librería. Dibuje un diagrama de dispersión. Compruebe el coeficiente de correlación.
22
Libro Páginas Precio ($) Intr. a la Historia 500 84 Álgebra 700 75 Intr.a la Psicología 800 99 Intr. a la Sociología 600 72 Mercadotecnia 400 69 Intr. a la Biología 500 81 Fund. de Jazz 600 63 Intr.a la Enfermería 800 93
Ejemplo 1 (Continuación)
23
400 500 600 700 800
60
70
80
90
100
Page
Scatter Diagram of Number of Pages and Selling Price of Text
Price ($)
Ejemplo 1 (Continuación)
24
Libro Páginas Precio ($)
X Y XY X2 Y2
Intr. a la Historia 500 84 42,000
Álgebra 700 75 52,500
Intr. a la Psicología 800 99 79,200
Intr. a la Sociología 600 72 43,200
Mercadotecnia 400 69 27,600
Intr. a la Biología 500 81 40,500
Fund. de Jazz 600 63 37,800
Intr. a la Enfermería 800 93 74,400 Total 4,900 636 397,200
25
Libro Páginas Precio ($)
X Y XY X2 Y2
Intr. a la Historia 500 84 42,000 250,000 7,056
Álgebra 700 75 52,500 490,000 5,625
Intr. a la Psicología 800 99 79,200 640,000 9,801
Intr. a la Sociología 600 72 43,200 360,000 5,184
Mercadotecnia 400 69 27,600 160,000 4,761
Intr. a la Biología 500 81 40,500 250,000 6,561
Fund. de Jazz 600 63 37,800 360,000 3,969
Intr. a la Enfermería 800 93 74,400 640,000 8,649 Total 4,900 636 397,200 3,150,000 51,606
Ejemplo 1 (Continuación)
26
2222 )()(
))(()(
YYnXXn
YXXYnr
Ejemplo 1 (Continuación)
22 )636()606,51(8)900,4(000,150,3(8
)636)(900,4()200,397(8
614.0
27
La correlación entre el número de páginas y el precio de venta del libro es 0.614. Esto indica una asociación moderada entre las variables. Pruebe la hipótesis de que no hay correlación en la población. Utilice un nivel de la significancia del .02.
Paso 1: H0: La correlación en la población es cero.
H1: La correlación en la población no es cero.
Paso 2: H0 es rechazada si t>3.143 o si t<-3.143.
Hay 6 grados de libertad, encontrados cerca.
n – 2 = 8 – 2 = 6.
Ejemplo 1 (Continuación)
28
Paso 3: Para encontrar el valor del estadístico de prueba, utilizamos:
Paso 4: H0 no se rechaza. No podemos rechazar la hipótesis de que no hay correlación en la población. La cantidad de asociación puede ser debido al azar.
905.1)614(.1
28614.
1
222
r
nrt
Ejemplo 1 (Continuación)
82.6838.01
211915.0
calt
Con un nivel de significancia del 5% se puede afirmar que el gasto en I y D está correlacionado con la ganancia.
Se Rechaza Ho
EJERCICIOS
Utilice un diagrama de dispersión y el coeficiente de correlación lineal r para determinar si existe una correlación (de que tipo) entre las dos variables:
30
X 1 0 5 2 3
Y 3 1 15 6 8
X 0 3 3 1 4
y 1 7 2 5 5
31
Análisis de regresión
En análisis de regresión utilizamos la variable independiente (X) para estimar la variable dependiente (Y).
La relación entre las variables es lineal. Ambas variables deben ser por lo menos escala del
intervalo. El criterio de mínimos cuadrados se utiliza para
determinar la ecuación. Este es el término (Y – Y')2
32
Análisis de regresión
La ecuación de regresión es: Y' = a + bX, donde: Y' es el valor pronosticado de la variable Y para un valor
seleccionado de X. a es la ordenada de la intersección con el eje Y cuando
X = 0. Es el valor estimado de Y cuando X=0 b es la pendiente de la recta, o el cambio promedio en Y'
para cada cambio de una unidad en X. el principio de mínimos cuadrados se utiliza para
obtener a y b.
33
Análisis de regresión
El principio de mínimos cuadrados se utiliza para obtener a y b. Las ecuaciones para determinar a y b son:
bn XY X Y
n X X
aY
nbX
n
( ) ( )( )
( ) ( )
2 2
34
Desarrolle una ecuación de regresión para la información dada en el Ejemplo 2 que se puede utilizar para estimar el precio de venta basado en el número de páginas.
05143.)900,4()000,150,3(8
)636)(900,4()200,397(82
b
0.488
900,405143.0
8
636a
Ejemplo 2 (Continuación)
35
La ecuación de regresión es:
Y' = 48.0 + .05143X La ecuación cruza al eje Y en $48. Un libro sin las
páginas costaría $48. La pendiente de la línea es .05143. El costo de cada
página adicional es de cinco céntimos. El signo del valor de b y el signo del valor de r serán
siempre iguales.
Ejemplo 2 (Continuación)
36
Podemos utilizar la ecuación de regresión para
estimar valores de Y. El precio de venta estimado de un libro de 800 páginas
es $89.14, encontrado por
14.89)800(05143.00.48
05143.00.48
XY
Ejemplo 2 (Continuación)
37
El error estándar de estimación
El error estándar de estimación mide la dispersión de los valores observados alrededor de la línea de regresión.
Las fórmulas que se utilizan para comprobar el error estándar son:
2
2
)(
2
2
.
n
XYbYaY
n
YYs xy
38
Encuentre el error estándar de estimación para el
problema que implica el número de páginas en un libro
y el precio de venta.
408.1028
)200,397(05143.0)636(48606,51
2
2
.
n
XYbYaYs xy
Ejemplo 3
39
Suposiciones subyacentes en el análisis de regresión lineal Para cada valor de X, hay un grupo de valores de Y, y
estos valores de Y se distribuyen normalmente. Las medias de estas distribuciones normales de valores
Y, caen todas en la recta de regresión. Las desviaciones estándar de estas distribuciones
normales son iguales. Los valores de Y son estadísticamente
independendientes. Esto significa que en la selección de una muestra, los valores de Y elegidos para un valor particular de X no dependen de los valores de Y de ningún otro valor de X.
40
Intervalo de confianza
El intervalo de confianza para el valor medio de Y para un valor dado de X está dado por:
31.1514.898
)4900(000,150,3
)5.612800(
8
1)408.10(447.214.89
)(
)(1
2
2
22
2
.
n
XX
XX
ntsY xy
41
Intervalo de predicción
El intervalo de predicción para un valor individual de Y para un valor dado de X se da por:
72.2914.898
)4900(000,150,3
)5.612800(
8
11)408.10(447.214.89
)(
)(11
2
2
22
2
.
n
XX
XX
ntsY xy
42
Resumir los resultados: El precio de venta estimado para un libro con 800
páginas es $89.14. El error estándar de estimación es $10.41. El intervalo de confianza de 95% para todos los libros con
800 páginas es $89.14+-$15.31. Esto significa que los límites están entre $73.83 y $104.45.
El intervalo de predicción de 95% para un libro particular con 800 páginas es $89.14+-$29.72. Esto significa que los límites están entre $59.42 y $118.86.
Ejemplo 3 (Continuación)
EJERCICIOS: A continuación se presentan los pesos en
libras y las cantidades de combustible consumidas en carretera (mi/gal) de automóviles elegidos al azar. Calcule el coeficiente de determinación, la ecuación de la recta y el error.
43
PESO 3175 3450 3225 3985 2440 2500 2290
CONSUMO 27 29 277 24 37 34 37
En la siguiente tabla se muestran los presupuestos (millones de dólares) y los ingresos brutos (millones de dólares) de películas seleccionadas al azar:
Calcule el coeficiente de determinación, la ecuación de la recta predictora y el error.
44
PRESUPUESTO
62 90 50 35 200 100 90
INGRESO BRUTO
65 64 48 57 60 146 47