7. Correlaciones y regresiones.pdf

13
UNIVERSIDAD NACIONAL DEL ALTIPLANO PUNO FACULTAD DE INGENIERIA GEOLOGICA Y METALURGICA ESCUELA PROFESIONAL DE INGENIERIA GEOLOGICA CURSO DE GEOESTADISTICA I TEMA 6: CORRELACIONES Y REGRESIONES Por: Ing. MSc. Roger Gonzales Aliaga Puno, Marzo del 2012

Transcript of 7. Correlaciones y regresiones.pdf

Page 1: 7. Correlaciones y regresiones.pdf

UNIVERSIDAD NACIONAL DEL ALTIPLANO PUNOFACULTAD DE INGENIERIA GEOLOGICA Y METALURGICA

ESCUELA PROFESIONAL DE INGENIERIA GEOLOGICA

CURSO DE GEOESTADISTICA I

TEMA 6: CORRELACIONES Y REGRESIONES

Por: Ing. MSc. Roger Gonzales Aliaga Puno, Marzo del 2012

Page 2: 7. Correlaciones y regresiones.pdf

ESTRUCTURA GENERAL DEL CURSO DE GEOESTADISTICA

1. Nociones basicas.2. Diagrama de esparcimiento. 3. Nomenclatura estadística.4. Variables y distribución de frecuencias (estadígrafos).5. Medidas de tendencia central y no central.6. Medidas de dispersión.7. Regresiones y correlaciones (análisis bivariable)8. Probabilidades, nivel de confianza, estimaciones, prueba de

hipótesis. 9. Determinación de la ley media y ponderada en yacimientos.10. Calculo de reserva a través de métodos geoestadísticos (polígonos,

triángulos, bloques y perfiles e inverso del cuadrado de la distancia.

Page 3: 7. Correlaciones y regresiones.pdf

1. NOCIONES BASICAS

Cuando se trabajan con datos univariados que es lo que se hizo hasta el momento, solose hace una observación de cada unidad elemental, pero se presentan casos en loscuales es necesario trabajar con dos datos (datos bivaribles) es decir se debe trabajarcon dos observaciones hechas a cada unidad elemental, estos datos bivariados serepresentan con (X,Y).

Para representar estos datos se utilizan una tabla de doble entrada conocida comotabla de contingencia, la cual representa filas y columnas y en sus casilleros o celdas sepresentan la información.

En los trabajos de investigación frecuentemente es común encontrar variables queestán relacionadas o asociadas entre si de alguna manera, por ejemplo el gasto familiardependen del ingreso o en el caso del Au que normalmente se relaciona con el As, o enel caso de la Ag que normalmente se asocia con Mn en ciertos tipos de yacimientos,claro esta tratándose de variables cuantitativas.

Page 4: 7. Correlaciones y regresiones.pdf

1. NOCIONES BASICAS

Las variables cuantitativas antes mencionadas que tienen cierta asociación pueden serrelacionadas matemáticamente en función de otra variable. Por ejemplo el peso de laspersonas depende generalmente de la estatura, el ahorro familiar depende del ingresomensual o, la ocurrencia de Au en vetas de origen hidrotermal ubicado en el batolito dela costa que generalmente se asocian con valores también altos de As y/o Sb.

Los ejemplos anteriores consideran variables cuya relación o dependencia sonindiscutibles o por lo menos claras; sin embargo, pueden elegirse dos variables cuyarelación sea dudosa o simplemente absurda, por ejemplo existiría una relación entre lasoltería y el dolor de estomago, la respuesta será no. Entonces interesa analizar larelación entre variables que tengan indicios de dependencia o asociación.

Aquí trataremos de predecir o explicar el comportamiento o resultado de una variable(VD) en función de otras variables (VI), así como investigar si entre ellas están asociadaso correlacionadas entre si.

Entonces mediremos la relación o afinidad entre dos variables X e Y para nobservaciones. No se pretenderá definir relaciones de causa o efecto, aun cuandopueden obtener algunos resultados para su análisis.

Page 5: 7. Correlaciones y regresiones.pdf

2. DIAGRAMA DE ESPARCIMIENTO

Dadas las n observaciones bidimensionales, cada par de valores (X,Y) en el planocartesiano o rectangular esta representado por un punto, y habrá tantos puntos comoparejas de observaciones. Esta representación da origen a una nube de que se llamadiagrama de esparcimiento, este diagrama pude tomar diferentes formas.

La construcción del diagrama de espaciamiento constituye el primer paso par ainvestigar la relación existente entre dos variables, la posición y la forma de esta nubeproporcionan una idea del tipo de relación existente entre ambas variables de estemodo se facilita la elección de la correspondiente función matemática.

La forma y posición del diagrama de esparcimiento también indica si existe una relaciónpositiva o directa, o si la relación es inversa o negativa. Una relación positiva es cuandoel incremento en el valor de una variable significa incremento en el valor de la otra; y sies negativa o inversa cuando el incremento de una variable genera una disminución deotra variable.

Page 6: 7. Correlaciones y regresiones.pdf

2. DIAGRAMA DE ESPARCIMIENTO

Page 7: 7. Correlaciones y regresiones.pdf

4. REGRESION Y CORRELACION

Una vez visualizada la forma del diagrama de esparcimiento interesa analizar yexpresara matemáticamente la relación entre las variables. Pa expresar la relación entredos o mas variables se elige una función matemática que mejor represente o ajuste aldiagrama de esparcimiento.

El método estadístico que investiga y define la relación funcional entre dos o masvariables se llama regresión y la ecuación de la función matemática constituye lafunción de regresión o modelo de regresión.

El análisis del grado de asociación o modelo de regresión, constituye la correlación; esimportante destacar que para que exista correlación son necesarias dos variables, dosmedidas que vayan cambiando sus valores.

Page 8: 7. Correlaciones y regresiones.pdf

5. VARIABLE DEPENDIENTE E INDEPENDIENTE

Determinada la función de regresión es posible estimar el comportamiento de lavariable objeto de estudio que se denominara variable dependiente o predictando, enfunción a las variaciones de otra que llamaremos variable independiente o predictor.

Cuando se relacionan dos variables, hablaremos de regresión simple y correlaciónsimple, en tanto cuando se consideran la relación entre mas variables se hablara deregresión y correlación múltiple.

Hay que recordar que si la función de regresión corresponde a una línea recta se tratade regresión lineal, y si es una curva (parábola, exponencial) se denomina regresión nolineal.

Es importante destacar que el análisis de regresión es estimar la relación que existeentre do o mas variables, de acuerdo a la nomenclatura matemática, la relaciónfuncional seria:

Y=f(X) para dos variablesW=g(X,Y,Z) para cuatro variables

Page 9: 7. Correlaciones y regresiones.pdf

6. CORRRELACION

La correlación expresa el grado de asociación de o afinidad entre las variablesconsideradas, la correlación también explica el grado de bondad del ajuste de las líneasde regresión. En su acepción mas general la correlación denota la interdependenciaentre dos datos cuantitativos o cualitativos, esto de acuerdo a múltiples características.

Cuando se determina que las variables están íntimamente asociadas, la ecuación de lafunción de regresión se utiliza para estimar o explicar el comportamiento de la variabledependiente (explicada) en términos de las variaciones que experimentan las variablesindependientes (explicativas).

Llamaremos correlación simple cuando se trata de analizar la relación entre dosvariables. Hablaremos de correlación rectilínea o lineal si la función matemática es unarecta, y de correlación no lineal cuando la función es una curva o de función superior.

Page 10: 7. Correlaciones y regresiones.pdf

7. COEFICIENTE DE CORRRELACION

El coeficiente de correlación es aquel estadígrafo que expresa o mide el grado de asociacióno afinidad entre dos o mas variables relacionadas, se denota por “r”, esto cuando estánrelacionadas mediante una línea Y* = a + bX.

Como r² siempre será positivo, resulta que la propiedad fundamental del coeficiente decorrelación es:

-1 ≤ r ≤ +1

De donde se deduce que:

r > 0, entonces existe correlación positivar < 0, entonces existe correlación negativar² = 1, los datos forman una línea recta, en el caso de correlación rectilínear = +1, hay correlación perfecta positivar = -1, hay correlación perfecta negativar = 0, los datos con incorrelacionables

El signo de r es el mismo que el signo de b (coeficiente angular) de la ecuación de regresiónY* = a + bX

Page 11: 7. Correlaciones y regresiones.pdf

7. COEFICIENTE DE CORRRELACION

En la interpretación clásica del coeficiente de correlación, se sostiene que si:

0,00 ≤ r < 0,20 existe correlación no significativa0,20 ≤ r < 0,40 existe una correlación baja0,40 ≤ r < 0,70 existe una significativa correlación0,70 ≤ r < 1,00 existe correlación de alto grado

Sin embargo, estos valores resultan arbitratorios, puesto que dependerá de lanaturaleza del problema que se investiga así como del tamaño de la muestra.

No hay correlación Correlación perfecta positiva

Correlación perfecta negativa

0 +1-1

Page 12: 7. Correlaciones y regresiones.pdf

7. FORMULAS PARA CALCULAR EL COEFICIENTE DE CORRRELACION

i ) Coeficiente de correlación rectilínea

ii )Formula propuesta por Pearson:

iii ) Formula propuesta por Thurstone:

Page 13: 7. Correlaciones y regresiones.pdf

8. COEFICIENTE DE DETERMINACION

El coeficiente de determinación no es mas que el coeficiente de correlación elevado alcuadrado, y se expresa en porcentaje (%).

Este coeficiente (r²) se interpreta como una medida del grado de ajuste de la línea derepresión a os puntos del diagrama de dispersión, el coeficiente de determinación tomasus valores en el siguiente intervalo:

0 ≤ r² ≤ 1

Si por ejemplo obtuviéramos el siguiente coeficiente de correlación r = 0,951203, elcoeficiente de determinación seria:

r² = 0,94787 ≈ 0,91

Lo que nos indica que el 91% de las variaciones de la variable (Y) son explicadas odebidas a la variación de la variable (X), el resto 9% es atribuido a otras causas.