Part I Descripci´on estad´ıstica de dos variables

27
Estad´ ıstica I Mario Francisco Variable estad´ ıstica bidimensional Distribuciones de frecuencias Representaciones gr´ aficas Medidas caracter´ ısticas Regresi´ on lineal. Correlaci´ on Part I Descripci´ on estad´ ıstica de dos variables Mario Francisco Estad´ ıstica I

Transcript of Part I Descripci´on estad´ıstica de dos variables

Page 1: Part I Descripci´on estad´ıstica de dos variables

Estadıstica I

MarioFrancisco

Variableestadısticabidimensional

Distribucionesde frecuencias

Representacionesgraficas

Medidascaracterısticas

Regresionlineal.Correlacion

Part I

Descripcion estadıstica de dos variables

Mario Francisco Estadıstica I

Page 2: Part I Descripci´on estad´ıstica de dos variables

Estadıstica I

MarioFrancisco

Variableestadısticabidimensional

Distribucionesde frecuencias

Representacionesgraficas

Medidascaracterısticas

Regresionlineal.Correlacion

Variable estadıstica bidimensional

Introduccion

Si para un mismo individuo observamos simultaneamentek caracterısticas obtendremos como resultado una variableestadıstica k-dimensional.

Nos ocuparemos del estudio de las variables estadısticasbidimensionales (k = 2).

Representaremos por (X ,Y ) la variable bidimensionalestudiada, donde X e Y son las variables unidimensionalescorrespondientes a las primera y segunda caracterısticas,respectivamente.

El estudio de cada variable bidimensional particular (X ,Y )variara segun las variables unidimensionales X e Y seancuantitativas o cualitativas y, de ser cuantitativas, segunsean continuas o discretas.

Mario Francisco Estadıstica I

Page 3: Part I Descripci´on estad´ıstica de dos variables

Estadıstica I

MarioFrancisco

Variableestadısticabidimensional

Distribucionesde frecuencias

Representacionesgraficas

Medidascaracterısticas

Regresionlineal.Correlacion

Distribuciones de frecuencias

Distribucion de frecuencias conjunta

Sea (x1, y1), . . . , (xn, yn) una muestra de n observacionesde una variable estadıstica bidimensional (X ,Y ), tal queque X presenta k modalidades c1, c2, . . . , ck e Y presental modalidades c ′

1, c′2, . . . , c

′l , y sea nij el numero de

individuos de la muestra que presentan la modalidad ci deX y la modalidad c ′

j de Y (i = 1, 2, . . . , k; j = 1, 2, . . . , l).

El numero nij se conoce como la frecuencia absoluta delpar (ci , c

′j ).

La frecuencia relativa de (ci , c′j ) es el numero fij = nij/n,

que representa la proporcion de individuos de la muestraque presentan el par (ci , c

′j )

(i = 1, 2, . . . , k; j = 1, 2, . . . , l).

Mario Francisco Estadıstica I

Page 4: Part I Descripci´on estad´ıstica de dos variables

Estadıstica I

MarioFrancisco

Variableestadısticabidimensional

Distribucionesde frecuencias

Representacionesgraficas

Medidascaracterısticas

Regresionlineal.Correlacion

Distribuciones de frecuencias

Propiedades

0 ≤ nij ≤ n (i = 1, 2, . . . , k; j = 1, 2, . . . , l).

0 ≤ fij ≤ 1 (i = 1, 2, . . . , k; j = 1, 2, . . . , l).

k∑i=1

l∑j=1

nij = n11 + n12 + · · ·+ nkl = n.

k∑i=1

l∑j=1

fij = f11 + f12 + · · ·+ fkl = 1.

Mario Francisco Estadıstica I

Page 5: Part I Descripci´on estad´ıstica de dos variables

Estadıstica I

MarioFrancisco

Variableestadısticabidimensional

Distribucionesde frecuencias

Representacionesgraficas

Medidascaracterısticas

Regresionlineal.Correlacion

Distribuciones de frecuencias

Distribucion de frecuencias conjunta

X \ Y c ′1 c ′

2 . . . c ′j . . . c ′

l

c1 n11 (f11) n12 (f12) . . . n1j (f1j) . . . n1l (f1l)c2 n21 (f21) n22 (f22) . . . n2j (f2j) . . . n2l (f2l)...

...... · · ·

... · · ·...

ci ni1 (fi1) ni2 (fi2) . . . nij (fij) . . . nil (fil)...

...... · · ·

... · · ·...

ck nk1 (fk1) nk2 (fk2) . . . nkj (fkj) . . . nkl (fkl)

Mario Francisco Estadıstica I

Page 6: Part I Descripci´on estad´ıstica de dos variables

Estadıstica I

MarioFrancisco

Variableestadısticabidimensional

Distribucionesde frecuencias

Representacionesgraficas

Medidascaracterısticas

Regresionlineal.Correlacion

Distribuciones de frecuencias

Distribuciones marginales

Llamaremos distribuciones marginales a las distribucionesde frecuencias unidimensionales de las variables X e Y .

Para la variable X , las frecuencias absoluta y relativa de lamodalidad ci (i = 1, 2, . . . , k) son, respectivamente,

ni · = ni1 + ni2 + · · ·+ nil y fi · =ni ·n

= fi1 + fi2 + · · ·+ fil

Para la variable Y , las frecuencias absoluta y relativa de lamodalidad c ′

j (j = 1, 2, . . . , l) son, respectivamente,

n·j = n1j +n2j + · · ·+nkj y f·j =n·jn

= f1j + f2j + · · ·+ fkj

Mario Francisco Estadıstica I

Page 7: Part I Descripci´on estad´ıstica de dos variables

Estadıstica I

MarioFrancisco

Variableestadısticabidimensional

Distribucionesde frecuencias

Representacionesgraficas

Medidascaracterısticas

Regresionlineal.Correlacion

Distribuciones de frecuencias

Tabla de frecuencias marginales absolutas (relativas) para X

X c1 c2 · · · ci · · · ck

n1·(f1·) n2·(f2·) · · · ni ·(fi ·) · · · nk·(fk·)

Tabla de frecuencias marginales absolutas (relativas) para Y

Y c ′1 c ′

2 · · · c ′j · · · c ′

l

n·1(f·1) n·2(f·2) · · · n·j(f·j) · · · n·l(f·l)

Mario Francisco Estadıstica I

Page 8: Part I Descripci´on estad´ıstica de dos variables

Estadıstica I

MarioFrancisco

Variableestadısticabidimensional

Distribucionesde frecuencias

Representacionesgraficas

Medidascaracterısticas

Regresionlineal.Correlacion

Distribuciones de frecuencias

Distribuciones condicionadas

Para cada modalidad c ′j de Y , la frecuencia absoluta de la

modalidad ci de X condicionada a Y = c ′j es

ni/j = n(X = ci/Y = c ′j ) = nij (i = 1, 2, . . . , k)

La frecuencia relativa de ci de X condicionada a Y = c ′j es

fi/j = f (X = ci/Y = c ′j ) =

nij

n·j=

fijf·j

(i = 1, 2, . . . , k)

Analogamente, se obtienen las frecuencias, absolutas yrelativas, de cada modalidad de Y condicionada por cadamodalidad de X .

Mario Francisco Estadıstica I

Page 9: Part I Descripci´on estad´ıstica de dos variables

Estadıstica I

MarioFrancisco

Variableestadısticabidimensional

Distribucionesde frecuencias

Representacionesgraficas

Medidascaracterısticas

Regresionlineal.Correlacion

Distribuciones de frecuencias

Tabla de distribuciones de X condicionada por Y = c ′j

X/Y = c ′j c1 · · · ci · · · ck

n1/j(f1/j) · · · ni/j(fi/j) · · · nk/j(fk/j)

Tabla de distribuciones de Y condicionada por X = ci

X/Y = c ′j c1 · · · ci · · · ck

n1/j(f1/j) · · · ni/j(fi/j) · · · nk/j(fk/j)

Mario Francisco Estadıstica I

Page 10: Part I Descripci´on estad´ıstica de dos variables

Estadıstica I

MarioFrancisco

Variableestadısticabidimensional

Distribucionesde frecuencias

Representacionesgraficas

Medidascaracterısticas

Regresionlineal.Correlacion

Representaciones graficas

Diagrama de dispersion. Es la construccion grafica queresulta de representar en un sistema de ejes decoordenadas los pares de observaciones (xi , yi )(i = 1, 2, . . . , n) de la variable bidimensional (X ,Y ).Histograma. En un sistema de ejes tridimensional, seconstruye una cuadrıcula en el plano (X,Y) y sobre estasprismas rectangulares cuyos volumenes deberan serproporcionales a las frecuencias absolutas (relativas) de lasmodalidades (ci , c

′j ) definidas por cada rectangulo.

Representacion grafica de distribuciones condicionadas.Las distribuciones (unidimensionales) condicionadaspueden representarse en graficos conjuntos, donde seincluyen los diagramas de barras, histogramas o diagramasde caja relativos a una variable condicionada a los valoresparticulares de otra.

Mario Francisco Estadıstica I

Page 11: Part I Descripci´on estad´ıstica de dos variables

Estadıstica I

MarioFrancisco

Variableestadısticabidimensional

Distribucionesde frecuencias

Representacionesgraficas

Medidascaracterısticas

Regresionlineal.Correlacion

Medidas caracterısticas

Momentos

Sea {(xi , yi )}ni=1 una muestra de una variable cuantitativa

(X ,Y ). El momento con respecto al origen de orden (r , s)(r ≥ 0, s ≥ 0) de la variable (X ,Y ) es el numeroars = 1

n

∑ni=1 x r

i y si

El momento con respecto a las medias de orden (r , s)(r ≥ 0, s ≥ 0) es mrs = 1

n

∑ni=1(xi − x)r (yi − y)s

Las medias marginales de X e Y son, respectivamente,a10 = x y a01 = y ; siendo m20 = s2

x y m02 = s2y las

varianzas marginales de X e Y , respectivamente.

Mario Francisco Estadıstica I

Page 12: Part I Descripci´on estad´ıstica de dos variables

Estadıstica I

MarioFrancisco

Variableestadısticabidimensional

Distribucionesde frecuencias

Representacionesgraficas

Medidascaracterısticas

Regresionlineal.Correlacion

Medidas caracterısticas

Covarianza

En el caso particular r = 1, s = 1 se obtiene el momento m11,conocido como la covarianza de (X ,Y )

Cov(X ,Y ) = sxy = m11 =1

n

n∑i=1

(xi − x)(yi − y)

que puede interpretarse como una medida de la relacion linealentre las variables X e Y .

Mario Francisco Estadıstica I

Page 13: Part I Descripci´on estad´ıstica de dos variables

Estadıstica I

MarioFrancisco

Variableestadısticabidimensional

Distribucionesde frecuencias

Representacionesgraficas

Medidascaracterısticas

Regresionlineal.Correlacion

Medidas caracterısticas

Covarianza. Propiedades

La covarianza de (X ,Y ) es igual a la de (Y ,X ): sxy = syx .

La covarianza de (X ,X ) es igual a la varianza marginal deX : sxx = s2

x .

Si a, b, c , d son constantes cualesquiera, la covarianza de(U,V ), con U = a + bX y V = c + dY , es suv = bdsxy .

Para el calculo en la practica de la covarianza de (X ,Y )puede utilizarse la relacion

sxy = a11 − a10a01 =1

n

n∑i=1

xiyi − x y

Mario Francisco Estadıstica I

Page 14: Part I Descripci´on estad´ıstica de dos variables

Estadıstica I

MarioFrancisco

Variableestadısticabidimensional

Distribucionesde frecuencias

Representacionesgraficas

Medidascaracterısticas

Regresionlineal.Correlacion

Medidas caracterısticas

Vector de medias. Matriz de varianzas-covarianzas

Llamaremos vector de medias de una variable (X ,Y ) alvector (x , y).

Llamaremos matriz de varianzas-covarianzas de la variable(X ,Y ) a la matriz

S =

(s2x sxy

sxy s2y

)

S es una matriz simetrica y definida no negativa, cuyodeterminante (no negativo) |S | = s2

x s2y − s2

xy proporcionauna medida de la variacion conjunta de las variables X eY , que se conoce como la varianza generalizada de (X ,Y ).

Mario Francisco Estadıstica I

Page 15: Part I Descripci´on estad´ıstica de dos variables

Estadıstica I

MarioFrancisco

Variableestadısticabidimensional

Distribucionesde frecuencias

Representacionesgraficas

Medidascaracterısticas

Regresionlineal.Correlacion

Regresion lineal. Correlacion

Es interesante investigar la posible existencia de algunarelacion de dependencia entre las variables y laconstruccion de algun modelo matematico que permitadescribir dicha relacion.Entre las variables X e Y existe una relacion dedependencia exacta si conociendo el valor de una seconoce exactamente el valor de la otra.X e Y son variables independientes si una variable nocontiene informacion sobre la otra.La variable X contiene cierta informacion (incompleta)acerca de la variable Y , pudiendose predeciraproximadamente el valor de Y a partir del conocimientodel valor que ha tomado X mediante la construccion de loque llamaremos modelos de regresion; en estas situacionesdiremos que X e Y son variables dependientes.

Mario Francisco Estadıstica I

Page 16: Part I Descripci´on estad´ıstica de dos variables

Estadıstica I

MarioFrancisco

Variableestadısticabidimensional

Distribucionesde frecuencias

Representacionesgraficas

Medidascaracterısticas

Regresionlineal.Correlacion

Regresion lineal. Correlacion

Introduccion a los modelos de regresion

Se construyen modelos matematicos, llamados modelos deregresion, para explicar la relacion de dependencia entreuna variable respuesta, Y , y una o mas variablesexplicativas, X .

Modelos de regresion simple a aquellos que consideran unaunica variable explicativa y modelos de regresion multiplea los que consideran dos o mas variables explicativas.

Se construyen modelos Y = m(X ) + E donde E es el errorde observacion y m la funcion de regresion.

los modelos parametricos de regresion, en los que sesupone que m tiene una forma predeterminada y losmodelos no parametricos de regresion, en los que seformulan condiciones muy generales acerca de m.

Mario Francisco Estadıstica I

Page 17: Part I Descripci´on estad´ıstica de dos variables

Estadıstica I

MarioFrancisco

Variableestadısticabidimensional

Distribucionesde frecuencias

Representacionesgraficas

Medidascaracterısticas

Regresionlineal.Correlacion

Regresion lineal. Correlacion

El metodo de mınimos cuadrados

Sean {(xi , yi )}ni=1 una muestra de una variable (X ,Y ) y

supongamos que se desea ajustar un modelo parametricode la forma y = m(x ; θ1, . . . , θk) al diagrama de dispersionde (X ,Y ), donde θ1, . . . , θk son constantes desconocidas adeterminar.

El metodo de mınimos cuadrados selecciona los valores deθ1, . . . , θk del modelo que mejor se ajusta al diagrama dedispersion de (X ,Y ), es decir, los valores θ1, . . . , θk queminimizan la funcion

M(θ1, . . . , θk) =1

n

n∑i=1

(yi −m(xi ; θ1, . . . , θk))2

Mario Francisco Estadıstica I

Page 18: Part I Descripci´on estad´ıstica de dos variables

Estadıstica I

MarioFrancisco

Variableestadısticabidimensional

Distribucionesde frecuencias

Representacionesgraficas

Medidascaracterısticas

Regresionlineal.Correlacion

Regresion lineal. Correlacion

Error (ei = yi−y∗i ) al predecir el valor observado (yi ) por el valor

calculado mediante el modelo teorico (y∗i = m(xi ) = a + bxi ).

+

+

++

+ +

+

++

HHHH

HHHHHH

6

?

yi

y∗i

xi

ei = yi − y∗i

+

Mario Francisco Estadıstica I

Page 19: Part I Descripci´on estad´ıstica de dos variables

Estadıstica I

MarioFrancisco

Variableestadısticabidimensional

Distribucionesde frecuencias

Representacionesgraficas

Medidascaracterısticas

Regresionlineal.Correlacion

Regresion lineal. Correlacion

El modelo de regresion lineal simple

Supongamos que la muestra {(xi , yi )}ni=1 de una variable

(X ,Y ) tienden a alinearse en torno a una recta deecuacion y = m(x) = a + bx .

Por mınimos cuadrados se determinan los valores de a y bque minimizan

M(a, b) =1

n

n∑i=1

e2i =

1

n

n∑i=1

(yi − a − bxi )2

Obteniendose

a = y − bx y b =sxys2x

Mario Francisco Estadıstica I

Page 20: Part I Descripci´on estad´ıstica de dos variables

Estadıstica I

MarioFrancisco

Variableestadısticabidimensional

Distribucionesde frecuencias

Representacionesgraficas

Medidascaracterısticas

Regresionlineal.Correlacion

Regresion lineal. Correlacion

El modelo de regresion lineal simple

La ecuacion de la recta de regresion de Y sobre X ,sustituyendo los valores de a y b por las expresionesanteriores, es

y − y =sxys2x

(x − x)

La recta de regresion de X sobre Y es

x − x =sxys2y

(y − y)

Llamaremos coeficientes de regresion a βyx = sxy/s2x y

βxy = sxy/s2y .

Mario Francisco Estadıstica I

Page 21: Part I Descripci´on estad´ıstica de dos variables

Estadıstica I

MarioFrancisco

Variableestadısticabidimensional

Distribucionesde frecuencias

Representacionesgraficas

Medidascaracterısticas

Regresionlineal.Correlacion

Regresion lineal. Correlacion

Prediccion con el modelo de regresion lineal simple

El valor de la prediccion sera el resultado de evaluar lafuncion de regresion ajustada en el valor particular de lavariable o variables explicativas.

La prediccion de Y con el modelo de regresion linealsimple en un valor particular x0 es y0 = a + bx0.

Esta forma de realizar las predicciones podra producirresultados razonablemente satisfactorios siempre que elvalor x0 pertenezca al intervalo comprendido entre elmınimo y el maximo de los valores observados en lamuestra de la variable explicativa X .

Mario Francisco Estadıstica I

Page 22: Part I Descripci´on estad´ıstica de dos variables

Estadıstica I

MarioFrancisco

Variableestadısticabidimensional

Distribucionesde frecuencias

Representacionesgraficas

Medidascaracterısticas

Regresionlineal.Correlacion

Regresion lineal. Correlacion

Adecuacion del modelo de regresion lineal simple: la razon decorrelacion

Se desea conocer si el modelo ajustado es adecuado paradescribir la relacion de dependencia entre X e Y .

Suele utilizarse el coeficiente de determinacion,

R2 = 1−s2R

s2y

=s2y − s2

R

s2y

,

donde s2y es varianza total y s2

R = 1n

∑ni=1(yi − yi )

2 es lavarianza no explicada.

Para la recta de regresion, R2 =s2xy

s2x s2

y= βxyβyx .

Valores de R2 cercanos a uno indican un buen ajuste ycercanos a cero, malo.

Mario Francisco Estadıstica I

Page 23: Part I Descripci´on estad´ıstica de dos variables

Estadıstica I

MarioFrancisco

Variableestadısticabidimensional

Distribucionesde frecuencias

Representacionesgraficas

Medidascaracterısticas

Regresionlineal.Correlacion

Regresion lineal. Correlacion

El coeficiente de correlacion lineal

El proposito del estudio de la correlacion es laconstruccion de medidas del grado de dependencia oasociacion entre variables estadısticas, siendo la maspopular de estas el coeficiente de correlacion lineal.

Dadas observaciones {(xi , yi )}ni=1 de una variable

bidimensional (X ,Y ) se define el coeficiente de correlacionlineal de X e Y como el numero

rxy =sxysxsy

que es una medida del grado de dependencia lineal entrelas variables X e Y .

Mario Francisco Estadıstica I

Page 24: Part I Descripci´on estad´ıstica de dos variables

Estadıstica I

MarioFrancisco

Variableestadısticabidimensional

Distribucionesde frecuencias

Representacionesgraficas

Medidascaracterısticas

Regresionlineal.Correlacion

Regresion lineal. Correlacion

El coeficiente de correlacion lineal. Propiedades

El coeficiente de correlacion lineal es una medidaadimensional.

−1 ≤ rxy ≤ 1.

Si rxy = ±1 significa que existe dependencia lineal exactaentre X e Y . Si rxy = 0 significa que no existedependencia lineal entre X e Y (incorreladas). l

rxy = ryx . Si rxy > 0 la recta de regresion es creciente y sirxy < 0 ldecreciente.

rxx = 1.

Si a, b, c , d son constantes, dadas nuevas variablesU = a + bX y V = c + dY se verifica que ruv = rxy , sibd > 0, y ruv = −rxy , si bd < 0.

Mario Francisco Estadıstica I

Page 25: Part I Descripci´on estad´ıstica de dos variables

Estadıstica I

MarioFrancisco

Variableestadısticabidimensional

Distribucionesde frecuencias

Representacionesgraficas

Medidascaracterısticas

Regresionlineal.Correlacion

Regresion lineal. Correlacion

Matriz de correlaciones

A partir de la definicion anterior del coeficiente decorrelacion lineal, se define la matriz de correlaciones de(X ,Y ) como la matriz simetrica

C =

(1 rxy

rxy 1

)

En general, se define la matriz de correlaciones de unavariable aleatoria k-dimensional (X1,X2, . . . ,Xk) como lamatriz simetrica C = (rij), donde rij(1 ≤ i ≤ k, 1 ≤ j ≤ k) es el coeficiente de correlacionlineal entre Xi y Xj .

Mario Francisco Estadıstica I

Page 26: Part I Descripci´on estad´ıstica de dos variables

Estadıstica I

MarioFrancisco

Variableestadısticabidimensional

Distribucionesde frecuencias

Representacionesgraficas

Medidascaracterısticas

Regresionlineal.Correlacion

Regresion lineal. Correlacion

Otros modelos de regresion

El modelo multiplicativo o potencial. Se trata de ajustar lafuncion de regresion y = m(x) = axb.

El modelo recıproco o inverso. La funcion de regresion aajustar es y = m(x) = 1/(a + bx).

El modelo exponencial. Se trata de ajustar la funcion deregresion y = m(x) = abx .

El modelo de regresion polinomica. Generaliza el caso de laregresion L.S., siendo la funcion de regresion a ajustar unpolinomio de grado p, y = m(x) = θ0 + θ1x + · · ·+ θpx

p.

El modelo de regresion lineal multiple. Es la generalizaciondel modelo de regresion L.S. al caso en que se disponga dek variables explicativas, tratandose de ajustar la funcion deregresion y = m(x1, . . . , xk) = θ0 + θ1x1 + · · ·+ θkxk .

Mario Francisco Estadıstica I

Page 27: Part I Descripci´on estad´ıstica de dos variables

Estadıstica I

MarioFrancisco

Variableestadısticabidimensional

Distribucionesde frecuencias

Representacionesgraficas

Medidascaracterısticas

Regresionlineal.Correlacion

Regresion lineal. Correlacion

Regresion no parametrica

En el contexto de la regresion no parametrica no se asumeninguna forma predefinida para la funcion m (unicamentese suponen ciertas hipotesis muy generales acerca de esta)e interesa estimar su valor en un punto cualquiera x .

La idea consiste en elegir un entorno de amplitud a concentro el punto x , tomandose para m(x) una mediaponderada de las observaciones yi tales que el valor de laprimera coordenada esta en dicho entorno. Es decir,m(x) =

∑ni=1 w(a, x , xi )yi , donde w(a, x , xi ) es el peso

asociado al valor observado yi , que, en general, se elegirateniendo en cuenta la distancia entre x y xi (a mayordistancia, menor peso).

Mario Francisco Estadıstica I