Correla˘c~ao e Regress~aohome.ufam.edu.br/anaherminia/Estatistica Econômica II/Correlação...
Transcript of Correla˘c~ao e Regress~aohome.ufam.edu.br/anaherminia/Estatistica Econômica II/Correlação...
Correlacao e Regressao
Correlacao e Regressao
Professora Ana Hermınia Andrade
Universidade Federal do AmazonasFaculdade de Estudos Sociais
Departamento de Economia e Analise
Perıodo 2017.1
Correlacao e Regressao
Introducao
Sao duas tecnicas estreitamente relacionadas, que visa estimaruma relacao que possa existir entre duas variaveis napopulacao;
Correlacao: resume o grau de relacionamento entre duasvariaveis (X e Y , por exemplo).
Regressao: tem como resultado uma equacao matematicaque descreve o relacionamento entre variaveis.
Correlacao e Regressao
Correlacao
Objetivo: determinar (mensurar) o grau de relacionamentoentre duas variaveis.
Observacao: E importante ressaltar que o conceito decorrelacao refere-se a uma associacao numerica entre duasvariaveis, nao implicando, necessariamente, relacao decausa-e-efeito, ou mesmo uma estrutura com interessespraticos.
O comportamento conjunto de duas variaveis quantitativaspode ser observado por meio de um tipo de grafico, chamadografico de dispersao.
Correlacao e Regressao
Grafico de Dispersao
Correlacao e Regressao
Coeficiente de correlacao linear de Pearson
Uma medida do grau e do sinal da correlacao linear entre duasvariaveis (X ,Y ) e dado pelo Coeficiente de CorrelacaoLinear de Pearson, definido por:
r =Cov(X ,Y )
SXSY,
em que SX e SY representam o desvio padrao amostral dasvariaveis X e Y , respectivamente, e Cov(X ,Y ) e a covarianciaentre elas, definida por:
Cov(X ,Y ) =
n∑i=1
(xi − x)(yi − y)
n − 1
Correlacao e Regressao
Propriedades do Coeficiente de Correlacao Linear
Este coeficiente e adimensional, logo nao e afetado pelasunidades de medidas das variaveis X e Y .
O sinal positivo indica que as variaveis sao diretamenteproporcionais, enquanto que o sinal negativo indica que arelacao entre as variaveis e inversamente proporcional.
Temos que
−1 ≤ r ≤ 1
Se r = −1, dizemos que a correlacao e perfeita negativa.
Se r = 0, dizemos que a correlacao e nula.
Se r = 1, dizemos que a correlacao e perfeita positiva.
Se 0 < r < 1, dizemos que a correlacao e positiva.
Se −1 < r < 0, dizemos que a correlacao e negativa.
Correlacao e Regressao
Alguns exemplos
Correlacao e Regressao
Teste de Hipoteses para o Coeficiente deCorrelacao
1. Definicao das hipoteses:
H0 : r = 0
H1 : r 6= 0
2. Fixar o nıvel de significancia α;
3. Calcular a estatıstica do teste t:
Tc = r
√n − 2
1− r2
Correlacao e Regressao
Teste de Hipoteses para o Coeficiente deCorrelacao
4. Definir a regiao crıtica do teste (RC):
em que t = t(n−2;α/2) obtido da tabela da distribuicaot-Student com n − 2 graus de liberdade.
5. Se Tc pertence a RC ⇒ rejeitar H0. Se Tc nao pertence a RC⇒ nao rejeitar H0.
6. Concluir sobre a decisao tomada no passo 5.
Correlacao e Regressao
Regressao Linear Simples
Iniciaremos o estudo de regressao com a formulacao maissimples, relacionando uma variavel Y, chamada de variavelresposta ou dependente, com uma variavel X, denominadade variavel explicativa ou independente.
Este tipo de modelo em que buscamos explicar uma variavel Ycomo uma funcao linear de apenas uma variavel X edenominado de modelo de regressao linear simples.
Variavel independente (X ) Variavel dependente (Y )Temperatura do forno (◦C) Resistencia mecanica da ceramica (MPa)Quantidade de aditivo (%) Octanagam da gasolinaRenda(R$) Consumo(R$)Memoria RAM do computador (Gb) Tempo de resposta do sistema (s)
Area construıda do imovel (m2) Preco do imovel (R$)
Correlacao e Regressao
Regressao Linear Simples
A aplicacao da analise de regressao e geralmente feita sobum referencial teorico, que justifique uma relacao matematicade causalidade. Alem disso, a variavel X normalmente econtrolada (nao aleatoria) e Y e uma variavel aleatoria.
A analise de regressao tambem parte de um conjunto deobservacoes pareadas (x1, y1), (x2, y2), . . . , (xn, yn), relativasas variaveis X e Y. Suponha que podemos escrever a relacaoentre as duas variaveis, da seguinte maneira:
Yi = α + βxi + εi ,
Correlacao e Regressao
Regressao Linear Simples
Yi e a variavel aleatoria associada a i-esima observacao de Y;
xi e a i-esima observacao do valor fixado para a variavelindependente (e nao aleatoria) X;
εi e o erro aleatorio da i-esima observacao, isto e, o efeito deuma infinidade de fatores que estao afetando a observacao deY de forma aleatoria;
α e β sao parametros que precisam ser estimados.
Correlacao e Regressao
Estimando os Parametros do Modelo
Queremos encontrar a reta que passe o mais proximo possıvel dospontos observados
O metodo de mınimos quadrados e usado para estimar osparametros do modelo (α e β) e consiste em fazer com que a somados erros quadraticos seja menor possıvel, ou seja, este metodoconsiste em obter os valores de α e β que minimizam a expressao:
S =n∑
i=1
ε2i =
n∑i=1
(Yi − α− βxi )2
Correlacao e Regressao
Metodo de Mınimos Quadrados
Aplicando-se derivadas parciais a expressao anterior, eigualando-se a zero, acharemos as seguintes estimativas paraα e β, as quais chamaremos de a e b, respectivamente:
b =
nn∑
i=1
xiYi −
(n∑
i=1
xi
)(n∑
i=1
Yi
)
nn∑
i=1
x2i −
(n∑
i=1
xi
)2
e
a =
n∑i=1
Yi − bn∑
i=1
xi
n
Correlacao e Regressao
Metodo de Mınimos Quadrados
A chamada equacao (reta) de regressao e dada por:
y = b + ax
e para cada valor xi (i = 1, . . . , n) temos, pela equacao deregressao, o valor predito:
yi = b + axi
A diferenca entre os valores observados e os preditos echamada de resıduo:
ei = yi − yi
Correlacao e Regressao
Metodo de Mınimos Quadrados
O resıduo relativo a i-esima observacao (ei ) pode serconsiderado uma estimativa do erro aleatorio (εi ) destaobservacao (veja ilustracao abaixo).
Como medir a “qualidade” do modelo?
Correlacao e Regressao
O Coeficiente de Determinacao (R2)
O coeficiente de determinacao e uma medida descritiva daproporcao da variacao de Y que pode ser explicada porvariacoes em X, segundo o modelo de regressao especificado.Ele e dado pela seguinte razao:
R2 =
n∑i=1
(y − y)2
n∑i=1
(yi − y)2
=variacao explicada pelo modelo
variacao total
onde y =n∑
i=1
yin
.
Note que 0 ≤ R2 ≤ 1. Se R2 = 0, o modelo nao tem nenhumpoder explicativo. Se R2 = 1, o poder explicativo do modelo etotal.
Correlacao e Regressao
Teste de Hipoteses para o Coeficiente β
1. Definicao das hipoteses:
H0 : β = 0
H1 : β 6= 0
2. Fixar o nıvel de significancia α;
3. Calcular a estatıstica do teste t:
Tc =|b|Sb
em que S2b =
n∑i=1
(yi − yi )2
(n−2)
n∑i=1
(xi − x)2
.
Correlacao e Regressao
Teste de Hipoteses para o Coeficiente β
4. Definir a regiao crıtica do teste (RC):
em que t = t(n−2;α/2) obtido da tabela da distribuicaot-Student com n − 2 graus de liberdade.
5. Se Tc pertence a RC ⇒ rejeitar H0. Se Tc nao pertence a RC⇒ nao rejeitar H0.
6. Concluir sobre a decisao tomada no passo 5.
Correlacao e Regressao
Exemplo
Considere um experimento em que se analisa a octanagem dagasolina (Y) em funcao da adicao de um novo aditivo (X).Para isso, foram realizados ensaios com os percentuais de1, 2, 3, 4, 5 e 6% de aditivo. Os resultados sao mostrados nografico de dispersao.
Correlacao e Regressao
Exemplo
O Coeficiente de Correlacao Linear de Pearson para os dadosacima foi de: x = 3, 5 e y = 82, 8.
x Y xi − x Yi − Y (xi − x) · (Yi − Y ) (xi − x)2 (Yi − Y )2
1 80, 5 −2, 5 −2, 3 5, 75 6, 25 5, 292 81, 6 −1, 5 −1, 2 1, 80 2, 25 1, 443 82, 1 −0, 5 −0, 7 0, 35 0, 25 0, 494 83, 7 0, 5 0, 9 0, 45 0, 25 0, 815 83, 9 1, 5 1, 1 1, 65 2, 25 1, 216 85, 0 2, 5 2, 2 5, 5 6, 25 4, 84
Σ 21 496, 8 15, 5 17, 5 14, 08
Cov(X ,Y ) =15, 5
5= 3, 1
r =3, 1√
17,55
√14,08
5
= 0, 9874 (forte relacao linear)
Correlacao e Regressao
Exemplo
A reta de regressao que explica a octanagem da gasolina (Y)em funcao da adicao do novo aditivo (X) e dada por:
Ensaio (i) x Y x2i xiYi
1 1 80, 5 1 80, 52 2 81, 6 4 163, 23 3 82, 1 9 246, 34 4 83, 7 16 334, 85 5 83, 9 25 419, 56 6 85, 0 36 510, 0
Soma 21 496, 8 91 1754, 3
Correlacao e Regressao
Exemplo
As estimativas para α e β sao, respectivamente:
b =6 · (1754, 3)− (21) · (496, 8)
6 · (91)− (21)2=
93
105∼= 0, 886
e
a =496, 8− (0, 886) · (21)
6∼= 79, 7.
Assim, teremos a seguinte reta de regressao:
y = 79, 7 + 0, 886x .
Por exemplo, se for adicionado x = 5, 5% de aditivo,esperamos um ındice de octanagem de
y = 79, 7 + (0, 886) · (5, 5) = 84, 573.
Correlacao e Regressao
Exemplo
A tabela abaixo mostra que os valores preditos pelo modeloestao bastante proximos dos valores observados noexperimento.
Tabela: Valores preditos [yi = 79, 7 + 0, 886xi ] e resıduos (ei = yi − yi ).
xi Yi yi ei1 80, 5 80, 586 −0, 0862 81, 6 81, 472 0, 1283 82, 1 82, 358 −0, 2584 83, 7 83, 244 0, 4565 83, 9 84, 130 −0, 2306 85, 0 85, 016 −0, 016
Correlacao e Regressao
Exemplo
O coeficiente de determinacao para os dados da octanagemda gasolina e calculado da seguinte forma:
xi Yi y yi yi − y yi − y (yi − y)2 (yi − y)2
1 80, 5 82, 8 80, 586 −2, 3 −2, 21 5, 29 4, 902 81, 6 82, 8 81, 472 −1, 2 −1, 33 1, 44 1, 773 82, 1 82, 8 82, 358 −0, 7 −0, 44 0, 49 0, 204 83, 7 82, 8 83, 244 0, 9 0, 44 0, 81 0, 205 83, 9 82, 8 84, 130 1, 1 1, 33 1, 21 1, 776 85, 0 82, 8 85, 016 2, 2 2, 21 4, 84 4, 90
Soma 14, 08 13, 73
R2 =13, 73
14, 08∼= 0, 975
Correlacao e Regressao
Exemplo
Finalmente, realizamos um Teste de Hipoteses para verificar asignificancia do Modelo de Regressao Linear Simples:
H0 : β = 0
H1 : β 6= 0
Calculando a estatıstica de teste:
S2b =
n∑i=1
(yi − yi )2
(n − 2)n∑
i=1
(xi − x)2
=0, 35
(6− 2) · 17, 5= 0, 005.
Tc =|b|Sb
=0, 886
0, 0707= 12, 53
Como Tc = 12, 53 > t(4;0,025) = 2, 776 concluımos ao nıvel designificancia de 5%, que o modelo de regressao e significativo, ou seja,podemos considerar existencia de uma relacao linear entre as variaveis.
Correlacao e Regressao
Exemplo
A tabela abaixo mostra a altura e os pesos, arredondados paracentımetros e quilogramas de uma amostra, selecionadaaleatoriamente, de 10 estudantes de um Colegio Estadual.
Peso x 70 63 72 60 66 70 74 65 62 67Altura Y 155 150 180 135 156 168 178 160 132 145
a) Cacule os coeficientes da reta de regrssao.
b) Estimar o peso de um aluno, cuja altura e de 168 cm.
Correlacao e Regressao
Exemplo
Correlacao e Regressao
Exemplo