Análise de Variância
-
Upload
wagner-araujo -
Category
Documents
-
view
212 -
download
0
description
Transcript of Análise de Variância
Análise de Variância
Wagner Oliveira de Araujo
Technical Report - RT-MSTMA_001-09 - RelatórioTécnico
April - 2009 - Abril
The contents of this document are the sole responsibility of the authors.O conteúdo do presente documento é de única responsabilidade dos autores.
Mestrado Sociedade, Tenologia e Meio AmbienteCentro Universitário de Anápolis
www.unievangelica.edu.br
Análise de Variância
Wagner Oliveira de Araujo ∗
Clarimar Jose Coelho †
Resumo. Este meta-artigo descreve uma síntese da Análise Univariada de Variância,técnica estatística para determinar, com base em uma medida dependente, se váriasamostras são oriundas de populações com médias iguais.
1 Introduçãoa) A análise da variância é uma técnica que pode ser usada para determinar se as médias de
duas ou mais populações são iguais. ANalysis Of Variance (ANOVA);
b) Permite determinar se as médias de 2 ou mais populações são iguais.
c) População: o grupo (universo) do qual se extrai a amostra
d) Amostra: parcela do grupo examinada
e) Suposições:
- As amostras devem ser aleatórias e independentes
- As amostras devem ser extraídas de populações normais
- As populações devem ter variâncias iguais, isto é:
σ21 = σ2
3 = σ22 = . . . = σ2
k (1)
Observações:Média
y =1
n
n∑i=1
yi
Variância =
s2 =1
n− 1
n∑i=1
(yi − y)2
Covariância =
Sxy =
∑ni=1(xiyi − nx y)
n− 1
∗Mestrando em Sociedade, Tecnologia e Meio Ambiente – Responsável pelo texto do artigo.†Orientador, Centro Universitário de Anápolis – UniEVAGÉLICA
1
2
Tabela 1: Dados de QuilometragemTipos de Gasolina
Observação 1 2 3 41 15,1 14,9 15,4 15,62 15,0 15,2 15,2 15,53 14,9 14,9 16,1 15,84 15,7 14,8 15,3 15,35 15,4 14,9 15,2 15,76 15,1 15,3 15,2 15,7
Médias Amostrais 15,2 15,0 15,4 15,6Variâncias Amostrais 0,088 0,040 0,124 0,032
Tabela 2: Extrai-se uma amostra de cada população e, para cada uma delas, calcula-se a médiae a variância.
População 1 População 2 População 3 População kParâmetros desconhecidos µ1 µ2 µ3 µk
σ1 σ2 σ3 σk
↓ ↓ ↓ ↓Estatística Amostral x1 x2 x3 xk
s21 s2
2 s23 s2
k
• Duas hipóteses possíveis:
– H0: as médias das populações são todas iguais (nula);
– H1: as médias das populações não são iguais (alternativa).
• Se a hipótese nula for verdadeira: diferenças devidas à variações aleatórias nas amostras
• Caso contrário as diferenças são muito grandes para serem causadas apenas devido aaleatoriedade
• Fundamentos lógicos:
– Se H0 é verdadeira: conceitualmente idêntico a uma situação em que todas as amos-tras tenham sido tiradas de uma única população
– Se H0 é "falsa": as amostras vêm de populações com médias diferentes (mas nor-mais e com variâncias iguais)
• Variância populacional é a média das variâncias amostrais.
– Variância "dentro":
S2w =
s21+s2
2+s23+s2
4+...+s2k
K
s21 = variância da amostra 1
s22 = variância da amostra 2
...s2
k = variância da amostra kK = número de amostras
3
Veja Tabela 1 página 2
S2w =
0, 088 + 0, 040 + 0, 124 + 0, 032
4(2)
0, 2840
4= 0, 0710 (3)
• Estimativa "dentro"da variância não é afetada pela veracidade de H0 => não pode serusada sozinha para julgar se as médias populacionais são iguais;
• Estimativa "entre"da variância é sensível às diferenças das médias populacionais.
• Desvio padrão da distribuição amostral é:
– σx = σx√n
• σx => desvio padrão da população
• n = tamanho da amostra
• Não conhecemos o desvio padrão da distribuição amostral, neste caso, usa-se o desviopadrão da distribuição da qual se extraiu a amostra;
• A determinação da variância das médias amostrais possibilita estimar a variância da dis-tribuição da qual se extraiu a amostra.
– S2x =
S2b
n
• Estimativa "entre"da variância (Sb): Veja Tabela 1 página 2
• Calcular a média das médias amostrais:
– x =∑k
j=1 xj = 15,2 + 15,0 + 15,4 + 15,64
= 15, 3
• Calcular S2x
– S2x =
∑kj=1(xj−x)2
k−1= (15,2−15,3)2+(15,0−15,3)2+(15,4−15,3)2+(15,6−15,3)2
4−1= 0, 067
• Sendo n o número de amostras (observações) teremos:
– S2b = ns2
x = 6(0, 067) = 0, 402
• Comparando com a variância "dentro":
– S2w = 0, 071
• S2b > S2
w
– 0, 402 > 0, 071
• Temos então 2 estimativas da variância populacional.
– Se H0 é verdadeira S2b∼= S2
w
– Se H0 é falsa S2b > S2
w
4
Figura 1: Teste de hipótese
• No nosso exemplo sabemos que Sb é maior, mas não sabemos se é significativamentemaior (a variação casual devida a amostragem pode ser responsável por isso).
• Calculemos então a razão F : RazãoF =S2
b
S2w
• O valor obtido com a estatística é comparado com uma tabela de valores F
• As formas da distribuição F variam de acordo com os graus de liberdade do numerador edenominador. Ver Figura 2
Figura 2: Grau de liberdade do numerador e denominador
• Os graus de liberdade são calculados como:
– Numerador: número de amostras menos 1 (k − 1)
– Denominador: número de amostras x (tamanho da amostra -1) {k[n− 1]}– Exemplo: (k−1)
{k[n−1]} = 4−14(6−1)
= 320
• Utilização da tabela F
– Representam a linha divisória entre o aleatório e o não aleatório;
– Compara-se a razão F calculada com o valor tabelado
– Se o valor calculado for maior que o tabelado rejeitasse a hipótese nula. Ver Figura3
5
Figura 3: Rejeitando a hipótese nula
Figura 4: Maior que o tabulado
• Lembrando . . . F =S2
b
S2w
= 0,4020,071
= 5, 661 ≈ 5, 70
• Este valor é maior que o tabulado => rejeita-se H0. Ver Figura 4
• Atualmente os programas estatísticos fornecem diretamente o valor p
Tabela 3: FontesFonte de variação Soma de quadrados G.L. Variância Razão Fentre médias n
∑kj=1(xj − x)2 ÷ k − 1 = S2
b F = S2x
S2w
dentro de amostras ÷ k(n− 1) = S2w
Total kn− 1k = número de amos-trasn = número de obser-vações em cada amos-trank = número total deobservaçõesNota: i se refere às linhas, e j às colunas
1.1 Utilizando MatlabUtilizaremos o software Matlab 6.5 para gerar os resultados de nosso exemplo.
6
Tabela 4: Exemplo de tabela amostralAmostra
Observações 1 2 3 . . .n1 x1 x1 x1 . . . x1
n2 x2 x2 x2 . . . x2
n3 x3 x3 x3 . . . x3
n4...
......
...n5
n6 xn xn xn . . . xn
Médias Amostrais x1 x2 x3 . . . xk
Exemplo 1 – Código Entrada e Saída MatLab1 %Valores de Entrada2 X=[15.1,14.9,15.4,15.6; 15.0,15.2,15.2,15.5;3 14.9,14.9,16.1,15.8; 15.7,14.8,15.3,15.3;4 15.4,14.9,15.2,15.7; 15.1,15.3,15.2,15.7]5 p = anova1(X)6
7
8 %Valores de Saída9
10 X =11
12 15.1000 14.9000 15.4000 15.600013 15.0000 15.2000 15.2000 15.500014 14.9000 14.9000 16.1000 15.800015 15.7000 14.8000 15.3000 15.300016 15.4000 14.9000 15.2000 15.700017 15.1000 15.3000 15.2000 15.700018
19
20 p =21
22 0.005823
24 >>
Resultado produzido no MatLab:
7
(a) Execução de resultados
1 2 3 4
14.8
15
15.2
15.4
15.6
15.8
16
Val
ues
Column Number
(b) Plotagem do gráfico
Figura 5: Resultado da execução juntamente com o gráfico
8
ReferênciasFREUND, J. E.; SIMON, G. A. Estatística Aplicada: economia, administração e contabili-
dade. 9.ed. Porto Alegre: Bookman, 1997.
HAIR, J. F.; ANDERSON, R. E.; TATHAM, R. L.; BLACK, W. C. Multivariate Data Analsys.5.ed. New Jersey-USA: Prentice-Hall, 1998.
MANLY, B. J. F. Métodos Estatísticos Multivariados: uma introdução. 3.ed. Porto Alegre:Bookman, 2005.
RENCHER, A. C. Methods of Multivariate Analysis. 2.ed. Nova York: John Wiley & Sons,Inc, 2002.
STEVENSON, W. J. Estatística: aplicada à administração. 1.ed. São Paulo: HARBRA, 2001.