Análise de Variância

9
Análise de Variância Wagner Oliveira de Araujo Technical Report - RT-MSTMA_001-09 - Relatório Técnico April - 2009 - Abril The contents of this document are the sole responsibility of the authors. O conteúdo do presente documento é de única responsabilidade dos autores. Mestrado Sociedade, Tenologia e Meio Ambiente Centro Universitário de Anápolis www.unievangelica.edu.br

description

Este meta-artigo descreve uma síntese da Análise Univariada de Variância, técnica estatística para determinar, com base em uma medida dependente, se várias amostras são oriundas de populações com médias iguais.

Transcript of Análise de Variância

Análise de Variância

Wagner Oliveira de Araujo

Technical Report - RT-MSTMA_001-09 - RelatórioTécnico

April - 2009 - Abril

The contents of this document are the sole responsibility of the authors.O conteúdo do presente documento é de única responsabilidade dos autores.

Mestrado Sociedade, Tenologia e Meio AmbienteCentro Universitário de Anápolis

www.unievangelica.edu.br

Análise de Variância

Wagner Oliveira de Araujo ∗

[email protected]

Clarimar Jose Coelho †

[email protected]

Resumo. Este meta-artigo descreve uma síntese da Análise Univariada de Variância,técnica estatística para determinar, com base em uma medida dependente, se váriasamostras são oriundas de populações com médias iguais.

1 Introduçãoa) A análise da variância é uma técnica que pode ser usada para determinar se as médias de

duas ou mais populações são iguais. ANalysis Of Variance (ANOVA);

b) Permite determinar se as médias de 2 ou mais populações são iguais.

c) População: o grupo (universo) do qual se extrai a amostra

d) Amostra: parcela do grupo examinada

e) Suposições:

- As amostras devem ser aleatórias e independentes

- As amostras devem ser extraídas de populações normais

- As populações devem ter variâncias iguais, isto é:

σ21 = σ2

3 = σ22 = . . . = σ2

k (1)

Observações:Média

y =1

n

n∑i=1

yi

Variância =

s2 =1

n− 1

n∑i=1

(yi − y)2

Covariância =

Sxy =

∑ni=1(xiyi − nx y)

n− 1

∗Mestrando em Sociedade, Tecnologia e Meio Ambiente – Responsável pelo texto do artigo.†Orientador, Centro Universitário de Anápolis – UniEVAGÉLICA

1

2

Tabela 1: Dados de QuilometragemTipos de Gasolina

Observação 1 2 3 41 15,1 14,9 15,4 15,62 15,0 15,2 15,2 15,53 14,9 14,9 16,1 15,84 15,7 14,8 15,3 15,35 15,4 14,9 15,2 15,76 15,1 15,3 15,2 15,7

Médias Amostrais 15,2 15,0 15,4 15,6Variâncias Amostrais 0,088 0,040 0,124 0,032

Tabela 2: Extrai-se uma amostra de cada população e, para cada uma delas, calcula-se a médiae a variância.

População 1 População 2 População 3 População kParâmetros desconhecidos µ1 µ2 µ3 µk

σ1 σ2 σ3 σk

↓ ↓ ↓ ↓Estatística Amostral x1 x2 x3 xk

s21 s2

2 s23 s2

k

• Duas hipóteses possíveis:

– H0: as médias das populações são todas iguais (nula);

– H1: as médias das populações não são iguais (alternativa).

• Se a hipótese nula for verdadeira: diferenças devidas à variações aleatórias nas amostras

• Caso contrário as diferenças são muito grandes para serem causadas apenas devido aaleatoriedade

• Fundamentos lógicos:

– Se H0 é verdadeira: conceitualmente idêntico a uma situação em que todas as amos-tras tenham sido tiradas de uma única população

– Se H0 é "falsa": as amostras vêm de populações com médias diferentes (mas nor-mais e com variâncias iguais)

• Variância populacional é a média das variâncias amostrais.

– Variância "dentro":

S2w =

s21+s2

2+s23+s2

4+...+s2k

K

s21 = variância da amostra 1

s22 = variância da amostra 2

...s2

k = variância da amostra kK = número de amostras

3

Veja Tabela 1 página 2

S2w =

0, 088 + 0, 040 + 0, 124 + 0, 032

4(2)

0, 2840

4= 0, 0710 (3)

• Estimativa "dentro"da variância não é afetada pela veracidade de H0 => não pode serusada sozinha para julgar se as médias populacionais são iguais;

• Estimativa "entre"da variância é sensível às diferenças das médias populacionais.

• Desvio padrão da distribuição amostral é:

– σx = σx√n

• σx => desvio padrão da população

• n = tamanho da amostra

• Não conhecemos o desvio padrão da distribuição amostral, neste caso, usa-se o desviopadrão da distribuição da qual se extraiu a amostra;

• A determinação da variância das médias amostrais possibilita estimar a variância da dis-tribuição da qual se extraiu a amostra.

– S2x =

S2b

n

• Estimativa "entre"da variância (Sb): Veja Tabela 1 página 2

• Calcular a média das médias amostrais:

– x =∑k

j=1 xj = 15,2 + 15,0 + 15,4 + 15,64

= 15, 3

• Calcular S2x

– S2x =

∑kj=1(xj−x)2

k−1= (15,2−15,3)2+(15,0−15,3)2+(15,4−15,3)2+(15,6−15,3)2

4−1= 0, 067

• Sendo n o número de amostras (observações) teremos:

– S2b = ns2

x = 6(0, 067) = 0, 402

• Comparando com a variância "dentro":

– S2w = 0, 071

• S2b > S2

w

– 0, 402 > 0, 071

• Temos então 2 estimativas da variância populacional.

– Se H0 é verdadeira S2b∼= S2

w

– Se H0 é falsa S2b > S2

w

4

Figura 1: Teste de hipótese

• No nosso exemplo sabemos que Sb é maior, mas não sabemos se é significativamentemaior (a variação casual devida a amostragem pode ser responsável por isso).

• Calculemos então a razão F : RazãoF =S2

b

S2w

• O valor obtido com a estatística é comparado com uma tabela de valores F

• As formas da distribuição F variam de acordo com os graus de liberdade do numerador edenominador. Ver Figura 2

Figura 2: Grau de liberdade do numerador e denominador

• Os graus de liberdade são calculados como:

– Numerador: número de amostras menos 1 (k − 1)

– Denominador: número de amostras x (tamanho da amostra -1) {k[n− 1]}– Exemplo: (k−1)

{k[n−1]} = 4−14(6−1)

= 320

• Utilização da tabela F

– Representam a linha divisória entre o aleatório e o não aleatório;

– Compara-se a razão F calculada com o valor tabelado

– Se o valor calculado for maior que o tabelado rejeitasse a hipótese nula. Ver Figura3

5

Figura 3: Rejeitando a hipótese nula

Figura 4: Maior que o tabulado

• Lembrando . . . F =S2

b

S2w

= 0,4020,071

= 5, 661 ≈ 5, 70

• Este valor é maior que o tabulado => rejeita-se H0. Ver Figura 4

• Atualmente os programas estatísticos fornecem diretamente o valor p

Tabela 3: FontesFonte de variação Soma de quadrados G.L. Variância Razão Fentre médias n

∑kj=1(xj − x)2 ÷ k − 1 = S2

b F = S2x

S2w

dentro de amostras ÷ k(n− 1) = S2w

Total kn− 1k = número de amos-trasn = número de obser-vações em cada amos-trank = número total deobservaçõesNota: i se refere às linhas, e j às colunas

1.1 Utilizando MatlabUtilizaremos o software Matlab 6.5 para gerar os resultados de nosso exemplo.

6

Tabela 4: Exemplo de tabela amostralAmostra

Observações 1 2 3 . . .n1 x1 x1 x1 . . . x1

n2 x2 x2 x2 . . . x2

n3 x3 x3 x3 . . . x3

n4...

......

...n5

n6 xn xn xn . . . xn

Médias Amostrais x1 x2 x3 . . . xk

Exemplo 1 – Código Entrada e Saída MatLab1 %Valores de Entrada2 X=[15.1,14.9,15.4,15.6; 15.0,15.2,15.2,15.5;3 14.9,14.9,16.1,15.8; 15.7,14.8,15.3,15.3;4 15.4,14.9,15.2,15.7; 15.1,15.3,15.2,15.7]5 p = anova1(X)6

7

8 %Valores de Saída9

10 X =11

12 15.1000 14.9000 15.4000 15.600013 15.0000 15.2000 15.2000 15.500014 14.9000 14.9000 16.1000 15.800015 15.7000 14.8000 15.3000 15.300016 15.4000 14.9000 15.2000 15.700017 15.1000 15.3000 15.2000 15.700018

19

20 p =21

22 0.005823

24 >>

Resultado produzido no MatLab:

7

(a) Execução de resultados

1 2 3 4

14.8

15

15.2

15.4

15.6

15.8

16

Val

ues

Column Number

(b) Plotagem do gráfico

Figura 5: Resultado da execução juntamente com o gráfico

8

ReferênciasFREUND, J. E.; SIMON, G. A. Estatística Aplicada: economia, administração e contabili-

dade. 9.ed. Porto Alegre: Bookman, 1997.

HAIR, J. F.; ANDERSON, R. E.; TATHAM, R. L.; BLACK, W. C. Multivariate Data Analsys.5.ed. New Jersey-USA: Prentice-Hall, 1998.

MANLY, B. J. F. Métodos Estatísticos Multivariados: uma introdução. 3.ed. Porto Alegre:Bookman, 2005.

RENCHER, A. C. Methods of Multivariate Analysis. 2.ed. Nova York: John Wiley & Sons,Inc, 2002.

STEVENSON, W. J. Estatística: aplicada à administração. 1.ed. São Paulo: HARBRA, 2001.