Qual é a suposição de variância igual nas estatísticas?
Muitos testes estatísticos pressupõem variância igual . Se esta suposição não for respeitada, os resultados do teste tornam-se não confiáveis.
Os testes e procedimentos estatísticos mais comuns que fazem essa suposição de variância igual incluem:
1. ANOVA
2. testes t
3. Regressão linear
Este tutorial explica a suposição feita para cada teste, como determinar se essa suposição foi atendida e o que fazer se for violada.
Suposição de igualdade de variância na ANOVA
Uma ANOVA (“Análise de Variância”) é usada para determinar se há ou não uma diferença significativa entre as médias de três ou mais grupos independentes.
Aqui está um exemplo de quando poderíamos usar uma ANOVA:
Digamos que recrutamos 90 pessoas para participarem de um experimento de perda de peso. Designamos aleatoriamente 30 pessoas para usar o programa A, B ou C durante um mês.
Para ver se o programa tem impacto na perda de peso, podemos realizar uma ANOVA unidirecional .
Uma ANOVA assume que cada um dos grupos tem variância igual. Existem duas maneiras de testar se esta hipótese é verdadeira:
1. Crie gráficos de caixa.
Os boxplots fornecem uma maneira visual de verificar a suposição de igualdade de variâncias.
A variância na perda de peso em cada grupo pode ser observada pelo comprimento de cada boxplot. Quanto mais longa for a caixa, maior será a variância. Por exemplo, podemos ver que a variância é um pouco maior para os participantes do Programa C em comparação com o Programa A e o Programa B.
2. Realize o teste de Bartlett.
O teste de Bartlett testa a hipótese nula de que as amostras têm variâncias iguais contra a hipótese alternativa de que as amostras não têm variâncias iguais.
Se o valor p do teste estiver abaixo de um certo nível de significância (como 0,05), então temos evidências de que nem todas as amostras têm variâncias iguais.
O que acontece se a suposição de variância igual não for atendida?
Em geral, as ANOVAs são consideradas bastante robustas contra violações da suposição de variâncias iguais, desde que cada grupo tenha o mesmo tamanho de amostra.
No entanto, se os tamanhos amostrais não forem iguais e essa suposição for gravemente violada, você poderá executar um teste de Kruskal-Wallis , que é a versão não paramétrica da ANOVA unidirecional.
Suposição de variância igual em testes t
Um teste t de duas amostras é usado para testar se as médias de duas populações são iguais ou não.
O teste assume que as variâncias são iguais entre os dois grupos. Existem duas maneiras de testar se esta hipótese é verdadeira:
1. Use a regra prática da proporção.
Geralmente, se a razão entre a maior variância e a menor variância for menor que 4, então podemos assumir que as variâncias são aproximadamente iguais e usar o teste t de duas amostras.
Por exemplo, suponha que a amostra 1 tenha uma variância de 24,5 e a amostra 2 tenha uma variância de 15,2. A razão entre a maior variância amostral e a menor variância amostral seria calculada como: 24,5 / 15,2 = 1,61.
Sendo esta proporção inferior a 4, pode-se assumir que as diferenças entre os dois grupos são aproximadamente iguais.
2. Execute um teste F.
O teste F testa a hipótese nula de que as amostras têm variâncias iguais contra a hipótese alternativa de que as amostras não têm variâncias iguais.
Se o valor p do teste estiver abaixo de um certo nível de significância (como 0,05), então temos evidências de que nem todas as amostras têm variâncias iguais.
O que acontece se a suposição de variância igual não for atendida?
Se esta suposição for violada, então podemos realizar o teste t de Welch , que é uma versão não paramétrica do teste t de duas amostras e não pressupõe que as duas amostras tenham variâncias iguais.
Suposição de Igualdade de Variância na Regressão Linear
A regressão linear é usada para quantificar a relação entre uma ou mais variáveis preditoras e uma variável de resposta.
A regressão linear assume que os resíduos têm variância constante em cada nível da(s) variável(ões) preditora(s). Isso é chamado de homocedasticidade . Quando este não é o caso, os resíduos sofrem de heterocedasticidade e os resultados da análise de regressão tornam-se pouco confiáveis.
A maneira mais comum de determinar se essa suposição é atendida é criar um gráfico dos resíduos versus os valores ajustados. Se os resíduos neste gráfico parecem estar espalhados aleatoriamente em torno de zero, então a suposição de homocedasticidade provavelmente é atendida.
No entanto, se houver uma tendência sistemática nos resíduos, como o formato de “cone” no gráfico a seguir, então a heterocedasticidade é um problema:
O que acontece se a suposição de variância igual não for atendida?
Se esta suposição for violada, a maneira mais comum de resolver o problema é transformar a variável de resposta usando uma das três transformações:
1. Transformação de log: transforme a variável de resposta de y em log(y) .
2. Transformação de raiz quadrada: Transforme a variável de resposta de y em √y .
3. Transformação da raiz cúbica: transforme a variável de resposta de y em y 1/3 .
Ao realizar essas transformações, o problema da heterocedasticidade geralmente desaparece.
Outra maneira de corrigir a heterocedasticidade é usar a regressão de mínimos quadrados ponderados . Este tipo de regressão atribui um peso a cada ponto de dados com base na variância do seu valor ajustado.
Essencialmente, isso atribui pesos baixos aos pontos de dados que possuem variâncias mais altas, reduzindo seus quadrados residuais. Quando os pesos apropriados são usados, isso pode eliminar o problema da heterocedasticidade.
Recursos adicionais
As três hipóteses formuladas em uma ANOVA
As quatro hipóteses formuladas em um teste T
As quatro suposições da regressão linear