Qual é a suposição de normalidade nas estatísticas?
Muitos testes estatísticos baseiam-se no que é chamado de suposição de normalidade .
Esta hipótese afirma que se coletarmos muitas amostras aleatórias independentes de uma população e calcularmos um valor de interesse (como a média amostral ) e, em seguida, criarmos um histograma para visualizar a distribuição das médias amostrais, devemos observar uma curva em sino perfeita.
Muitas técnicas estatísticas fazem essa suposição sobre os dados, incluindo:
1. Teste t de uma amostra : assume-se que os dados da amostra são normalmente distribuídos.
2. Teste t de duas amostras : assume-se que as duas amostras são normalmente distribuídas.
3. ANOVA : Assume-se que os resíduos do modelo são normalmente distribuídos.
4. Regressão linear : assume-se que os resíduos do modelo são normalmente distribuídos.
Se esta suposição não for satisfeita, os resultados destes testes tornam-se pouco fiáveis e não seremos capazes de generalizar com segurança as nossas conclusões tiradas das amostras de dados para a população em geral. É por isso que é importante verificar se esta hipótese é atendida.
Existem duas maneiras comuns de verificar se essa suposição de normalidade é atendida:
1. Visualize a normalidade
2. Realize um teste estatístico formal
As seções a seguir explicam os gráficos específicos que você pode criar e os testes estatísticos específicos que você pode realizar para verificar a normalidade.
Visualize a normalidade
Uma maneira rápida e informal de verificar se um conjunto de dados tem distribuição normal é criar um histograma ou gráfico QQ.
1. Histograma
Se o histograma de um conjunto de dados tiver aproximadamente o formato de um sino, é provável que os dados sejam distribuídos normalmente.
2. QQTerra
Um gráfico QQ, abreviação de “quantil-quantil”, é um tipo de gráfico que exibe quantis teóricos ao longo do eixo x (ou seja, onde seus dados estariam se seguissem uma distribuição normal) e quantis de amostras ao longo do eixo y. (ou seja, onde seus dados realmente residem).
Se os valores dos dados seguirem uma linha aproximadamente reta formando um ângulo de 45 graus, então os dados serão considerados normalmente distribuídos.
Realize um teste estatístico formal
Você também pode realizar um teste estatístico formal para determinar se um conjunto de dados é normalmente distribuído.
Se o valor p do teste estiver abaixo de um certo nível de significância (como α = 0,05), então você tem evidências suficientes para dizer que os dados não são normalmente distribuídos.
Existem três testes estatísticos comumente usados para testar a normalidade:
1. O teste Jarque-Bera
- Como realizar um teste Jarque-Bera no Excel
- Como realizar um teste Jarque-Bera em R
- Como realizar um teste Jarque-Bera em Python
2. O teste de Shapiro-Wilk
3. O teste Kolmogorov-Smirnov
- Como realizar um teste Kolmogorov-Smirnov no Excel
- Como realizar um teste de Kolmogorov-Smirnov em R
- Como realizar um teste Kolmogorov-Smirnov em Python
O que fazer se a suposição de normalidade for violada
Se descobrir que seus dados não estão distribuídos normalmente, você tem duas opções:
1. Transforme os dados.
Uma opção é simplesmente transformar os dados para torná-los distribuídos de forma mais normal. As transformações comuns incluem:
- Transformação de log: transforma dados de y em log(y) .
- Transformação de raiz quadrada: transforme dados de y em √y
- Transformação de raiz cúbica: transforme dados de y em y 1/3
- Transformação Box-Cox: Transforme dados usando um procedimento Box-Cox
Ao realizar essas transformações, a distribuição dos valores dos dados geralmente se torna mais normalmente distribuída.
2. Realize um teste não paramétrico
Os testes estatísticos que fazem a suposição de normalidade são chamados de testes paramétricos . Mas há também uma família dos chamados testes não paramétricos que não fazem esta suposição de normalidade.
Se descobrir que seus dados não estão distribuídos normalmente, você pode simplesmente realizar um teste não paramétrico. Aqui estão algumas versões não paramétricas de testes estatísticos comuns:
Teste paramétrico | Equivalente não paramétrico |
---|---|
Um teste t de amostra | Um exemplo de teste de classificação assinada de Wilcoxon |
Teste t de duas amostras | Teste U de Mann-Whitney |
Teste t de amostras pareadas | Duas amostras de teste de classificação sinalizada de Wilcoxon |
ANOVA unidirecional | Teste de Kruskal-Wallis |
Cada um destes testes não paramétricos permite realizar um teste estatístico sem satisfazer o pressuposto de normalidade.
Recursos adicionais
As quatro hipóteses formuladas em um teste T
As quatro suposições da regressão linear
As quatro hipóteses da ANOVA