Um guia simples para compreender o teste f de significância geral na regressão
Este tutorial explica como identificar a estatística F na saída de uma tabela de regressão, bem como interpretar essa estatística e seu valor p correspondente.
Compreendendo o teste F de significância geral
O teste F para significância geral na regressão é um teste para determinar se o seu modelo de regressão linear fornece ou não um melhor ajuste a um conjunto de dados do que um modelo sem variáveis preditoras.
O teste F de significância geral é baseado nas duas suposições a seguir:
Hipótese nula ( H0 ): O modelo sem variáveis preditoras (também chamado de modelo somente interceptação ) ajusta os dados tão bem quanto o seu modelo de regressão.
Hipótese alternativa ( HA ): Seu modelo de regressão se ajusta melhor aos dados do que o modelo somente de interceptação.
Ao ajustar um modelo de regressão a um conjunto de dados, você receberá uma tabela de regressão como saída, que informará a estatística F junto com o valor p correspondente para essa estatística F.
Se o valor p for menor que o nível de significância escolhido ( as opções comuns são 0,01, 0,05 e 0,10 ), você terá evidências suficientes para concluir que seu modelo de regressão se ajusta aos dados apenas como o modelo original. modelo.
Exemplo: teste F em regressão
Suponha que temos o seguinte conjunto de dados que mostra o número total de horas estudadas, o número total de exames preparatórios realizados e a nota do exame final para 12 alunos diferentes:
Para analisar a relação entre as horas estudadas e os exames preparatórios realizados com a nota do exame final obtida pelo aluno, realizamos uma regressão linear múltipla utilizando as horas estudadas e os exames preparatórios realizados como variáveis preditoras e a nota final em exame como variável resposta.
Recebemos o seguinte resultado:
A partir desses resultados, focaremos na estatística F fornecida na tabela ANOVA, bem como no valor p dessa estatística F, que é rotulada como Significância F na tabela. Escolheremos 0,05 como nível de significância.
Estatística F: 5,090515
Valor P: 0,0332
Nota técnica: A estatística F é calculada como a regressão MS dividida pelo resíduo MS. Neste caso, regressão MS / resíduo MS = 273,2665 / 53,68151 = 5,090515 .
Como o valor p está abaixo do nível de significância, podemos concluir que nosso modelo de regressão se ajusta melhor aos dados do que o modelo apenas de interceptação.
No contexto deste problema específico, isso significa que usar nossas variáveis preditoras de Horas de Estudo e Exames Preparatórios no modelo nos permite ajustar os dados melhor do que se os deixássemos de fora e simplesmente usássemos o modelo de interceptação de forma exclusiva.
Notas sobre a interpretação do teste F de significância geral
Em geral, se nenhuma das suas variáveis preditoras for estatisticamente significativa, o teste F geral também não será estatisticamente significativo.
No entanto, este pode não ser o caso em alguns casos, porque o teste F para significância global testa se todas as variáveis preditoras são conjuntamente significativas, enquanto o teste T para significância para cada variável preditora individual simplesmente testa se cada variável preditiva é significativa. individualmente significativo.
Assim, o teste F determina se todas as variáveis preditoras são conjuntamente significativas ou não.
É possível que cada variável preditora não seja significativa e ainda assim o teste F indica que todas as variáveis preditoras combinadas são conjuntamente significativas.
Nota técnica: Em geral, quanto mais variáveis preditoras você tiver no modelo, maior será a probabilidade de que a estatística F e o valor p correspondente sejam estatisticamente significativos.
Outra métrica que você provavelmente verá na saída de uma regressão é R-squared , que mede a força do relacionamento linear entre as variáveis preditoras e a variável de resposta é outra.
Embora o R-quadrado possa dar uma ideia de até que ponto as variáveis preditoras estão fortemente associadas à variável resposta, ele não fornece um teste estatístico formal para esse relacionamento.
É por isso que o Teste F é útil, pois é um teste estatístico formal. Além disso, se o teste F geral for significativo, você poderá concluir que R-quadrado não é zero e que a correlação entre a(s) variável(ões) preditora(s) e a variável de resposta é estatisticamente significativa.
Recursos adicionais
Os tutoriais a seguir explicam como interpretar outros valores comuns em modelos de regressão:
Como ler e interpretar uma tabela de regressão
Compreendendo o erro padrão da regressão
O que é um bom valor de R ao quadrado?