Um guia simples para compreender o teste f de significância geral na regressão


Este tutorial explica como identificar a estatística F na saída de uma tabela de regressão, bem como interpretar essa estatística e seu valor p correspondente.

Compreendendo o teste F de significância geral

O teste F para significância geral na regressão é um teste para determinar se o seu modelo de regressão linear fornece ou não um melhor ajuste a um conjunto de dados do que um modelo sem variáveis preditoras.

O teste F de significância geral é baseado nas duas suposições a seguir:

Hipótese nula ( H0 ): O modelo sem variáveis preditoras (também chamado de modelo somente interceptação ) ajusta os dados tão bem quanto o seu modelo de regressão.

Hipótese alternativa ( HA ): Seu modelo de regressão se ajusta melhor aos dados do que o modelo somente de interceptação.

Ao ajustar um modelo de regressão a um conjunto de dados, você receberá uma tabela de regressão como saída, que informará a estatística F junto com o valor p correspondente para essa estatística F.

Se o valor p for menor que o nível de significância escolhido ( as opções comuns são 0,01, 0,05 e 0,10 ), você terá evidências suficientes para concluir que seu modelo de regressão se ajusta aos dados apenas como o modelo original. modelo.

Exemplo: teste F em regressão

Suponha que temos o seguinte conjunto de dados que mostra o número total de horas estudadas, o número total de exames preparatórios realizados e a nota do exame final para 12 alunos diferentes:

Para analisar a relação entre as horas estudadas e os exames preparatórios realizados com a nota do exame final obtida pelo aluno, realizamos uma regressão linear múltipla utilizando as horas estudadas e os exames preparatórios realizados como variáveis preditoras e a nota final em exame como variável resposta.

Recebemos o seguinte resultado:

A partir desses resultados, focaremos na estatística F fornecida na tabela ANOVA, bem como no valor p dessa estatística F, que é rotulada como Significância F na tabela. Escolheremos 0,05 como nível de significância.

Estatística F: 5,090515

Valor P: 0,0332

Nota técnica: A estatística F é calculada como a regressão MS dividida pelo resíduo MS. Neste caso, regressão MS / resíduo MS = 273,2665 / 53,68151 = 5,090515 .

Como o valor p está abaixo do nível de significância, podemos concluir que nosso modelo de regressão se ajusta melhor aos dados do que o modelo apenas de interceptação.

No contexto deste problema específico, isso significa que usar nossas variáveis preditoras de Horas de Estudo e Exames Preparatórios no modelo nos permite ajustar os dados melhor do que se os deixássemos de fora e simplesmente usássemos o modelo de interceptação de forma exclusiva.

Notas sobre a interpretação do teste F de significância geral

Em geral, se nenhuma das suas variáveis preditoras for estatisticamente significativa, o teste F geral também não será estatisticamente significativo.

No entanto, este pode não ser o caso em alguns casos, porque o teste F para significância global testa se todas as variáveis preditoras são conjuntamente significativas, enquanto o teste T para significância para cada variável preditora individual simplesmente testa se cada variável preditiva é significativa. individualmente significativo.

Assim, o teste F determina se todas as variáveis preditoras são conjuntamente significativas ou não.

É possível que cada variável preditora não seja significativa e ainda assim o teste F indica que todas as variáveis preditoras combinadas são conjuntamente significativas.

Nota técnica: Em geral, quanto mais variáveis preditoras você tiver no modelo, maior será a probabilidade de que a estatística F e o valor p correspondente sejam estatisticamente significativos.

Outra métrica que você provavelmente verá na saída de uma regressão é R-squared , que mede a força do relacionamento linear entre as variáveis preditoras e a variável de resposta é outra.

Embora o R-quadrado possa dar uma ideia de até que ponto as variáveis preditoras estão fortemente associadas à variável resposta, ele não fornece um teste estatístico formal para esse relacionamento.

É por isso que o Teste F é útil, pois é um teste estatístico formal. Além disso, se o teste F geral for significativo, você poderá concluir que R-quadrado não é zero e que a correlação entre a(s) variável(ões) preditora(s) e a variável de resposta é estatisticamente significativa.

Recursos adicionais

Os tutoriais a seguir explicam como interpretar outros valores comuns em modelos de regressão:

Como ler e interpretar uma tabela de regressão
Compreendendo o erro padrão da regressão
O que é um bom valor de R ao quadrado?

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *