Compreendendo a hipótese nula para regressão linear
A regressão linear é uma técnica que podemos usar para compreender a relação entre uma ou mais variáveis preditoras e uma variável de resposta .
Se tivermos apenas uma variável preditora e uma variável resposta, podemos usar a regressão linear simples , que utiliza a seguinte fórmula para estimar a relação entre as variáveis:
ŷ = β 0 + β 1 x
Ouro:
- ŷ: O valor estimado da resposta.
- β 0 : O valor médio de y quando x é zero.
- β 1 : A mudança média em y associada a um aumento de uma unidade em x.
- x: o valor da variável preditiva.
A regressão linear simples usa as seguintes hipóteses nulas e alternativas:
- H 0 : β 1 = 0
- HA : β 1 ≠ 0
A hipótese nula afirma que o coeficiente β 1 é igual a zero. Em outras palavras, não há relação estatisticamente significativa entre a variável preditora x e a variável resposta y.
A hipótese alternativa afirma que β 1 não é igual a zero. Em outras palavras, existe uma relação estatisticamente significativa entre x e y.
Se tivermos múltiplas variáveis preditoras e uma variável resposta, podemos usar regressão linear múltipla , que utiliza a seguinte fórmula para estimar a relação entre as variáveis:
ŷ = β 0 + β 1 x 1 + β 2 x 2 + … + β k x k
Ouro:
- ŷ: O valor estimado da resposta.
- β 0 : O valor médio de y quando todas as variáveis preditoras são iguais a zero.
- β i : A mudança média em y associada a um aumento de uma unidade em x i .
- x i : O valor da variável preditora x i .
A regressão linear múltipla usa as seguintes hipóteses nulas e alternativas:
- H 0 : β 1 = β 2 = … = β k = 0
- HA : β 1 = β 2 = … = β k ≠ 0
A hipótese nula afirma que todos os coeficientes do modelo são iguais a zero. Em outras palavras, nenhuma das variáveis preditoras possui uma relação estatisticamente significativa com a variável resposta y.
A hipótese alternativa afirma que nem todos os coeficientes são simultaneamente iguais a zero.
Os exemplos a seguir mostram como decidir se rejeita ou não a hipótese nula em modelos de regressão linear simples e de regressão linear múltipla.
Exemplo 1: Regressão linear simples
Suponha que um professor queira usar o número de horas estudadas para prever a nota do exame que os alunos de sua turma obterão. Recolhe dados de 20 alunos e ajusta-se a um modelo de regressão linear simples.
A captura de tela a seguir mostra o resultado do modelo de regressão:
O modelo de regressão linear simples ajustado é:
Nota do exame = 67,1617 + 5,2503*(horas estudadas)
Para determinar se existe uma relação estatisticamente significativa entre as horas estudadas e a nota do exame, precisamos analisar o valor F geral do modelo e o valor p correspondente:
- Valor F geral: 47,9952
- Valor P: 0,000
Como este valor p é inferior a 0,05, podemos rejeitar a hipótese nula. Em outras palavras, existe uma relação estatisticamente significativa entre as horas estudadas e as notas dos exames.
Exemplo 2: Regressão linear múltipla
Suponha que um professor queira usar o número de horas estudadas e o número de exames preparatórios realizados para prever a nota que os alunos obterão em sua turma. Coleta dados de 20 alunos e ajusta um modelo de regressão linear múltipla.
A captura de tela a seguir mostra o resultado do modelo de regressão:
O modelo de regressão linear múltipla ajustado é:
Nota do exame = 67,67 + 5,56*(horas estudadas) – 0,60*(exames preparatórios realizados)
Para determinar se existe uma relação estatisticamente significativa entre as duas variáveis preditoras e a variável resposta, precisamos analisar o valor F geral do modelo e o valor p correspondente:
- Valor F geral: 23,46
- Valor P: 0,00
Como este valor p é inferior a 0,05, podemos rejeitar a hipótese nula. Ou seja, as horas estudadas e os exames preparatórios realizados têm relação estatisticamente significativa com os resultados dos exames.
Nota: Embora o valor p dos exames preparatórios realizados (p = 0,52) não seja significativo, os exames preparatórios somados às horas estudadas apresentam relação significativa com os resultados dos exames.
Recursos adicionais
Compreendendo o teste F para significância geral na regressão
Como ler e interpretar uma tabela de regressão
Como relatar resultados de regressão
Como realizar regressão linear simples no Excel
Como realizar regressão linear múltipla no Excel