Como interpretar valores p em regressão linear (com exemplo)


Em estatística, modelos de regressão linear são usados para quantificar a relação entre uma ou mais variáveis preditoras e uma variável de resposta .

Cada vez que você realizar uma análise de regressão usando software estatístico, receberá uma tabela de regressão que resume os resultados do modelo.

Dois dos valores mais importantes em uma tabela de regressão são os coeficientes de regressão e seus valores p correspondentes.

Os valores p informam se existe ou não uma relação estatisticamente significativa entre cada variável preditora e a variável de resposta.

O exemplo a seguir mostra como interpretar os valores p de um modelo de regressão linear múltipla na prática.

Exemplo: Interpretando Valores P em um Modelo de Regressão

Suponha que queiramos ajustar um modelo de regressão usando as seguintes variáveis:

Variáveis preditoras

  • Número total de horas estudadas (entre 0 e 20)
  • Se o aluno utilizou ou não um tutor (sim ou não)

Resposta variável

  • Nota do exame (entre 0 e 100)

Queremos examinar a relação entre as variáveis preditoras e a variável resposta para descobrir se as horas de estudo e de tutoria realmente têm um impacto significativo nas notas dos exames.

Suponha que realizemos uma análise de regressão e obtenhamos o seguinte resultado:

Prazo Coeficiente Erro padrão Estatísticas Valor P
Interceptar 48,56 14h32 3,39 0,002
Horas estudadas 2.03 0,67 3.03 0,009
Tutor 8.34 5,68 1,47 0,138

Veja como interpretar o resultado de cada termo do modelo:

Interpretação do valor P para interceptação

O termo original em uma tabela de regressão nos informa o valor médio esperado para a variável de resposta quando todas as variáveis preditoras são iguais a zero.

Neste exemplo, o coeficiente de regressão para a origem é igual a 48,56 . Isso significa que para um aluno que estudou zero horas , a nota média esperada no exame é 48,56.

O valor p é 0,002 , o que nos diz que o termo original é estatisticamente diferente de zero.

Na prática, geralmente não nos importamos com o valor p do termo original. Mesmo que o valor p não esteja abaixo de um certo nível de significância (por exemplo, 0,05), ainda assim manteríamos o termo original no modelo.

Interpretando o valor P para uma variável preditora contínua

Neste exemplo, horas estudadas é uma variável preditora contínua que varia de 0 a 20 horas.

Pelo resultado da regressão, podemos perceber que o coeficiente de regressão para as horas estudadas é 2,03 . Isto significa que, em média, cada hora adicional estudada está associada a um acréscimo de 2,03 valores no exame final, assumindo que a variável preditora Tutor se mantém constante.

Por exemplo, considere o aluno A que estuda 10 horas e usa um tutor. Considere também o Aluno B que estuda 11 horas e também utiliza tutor. De acordo com nossos resultados de regressão, espera-se que o Aluno B obtenha uma pontuação 2,03 pontos a mais no exame do que o Aluno A.

O valor p correspondente é 0,009 , que é estatisticamente significativo em um nível alfa de 0,05.

Isto nos diz que a variação média nas notas dos exames para cada hora adicional estudada é estatisticamente significativamente diferente de zero .

Ou seja: as horas estudadas têm relação estatisticamente significativa com a variável resposta nota do exame .

Interpretando o valor P para uma variável preditora categórica

Neste exemplo, Tutor é uma variável preditora categórica que pode assumir dois valores diferentes:

  • 1 = o aluno usou um tutor para se preparar para o exame
  • 0 = o aluno não utilizou tutor para se preparar para o exame

A partir do resultado da regressão, podemos ver que o coeficiente de regressão para Tutor é 8,34 . Isso significa que, em média, um aluno que utilizou tutor obteve 8,34 pontos a mais no exame do que um aluno que não utilizou tutor, assumindo que a variável preditora Horas estudadas permanece constante.

Por exemplo, considere o aluno A que estuda 10 horas e usa um tutor. Considere também o Aluno B que estuda 10 horas e não utiliza tutor. De acordo com nossos resultados de regressão, espera-se que o Aluno A tenha uma nota no exame 8,34 pontos maior que o Aluno B.

O valor p correspondente é 0,138 , o que não é estatisticamente significativo em um nível alfa de 0,05.

Isto nos diz que a variação média nas notas dos exames para cada hora adicional estudada não é estatisticamente significativamente diferente de zero .

Outra forma de colocar isso: a variável preditora Tutor não tem relação estatisticamente significativa com a variável resposta da nota do exame .

Isso indica que embora os alunos que utilizaram tutor tenham tido melhor desempenho no exame, essa diferença pode ser devido à sorte.

Recursos adicionais

Os tutoriais a seguir fornecem informações adicionais sobre regressão linear:

Como interpretar o teste F para significância geral na regressão
As cinco suposições da regressão linear múltipla
Compreendendo o teste t em regressão linear

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *