Como interpretar coeficientes de regressão


Em estatística, a análise de regressão é uma técnica que pode ser usada para analisar a relação entre variáveis preditoras e uma variável de resposta.

Ao usar software (como R , Stata , SPSS , etc.) para realizar análises de regressão, você receberá como saída uma tabela de regressão resumindo os resultados da regressão.

Provavelmente os números mais importantes no resultado da tabela de regressão são os coeficientes de regressão . No entanto, apesar da sua importância, muitas pessoas lutam para interpretar corretamente estes números.

Este tutorial apresenta um exemplo de análise de regressão e fornece uma explicação detalhada de como interpretar os coeficientes de regressão resultantes da regressão.

Relacionado: Como ler e interpretar uma tabela de regressão inteira

Um exemplo de análise de regressão

Suponha que queiramos realizar uma análise de regressão usando as seguintes variáveis:

Variáveis preditoras

  • Número total de horas estudadas ( variável contínua – entre 0 e 20 )
  • Se o aluno utilizou ou não tutor ( variável categórica – “sim” ou “não” )

Resposta variável

  • Nota do exame (variável contínua – entre 1 e 100 )

Queremos examinar a relação entre as variáveis preditoras e a variável resposta para ver se as horas estudadas e se um aluno usou ou não um tutor realmente têm um impacto significativo na nota do exame.

Suponha que realizemos uma análise de regressão e obtenhamos o seguinte resultado:

Prazo Coeficiente Erro padrão Estatísticas Valor P
Interceptar 48,56 14h32 3,39 0,002
Horas estudadas 2.03 0,67 3.03 0,009
Tutor 8.34 5,68 1,47 0,138

Vamos ver como interpretar cada coeficiente de regressão.

Interpretação da interceptação

O termo original em uma tabela de regressão nos informa o valor médio esperado para a variável resposta quando todas as variáveis preditoras são iguais a zero.

Neste exemplo, o coeficiente de regressão para a origem é igual a 48,56 . Isso significa que para um aluno que estudou zero horas ( Horas estudadas = 0) e não utilizou tutor ( Tutor = 0), a nota média esperada no exame é 48,56.

É importante notar que o coeficiente de regressão para o intercepto só é significativo se for razoável que todas as variáveis preditoras no modelo possam realmente ser iguais a zero. Neste exemplo, certamente é possível que um aluno tenha estudado zero horas ( Horas estudadas = 0) e também não tenha utilizado tutor ( Tutor = 0). Assim, a interpretação do coeficiente de regressão do intercepto é significativa neste exemplo.

Em alguns casos, contudo, o coeficiente de regressão para o intercepto não é significativo. Por exemplo, suponha que realizamos uma análise de regressão usando a metragem quadrada como variável preditora e o valor da casa como variável de resposta.

Na tabela de regressão de saída, o coeficiente de regressão para o termo original não teria uma interpretação significativa, uma vez que a metragem quadrada de uma casa nunca pode ser igual a zero. Neste caso, o coeficiente de regressão do termo original simplesmente ancora a linha de regressão no lugar certo.

Interpretando o coeficiente de uma variável preditora contínua

Para uma variável preditora contínua, o coeficiente de regressão representa a diferença entre o valor previsto da variável de resposta para cada mudança de uma unidade na variável preditora, assumindo que todas as outras variáveis preditoras permanecem constantes.

Neste exemplo, horas estudadas é uma variável preditora contínua que varia de 0 a 20 horas. Em alguns casos, um aluno estudou apenas zero horas e em outros casos, um aluno estudou até 20 horas.

Pelo resultado da regressão, podemos perceber que o coeficiente de regressão para as horas estudadas é 2,03 . Isto significa que, em média, cada hora adicional estudada está associada a um acréscimo de 2,03 valores no exame final, assumindo que a variável preditora Tutor se mantém constante.

Por exemplo, considere o aluno A que estuda 10 horas e usa um tutor. Considere também o Aluno B que estuda 11 horas e também utiliza tutor. De acordo com nossos resultados de regressão, espera-se que o Aluno B obtenha uma pontuação 2,03 pontos a mais no exame do que o Aluno A.

O valor p da tabela de regressão nos diz se esse coeficiente de regressão é realmente estatisticamente significativo ou não. Podemos observar que o valor p para as horas estudadas é 0,009 , o que é estatisticamente significativo em um nível alfa de 0,05.

Nota: O nível alfa deve ser escolhido antes de realizar a análise de regressão – as escolhas comuns para o nível alfa são 0,01, 0,05 e 0,10.

Artigo relacionado: Uma explicação dos valores P e sua significância estatística

Interpretando o coeficiente de uma variável preditora categórica

Para uma variável preditora categórica, o coeficiente de regressão representa a diferença no valor previsto da variável resposta entre a categoria para a qual a variável preditora = 0 e a categoria para a qual a variável preditora = 1.

Neste exemplo, Tutor é uma variável preditora categórica que pode assumir dois valores diferentes:

  • 1 = o aluno usou um tutor para se preparar para o exame
  • 0 = o aluno não utilizou tutor para se preparar para o exame

A partir do resultado da regressão, podemos ver que o coeficiente de regressão para Tutor é 8,34 . Isso significa que, em média, um aluno que utilizou tutor obteve 8,34 pontos a mais no exame do que um aluno que não utilizou tutor, assumindo que a variável preditora Horas estudadas permanece constante.

Por exemplo, considere o aluno A que estuda 10 horas e usa um tutor. Considere também o Aluno B que estuda 10 horas e não utiliza tutor. De acordo com nossos resultados de regressão, espera-se que o Aluno A tenha uma nota no exame 8,34 pontos maior que o Aluno B.

O valor p da tabela de regressão nos diz se esse coeficiente de regressão é realmente estatisticamente significativo ou não. Podemos ver que o valor p para Tutor é 0,138 , o que não é estatisticamente significativo em um nível alfa de 0,05. Isso indica que embora os alunos que utilizaram tutor tenham tido melhor desempenho no exame, essa diferença pode ser devida ao acaso.

Interprete todos os coeficientes de uma vez

Podemos usar todos os coeficientes da tabela de regressão para criar a seguinte equação de regressão estimada:

Nota esperada no exame = 48,56 + 2,03*(Horas estudadas) + 8,34*(Tutor)

Nota : Lembre-se de que a variável preditora “Tutor” não foi estatisticamente significativa no nível alfa de 0,05, portanto você pode optar por remover esse preditor do modelo e não utilizá-lo na estimativa final da equação de regressão.

Usando esta equação de regressão estimada, podemos prever a nota do exame final de um aluno com base no número total de horas de estudo e se ele utilizou ou não um tutor.

Por exemplo, um aluno que estudou 10 horas e utilizou um tutor deve receber uma nota no exame de:

Nota esperada do exame = 48,56 + 2,03*(10) + 8,34*(1) = 77,2

Levando em consideração a correlação ao interpretar os coeficientes de regressão

É importante ter em mente que as variáveis preditoras podem influenciar umas às outras em um modelo de regressão. Por exemplo, a maioria das variáveis preditoras estarão pelo menos um pouco relacionadas entre si (por exemplo, um aluno que estuda mais também tem maior probabilidade de usar um tutor).

Isto significa que os coeficientes de regressão mudarão quando diferentes variáveis preditoras forem adicionadas ou removidas do modelo.

Uma boa maneira de verificar se a correlação entre as variáveis preditoras é suficientemente grave para influenciar seriamente o modelo de regressão é verificar o VIF entre as variáveis preditoras .

Isto lhe dirá se a correlação entre as variáveis preditoras é ou não um problema que precisa ser resolvido antes de decidir interpretar os coeficientes de regressão.

Se você executar um modelo de regressão linear simples com um único preditor, as variáveis preditoras correlacionadas não serão um problema.

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *