Como interpretar a saída da regressão em r


Para ajustar um modelo de regressão linear em R, podemos usar o comando lm() .

Para exibir a saída do modelo de regressão, podemos então usar o comando summary() .

Este tutorial explica como interpretar cada valor da saída da regressão em R.

Exemplo: Interpretando a saída de regressão em R

O código a seguir mostra como ajustar um modelo de regressão linear múltipla com o conjunto de dados mtcars integrado usando hp , drat e wt como variáveis preditoras e mpg como variável de resposta:

 #fit regression model using hp, drat, and wt as predictors
model <- lm(mpg ~ hp + drat + wt, data = mtcars)

#view model summary
summary(model)

Call:
lm(formula = mpg ~ hp + drat + wt, data = mtcars)

Residuals:
    Min 1Q Median 3Q Max 
-3.3598 -1.8374 -0.5099 0.9681 5.7078 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 29.394934 6.156303 4.775 5.13e-05 ***
hp -0.032230 0.008925 -3.611 0.001178 ** 
drat 1.615049 1.226983 1.316 0.198755    
wt -3.227954 0.796398 -4.053 0.000364 ***
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.561 on 28 degrees of freedom
Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 
F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11

Veja como interpretar cada valor na saída:

Chamar

 Call:
lm(formula = mpg ~ hp + drat + wt, data = mtcars)

Esta seção nos lembra a fórmula que usamos em nosso modelo de regressão. Podemos ver que usamos mpg como variável de resposta e hp , drat e wt como variáveis preditoras. Cada variável veio do conjunto de dados chamado mtcars .

Resíduos

 Residuals:
    Min 1Q Median 3Q Max 
-3.3598 -1.8374 -0.5099 0.9681 5.7078 

Esta seção exibe um resumo da distribuição dos resíduos do modelo de regressão. Lembre-se de que um resíduo é a diferença entre o valor observado e o valor previsto do modelo de regressão.

O resíduo mínimo foi -3,3598 , o resíduo mediano foi -0,5099 e o resíduo máximo foi 5,7078 .

Coeficientes

 Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 29.394934 6.156303 4.775 5.13e-05 ***
hp -0.032230 0.008925 -3.611 0.001178 ** 
drat 1.615049 1.226983 1.316 0.198755    
wt -3.227954 0.796398 -4.053 0.000364 ***

---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Esta seção exibe os coeficientes estimados do modelo de regressão. Podemos usar esses coeficientes para formar a seguinte equação de regressão estimada:

mpg = 29,39 – 0,03*hp + 1,62*drat – 3,23*peso

Para cada variável preditora, recebemos os seguintes valores:

Estimativa: o coeficiente estimado. Isto nos diz o aumento médio na variável de resposta associado a um aumento de uma unidade na variável preditora, assumindo que todas as outras variáveis preditoras permanecem constantes.

Padrão. Erro : Este é o erro padrão do coeficiente. Esta é uma medida da incerteza da nossa estimativa do coeficiente.

Valor t: Esta é a estatística t para a variável preditora, calculada como (Estimativa) / (Erro padrão).

Pr(>|t|): Este é o valor p que corresponde à estatística t. Se este valor estiver abaixo de um determinado nível alfa (por exemplo 0,05), a variável preditiva é considerada estatisticamente significativa.

Se utilizássemos um nível alfa de α = 0,05 para determinar quais preditores foram significativos neste modelo de regressão, diríamos que hp e wt são preditores estatisticamente significativos, enquanto drat não é.

Avaliação da adequação do modelo

 Residual standard error: 2.561 on 28 degrees of freedom
Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 
F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11

Esta seção final exibe vários números que nos ajudam a avaliar até que ponto o modelo de regressão se ajusta ao nosso conjunto de dados.

Erro padrão residual: indica a distância média entre os valores observados e a linha de regressão. Quanto menor o valor, melhor o modelo de regressão será capaz de ajustar os dados.

Os graus de liberdade são calculados como nk-1 onde n = número total de observações e k = número de preditores. Neste exemplo, mtcars tem 32 observações e usamos 3 preditores no modelo de regressão, então os graus de liberdade são 32 – 3 – 1 = 28.

Múltiplo R-quadrado: Isso é chamado de coeficiente de determinação. Diz-nos quanto da variância na variável de resposta pode ser explicada pelas variáveis preditoras.

Este valor varia de 0 a 1. Quanto mais próximo de 1, mais as variáveis preditoras são capazes de prever o valor da variável resposta.

R-quadrado ajustado: Esta é uma versão modificada do R-quadrado que foi ajustada com base no número de preditores no modelo. É sempre menor que R ao quadrado.

O R-quadrado ajustado pode ser útil para comparar o ajuste de diferentes modelos de regressão que usam diferentes números de variáveis preditoras.

Estatística F: Indica se o modelo de regressão fornece um melhor ajuste aos dados do que um modelo que não contém variáveis independentes. Essencialmente, testa se o modelo de regressão como um todo é útil.

Valor p: Este é o valor p que corresponde à estatística F. Se este valor estiver abaixo de um certo nível de significância (por exemplo, 0,05), então o modelo de regressão ajusta melhor os dados do que um modelo sem preditores.

Ao construir modelos de regressão, esperamos que esse valor p esteja abaixo de um certo nível de significância, pois indica que as variáveis preditoras são realmente úteis na previsão do valor da variável resposta.

Recursos adicionais

Como realizar regressão linear simples em R
Como realizar regressão linear múltipla em R
O que é um bom valor de R ao quadrado?

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *