Como calcular o intervalo de confiança para o coeficiente de regressão em r


Num modelo de regressão linear, um coeficiente de regressão indica-nos a alteração média na variável de resposta associada a um aumento de uma unidade na variável preditora.

Podemos usar a seguinte fórmula para calcular um intervalo de confiança para um coeficiente de regressão:

Intervalo de confiança para β 1 : b 1 ± t 1-α/2, n-2 * se(b 1 )

Ouro:

  •   b 1 = Coeficiente de regressão mostrado na tabela de regressão
  • t 1-∝/2, n-2 = O valor t crítico para o nível de confiança 1-∝ com n-2 graus de liberdade, onde n é o número total de observações em nosso conjunto de dados
  • se(b 1 ) = O erro padrão de b 1 mostrado na tabela de regressão

O exemplo a seguir mostra como calcular um intervalo de confiança para uma inclinação de regressão na prática.

Exemplo: Intervalo de confiança para coeficiente de regressão em R

Suponha que queiramos ajustar um modelo de regressão linear simples usando horas estudadas como variável preditora e notas em exames como variável resposta para 15 alunos em uma turma específica:

Podemos usar a função lm() para ajustar este modelo de regressão linear simples em R:

 #create data frame
df <- data. frame (hours=c(1, 2, 4, 5, 5, 6, 6, 7, 8, 10, 11, 11, 12, 12, 14),
                 score=c(64, 66, 76, 73, 74, 81, 83, 82, 80, 88, 84, 82, 91, 93, 89))

#fit linear regression model
fit <- lm(score ~ hours, data=df)

#view model summary
summary(fit)

Call:
lm(formula = score ~ hours, data = df)

Residuals:
   Min 1Q Median 3Q Max 
-5,140 -3,219 -1,193 2,816 5,772 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 65,334 2,106 31,023 1.41e-13 ***
hours 1.982 0.248 7.995 2.25e-06 ***
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.641 on 13 degrees of freedom
Multiple R-squared: 0.831, Adjusted R-squared: 0.818 
F-statistic: 63.91 on 1 and 13 DF, p-value: 2.253e-06

Usando as estimativas dos coeficientes no resultado, podemos escrever o modelo de regressão linear simples ajustado da seguinte forma:

Pontuação = 65,334 + 1,982*(Horas estudadas)

Observe que o coeficiente de regressão para horas é 1,982 .

Isso nos diz que cada hora adicional de estudo gasta está associada a um aumento médio de 1.982 na pontuação do exame.

Podemos usar a função confint() para calcular um intervalo de confiança de 95% para o coeficiente de regressão:

 #calculate confidence interval for regression coefficient for 'hours'
confint(fit, ' hours ', level= 0.95 )

         2.5% 97.5%
hours 1.446682 2.518068

O intervalo de confiança de 95% para o coeficiente de regressão é [1,446, 2,518] .

Como este intervalo de confiança não contém o valor 0, podemos concluir que existe uma associação estatisticamente significativa entre as horas estudadas e a nota do exame.

Também podemos confirmar que isto está correto calculando manualmente o intervalo de confiança de 95% para o coeficiente de regressão:

  • IC de 95% para β 1 : b 1 ± t 1-α/2, n-2 * se(b 1 )
  • IC de 95% para β 1 : 1,982 ± t 0,975, 15-2 * 0,248
  • IC 95% para β 1 : 1,982 ± 2,1604 * 0,248
  • IC de 95% para β 1 : [1,446, 2,518]

O intervalo de confiança de 95% para o coeficiente de regressão é [1,446, 2,518] .

Nota nº 1 : Usamos a calculadora de distribuição t inversa para encontrar o valor t crítico que corresponde a um nível de confiança de 95% com 13 graus de liberdade.

Nota #2 : Para calcular um intervalo de confiança com um nível de confiança diferente, simplesmente altere o valor do argumento de nível na função confint() .

Recursos adicionais

Os tutoriais a seguir fornecem informações adicionais sobre regressão linear em R:

Como interpretar a saída da regressão em R
Como realizar regressão linear simples em R
Como realizar regressão linear múltipla em R
Como realizar regressão logística em R

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *