Как рассчитать доверительный интервал для коэффициента регрессии в r


В модели линейной регрессии коэффициент регрессии сообщает нам среднее изменение переменной ответа , связанное с увеличением на одну единицу переменной-предиктора.

Мы можем использовать следующую формулу для расчета доверительного интервала для коэффициента регрессии:

Доверительный интервал для β 1 : b 1 ± t 1-α/2, n-2 * se(b 1 )

Золото:

  •   b 1 = коэффициент регрессии, указанный в таблице регрессии.
  • t 1-∝/2, n-2 = критическое значение t для уровня достоверности 1-∝ с n-2 степенями свободы, где n — общее количество наблюдений в нашем наборе данных.
  • se(b 1 ) = стандартная ошибка b 1 , показанная в таблице регрессии.

В следующем примере показано, как на практике рассчитать доверительный интервал для наклона регрессии.

Пример: доверительный интервал для коэффициента регрессии в R.

Предположим, мы хотим подогнать простую модель линейной регрессии, используя часы обучения в качестве предикторной переменной и результаты экзаменов в качестве переменной ответа для 15 учеников в определенном классе:

Мы можем использовать функцию lm() , чтобы подогнать эту простую модель линейной регрессии в R:

 #create data frame
df <- data. frame (hours=c(1, 2, 4, 5, 5, 6, 6, 7, 8, 10, 11, 11, 12, 12, 14),
                 score=c(64, 66, 76, 73, 74, 81, 83, 82, 80, 88, 84, 82, 91, 93, 89))

#fit linear regression model
fit <- lm(score ~ hours, data=df)

#view model summary
summary(fit)

Call:
lm(formula = score ~ hours, data = df)

Residuals:
   Min 1Q Median 3Q Max 
-5,140 -3,219 -1,193 2,816 5,772 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 65,334 2,106 31,023 1.41e-13 ***
hours 1.982 0.248 7.995 2.25e-06 ***
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.641 on 13 degrees of freedom
Multiple R-squared: 0.831, Adjusted R-squared: 0.818 
F-statistic: 63.91 on 1 and 13 DF, p-value: 2.253e-06

Используя оценки коэффициентов в результате, мы можем записать подобранную простую модель линейной регрессии следующим образом:

Оценка = 65,334 + 1,982*(Часы обучения)

Обратите внимание, что коэффициент регрессии для часов равен 1,982 .

Это говорит нам о том, что каждый дополнительный час учебного времени связан со средним увеличением экзаменационной оценки на 1982 балла.

Мы можем использовать функцию contin() для расчета 95% доверительного интервала для коэффициента регрессии:

 #calculate confidence interval for regression coefficient for 'hours'
confint(fit, ' hours ', level= 0.95 )

         2.5% 97.5%
hours 1.446682 2.518068

95% доверительный интервал для коэффициента регрессии составляет [1,446, 2,518] .

Поскольку этот доверительный интервал не содержит значения 0, мы можем заключить, что существует статистически значимая связь между учебными часами и оценкой на экзамене.

Мы также можем подтвердить, что это правильно, вручную рассчитав 95% доверительный интервал для коэффициента регрессии:

  • 95% ДИ для β 1 : b 1 ± t 1-α/2, n-2 * se(b 1 )
  • 95% ДИ для β 1 : 1,982 ± t 0,975, 15-2 * 0,248
  • 95% ДИ для β 1 : 1,982 ± 2,1604 * 0,248
  • 95% ДИ для β 1 : [1,446, 2,518]

95% доверительный интервал для коэффициента регрессии составляет [1,446, 2,518] .

Примечание № 1. Мы использовали калькулятор обратного распределения t, чтобы найти критическое значение t, которое соответствует уровню достоверности 95% с 13 степенями свободы.

Примечание №2 . Чтобы вычислить доверительный интервал с другим уровнем достоверности, просто измените значение аргумента уровня в функции conint() .

Дополнительные ресурсы

Следующие руководства предоставляют дополнительную информацию о линейной регрессии в R:

Как интерпретировать результаты регрессии в R
Как выполнить простую линейную регрессию в R
Как выполнить множественную линейную регрессию в R
Как выполнить логистическую регрессию в R

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *