Как рассчитать доверительный интервал для перехвата регрессии
Простая линейная регрессия используется для количественной оценки взаимосвязи между переменной-предиктором и переменной ответа.
Этот метод находит строку, которая лучше всего «соответствует» набору данных, и принимает следующую форму:
ŷ = б 0 + б 1 х
Золото:
- ŷ : Предполагаемое значение ответа.
- b 0 : Начало линии регрессии.
- b 1 : Наклон линии регрессии.
- x : значение прогнозируемой переменной.
Нас часто интересует значение b 1 , которое сообщает нам среднее изменение переменной отклика , связанное с увеличением на одну единицу предикторной переменной.
Однако в редких случаях нас также интересует значение b0 , которое сообщает нам среднее значение переменной отклика, когда переменная-предиктор равна нулю.
Мы можем использовать следующую формулу для расчета доверительного интервала для значения β 0 , истинной константы населения:
Доверительный интервал для β 0 : b 0 ± t α/2, n-2 * se(b 0 )
В следующем примере показано, как на практике вычислить доверительный интервал для перехвата.
Пример: доверительный интервал для перехвата регрессии
Предположим, мы хотим подогнать простую модель линейной регрессии, используя часы обучения в качестве предикторной переменной и результаты экзаменов в качестве переменной ответа для 15 учеников в определенном классе:

Следующий код показывает, как реализовать эту простую модель линейной регрессии в R:
#create data frame df <- data. frame (hours=c(1, 2, 4, 5, 5, 6, 6, 7, 8, 10, 11, 11, 12, 12, 14), score=c(64, 66, 76, 73, 74, 81, 83, 82, 80, 88, 84, 82, 91, 93, 89)) #fit simple linear regression model fit <- lm(score ~ hours, data=df) #view summary of model summary(fit) Call: lm(formula = score ~ hours, data = df) Residuals: Min 1Q Median 3Q Max -5,140 -3,219 -1,193 2,816 5,772 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 65,334 2,106 31,023 1.41e-13 *** hours 1.982 0.248 7.995 2.25e-06 *** --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 3.641 on 13 degrees of freedom Multiple R-squared: 0.831, Adjusted R-squared: 0.818 F-statistic: 63.91 on 1 and 13 DF, p-value: 2.253e-06
Используя оценки коэффициентов в результате, мы можем записать подобранную простую модель линейной регрессии следующим образом:
Оценка = 65,334 + 1,982*(Часы обучения)
Значение перехвата составляет 65,334. Это говорит нам о том, что предполагаемый средний балл на экзамене для студента, обучающегося ноль часов, составляет 65 334 .
Мы можем использовать следующую формулу для расчета 95% доверительного интервала для перехвата:
- 95% ДИ для β 0 : b 0 ± t α/2, n-2 * se(b 0 )
- 95% ДИ для β 0 : 65,334 ± t 0,05/2,15-2 * 2,106
- 95% ДИ для β 0 : 65,334 ± 2,1604 * 2,106
- 95% ДИ для β 0 : [60,78, 69,88]
Мы интерпретируем это как означающее, что мы на 95% уверены, что фактический средний балл на экзамене студентов, обучающихся ноль часов, находится между 60,78 и 69,88.
Примечание . Мы использовали калькулятор обратного распределения t, чтобы найти критическое значение t, которое соответствует уровню достоверности 95% с 13 степенями свободы.
Меры предосторожности при расчете доверительного интервала для перехвата регрессии
На практике мы часто не рассчитываем доверительный интервал для точки пересечения регрессии, поскольку обычно не имеет смысла интерпретировать значение точки пересечения в регрессии модели.
Например, предположим, что мы подбираем регрессионную модель, которая использует рост баскетболиста в качестве предикторной переменной и среднее количество очков за игру в качестве переменной ответа.
Рост игрока не может быть нулевого фута, поэтому в этой модели не имеет смысла интерпретировать перехват буквально.
Существует бесчисленное множество подобных сценариев, в которых переменная-предиктор не может принимать нулевое значение. Поэтому нет смысла интерпретировать исходное значение модели или создавать доверительный интервал для начала координат.
Например, рассмотрите следующие потенциальные переменные-предикторы в модели:
- Площадь дома
- Длина автомобиля
- Вес человека
Каждая из этих переменных-предикторов не может принимать нулевое значение. Поэтому в любом из этих обстоятельств не имело бы смысла рассчитывать доверительный интервал для происхождения регрессионной модели.
Дополнительные ресурсы
Следующие руководства предоставляют дополнительную информацию о линейной регрессии:
Введение в простую линейную регрессию
Введение в множественную линейную регрессию
Как читать и интерпретировать таблицу регрессии
Как сообщить о результатах регрессии