Как интерпретировать перехват в регрессионной модели: с примерами
Отрезок (иногда называемый «константой») в модели регрессии представляет собой среднее значение переменной отклика, когда все переменные-предикторы в модели равны нулю.
В этом руководстве объясняется, как интерпретировать исходное значение в моделях простой линейной регрессии и множественной линейной регрессии.
Интерпретация пересечения в простой линейной регрессии
Простая модель линейной регрессии принимает следующую форму:
ŷ = β 0 + β 1 (х)
Золото:
- ŷ: прогнозируемое значение переменной ответа.
- β 0 : Среднее значение переменной отклика при x = 0.
- β 1 : Среднее изменение переменной отклика при увеличении x на одну единицу.
- x: значение прогнозируемой переменной
В некоторых случаях имеет смысл интерпретировать значение точки пересечения в простой модели линейной регрессии, но не всегда. Следующие примеры иллюстрируют это.
Пример 1: Перехват имеет смысл интерпретировать
Предположим, мы хотим подогнать простую модель линейной регрессии, используя часы обучения в качестве предикторной переменной и результаты экзаменов в качестве переменной ответа.
Мы собираем эти данные для 50 студентов определенного университетского курса и подгоняем следующую регрессионную модель:
Оценка за экзамен = 65,4 + 2,67 (часы)
Значение исходного члена в этой модели составляет 65,4 . Это означает, что средний балл экзамена составляет 65,4 , когда количество изученных часов равно нулю.
Это имеет смысл интерпретировать, поскольку вполне вероятно, что студент будет готовиться к экзамену ноль часов.
Пример 2: Перехват не имеет смысла интерпретировать
Предположим, мы хотим подобрать простую модель линейной регрессии, используя вес (в фунтах) в качестве предикторной переменной и рост (в дюймах) в качестве переменной отклика.
Мы собираем эти данные для 50 человек и применяем следующую регрессионную модель:
Рост = 22,3 + 0,28 (фунтов)
Значение исходного члена в этой модели составляет 22,3 . Это будет означать, что средний рост человека составляет 22,3 дюйма, когда его вес равен нулю.
Это не имеет смысла интерпретировать, поскольку человек не может весить ноль фунтов.
Однако нам все равно необходимо сохранить исходный термин в модели, чтобы мы могли использовать ее для прогнозирования. Перехват просто не имеет значимой интерпретации для этой модели.
Интерпретация прерывания в множественной линейной регрессии
Модель множественной линейной регрессии принимает следующую форму:
ŷ знак равно β 0 + β 1 (x 1 ) + β 2 (x 2 ) + β 3 (x 3 ) + … + β k (x k )
Золото:
- ŷ: прогнозируемое значение переменной ответа.
- β 0 : Среднее значение переменной отклика, когда все переменные-предикторы равны нулю.
- β j : среднее изменение переменной отклика для увеличения на одну единицу j- й переменной-предиктора, при условии, что все остальные переменные-предикторы остаются постоянными.
- x j : значение j -й прогнозируемой переменной
Подобно простой линейной регрессии, иногда имеет смысл интерпретировать значение точки пересечения в модели множественной линейной регрессии, но не всегда. Следующие примеры иллюстрируют это.
Пример 1: Перехват имеет смысл интерпретировать
Предположим, мы хотим подогнать модель множественной линейной регрессии, используя учебные часы и подготовительные экзамены, принимаемые в качестве предикторных переменных, а баллы на экзаменах — в качестве переменной ответа.
Мы собираем эти данные для 50 студентов определенного университетского курса и подгоняем следующую регрессионную модель:
Экзаменационный балл = 58,4 + 2,23 (часы) + 1,34 (количество подготовительных экзаменов)
Значение исходного члена в этой модели составляет 58,4 . Это означает, что средний балл на экзамене составляет 58,4 , когда количество учебных часов и количество сданных подготовительных экзаменов равны нулю.
Это имеет смысл интерпретировать, поскольку вполне вероятно, что студент будет учиться ноль часов и не сдавать никаких подготовительных экзаменов перед самим экзаменом.
Пример 2: Перехват не имеет смысла интерпретировать
Предположим, мы хотим подобрать модель множественной линейной регрессии, используя площадь в квадратных футах и количество спален в качестве предикторных переменных, а цену продажи в качестве переменной ответа.
Мы собираем эти данные для 100 домов в определенном городе и применяем следующую регрессионную модель:
Цена = 87 244 + 3,44 (кв. футов) + 843,45 (количество спален)
Значение исходного члена в этой модели составляет 87,244 . Это будет означать, что средняя цена продажи дома составляет 87 244 доллара , когда площадь дома и количество спален равны нулю.
Это не имеет смысла интерпретировать, поскольку дом не может иметь нулевую площадь и ноль спален.
Однако нам все равно необходимо сохранить исходный термин в модели, чтобы использовать его для прогнозирования. Перехват просто не имеет значимой интерпретации для этой модели.
Дополнительные ресурсы
Введение в простую линейную регрессию
Введение в множественную линейную регрессию
Как интерпретировать коэффициенты частичной регрессии