Понимание нулевой гипотезы для линейной регрессии
Линейная регрессия — это метод, который мы можем использовать, чтобы понять взаимосвязь между одной или несколькими переменными-предикторами и переменной отклика .
Если у нас есть только одна переменная-предиктор и одна переменная отклика, мы можем использовать простую линейную регрессию , которая использует следующую формулу для оценки взаимосвязи между переменными:
ŷ = β 0 + β 1 x
Золото:
- ŷ: Предполагаемое значение ответа.
- β 0 : Среднее значение y, когда x равно нулю.
- β 1 : Среднее изменение y, связанное с увеличением x на одну единицу.
- x: значение прогнозируемой переменной.
Простая линейная регрессия использует следующие нулевые и альтернативные гипотезы:
- Ч 0 : β 1 = 0
- НА : β 1 ≠ 0
Нулевая гипотеза утверждает, что коэффициент β 1 равен нулю. Другими словами, не существует статистически значимой связи между переменной-предиктором x и переменной ответа y.
Альтернативная гипотеза утверждает, что β 1 не равно нулю. Другими словами, существует статистически значимая связь между x и y.
Если у нас есть несколько переменных-предикторов и переменная отклика, мы можем использовать множественную линейную регрессию , которая использует следующую формулу для оценки взаимосвязи между переменными:
ŷ = β 0 + β 1 x 1 + β 2 x 2 + … + β k x k
Золото:
- ŷ: Предполагаемое значение ответа.
- β 0 : Среднее значение y, когда все переменные-предикторы равны нулю.
- β i : Среднее изменение y, связанное с увеличением x i на одну единицу.
- x i : Значение переменной-предиктора x i .
Множественная линейная регрессия использует следующие нулевые и альтернативные гипотезы:
- ЧАС 0 : β 1 = β 2 = … = β k = 0
- ЧАС А : β 1 знак равно β 2 = … = β k ≠ 0
Нулевая гипотеза утверждает, что все коэффициенты модели равны нулю. Другими словами, ни одна из переменных-предсказателей не имеет статистически значимой связи с переменной ответа y.
Альтернативная гипотеза утверждает, что не все коэффициенты одновременно равны нулю.
В следующих примерах показано, как решить, отклонять или не отклонять нулевую гипотезу в моделях простой линейной регрессии и множественной линейной регрессии.
Пример 1: Простая линейная регрессия
Предположим, профессор хочет использовать количество изученных часов, чтобы спрогнозировать оценку на экзамене, которую получат студенты его класса. Он собирает данные от 20 студентов и соответствует простой модели линейной регрессии.
На следующем снимке экрана показан результат регрессионной модели:
Подобранная простая модель линейной регрессии:
Экзаменационный балл = 67,1617 + 5,2503*(учебные часы)
Чтобы определить, существует ли статистически значимая связь между учебными часами и оценками на экзамене, нам необходимо проанализировать общее значение F модели и соответствующее значение p:
- Общее значение F: 47,9952
- P-значение: 0,000
Поскольку это значение p меньше 0,05, мы можем отвергнуть нулевую гипотезу. Другими словами, существует статистически значимая связь между учебными часами и результатами экзаменов.
Пример 2: Множественная линейная регрессия
Предположим, профессор хочет использовать количество учебных часов и количество сданных подготовительных экзаменов, чтобы спрогнозировать оценки, которые студенты получат в его классе. Он собирает данные от 20 студентов и соответствует модели множественной линейной регрессии.
На следующем снимке экрана показан результат регрессионной модели:
Подобранная модель множественной линейной регрессии:
Экзаменационный балл = 67,67 + 5,56*(учебные часы) – 0,60*(сданные подготовительные экзамены)
Чтобы определить, существует ли статистически значимая связь между двумя переменными-предикторами и переменной ответа, нам нужно проанализировать общее значение F модели и соответствующее значение p:
- Общее значение F: 23,46
- P-значение: 0,00
Поскольку это значение p меньше 0,05, мы можем отвергнуть нулевую гипотезу. Другими словами, количество учебных часов и сданных подготовительных экзаменов статистически значимо связано с результатами экзаменов.
Примечание. Хотя значение p для сданных подготовительных экзаменов (p = 0,52) не является значимым, подготовительные экзамены в сочетании с учебными часами имеют значительную связь с результатами экзаменов.
Дополнительные ресурсы
Понимание F-теста на общую значимость регрессии
Как читать и интерпретировать таблицу регрессии
Как сообщить о результатах регрессии
Как выполнить простую линейную регрессию в Excel
Как выполнить множественную линейную регрессию в Excel