Понимание нулевой гипотезы для линейной регрессии


Линейная регрессия — это метод, который мы можем использовать, чтобы понять взаимосвязь между одной или несколькими переменными-предикторами и переменной отклика .

Если у нас есть только одна переменная-предиктор и одна переменная отклика, мы можем использовать простую линейную регрессию , которая использует следующую формулу для оценки взаимосвязи между переменными:

ŷ = β 0 + β 1 x

Золото:

  • ŷ: Предполагаемое значение ответа.
  • β 0 : Среднее значение y, когда x равно нулю.
  • β 1 : Среднее изменение y, связанное с увеличением x на одну единицу.
  • x: значение прогнозируемой переменной.

Простая линейная регрессия использует следующие нулевые и альтернативные гипотезы:

  • Ч 0 : β 1 = 0
  • НА : β 1 ≠ 0

Нулевая гипотеза утверждает, что коэффициент β 1 равен нулю. Другими словами, не существует статистически значимой связи между переменной-предиктором x и переменной ответа y.

Альтернативная гипотеза утверждает, что β 1 не равно нулю. Другими словами, существует статистически значимая связь между x и y.

Если у нас есть несколько переменных-предикторов и переменная отклика, мы можем использовать множественную линейную регрессию , которая использует следующую формулу для оценки взаимосвязи между переменными:

ŷ = β 0 + β 1 x 1 + β 2 x 2 + … + β k x k

Золото:

  • ŷ: Предполагаемое значение ответа.
  • β 0 : Среднее значение y, когда все переменные-предикторы равны нулю.
  • β i : Среднее изменение y, связанное с увеличением x i на одну единицу.
  • x i : Значение переменной-предиктора x i .

Множественная линейная регрессия использует следующие нулевые и альтернативные гипотезы:

  • ЧАС 0 : β 1 = β 2 = … = β k = 0
  • ЧАС А : β 1 знак равно β 2 = … = β k ≠ 0

Нулевая гипотеза утверждает, что все коэффициенты модели равны нулю. Другими словами, ни одна из переменных-предсказателей не имеет статистически значимой связи с переменной ответа y.

Альтернативная гипотеза утверждает, что не все коэффициенты одновременно равны нулю.

В следующих примерах показано, как решить, отклонять или не отклонять нулевую гипотезу в моделях простой линейной регрессии и множественной линейной регрессии.

Пример 1: Простая линейная регрессия

Предположим, профессор хочет использовать количество изученных часов, чтобы спрогнозировать оценку на экзамене, которую получат студенты его класса. Он собирает данные от 20 студентов и соответствует простой модели линейной регрессии.

На следующем снимке экрана показан результат регрессионной модели:

Вывод простой линейной регрессии в Excel

Подобранная простая модель линейной регрессии:

Экзаменационный балл = 67,1617 + 5,2503*(учебные часы)

Чтобы определить, существует ли статистически значимая связь между учебными часами и оценками на экзамене, нам необходимо проанализировать общее значение F модели и соответствующее значение p:

  • Общее значение F: 47,9952
  • P-значение: 0,000

Поскольку это значение p меньше 0,05, мы можем отвергнуть нулевую гипотезу. Другими словами, существует статистически значимая связь между учебными часами и результатами экзаменов.

Пример 2: Множественная линейная регрессия

Предположим, профессор хочет использовать количество учебных часов и количество сданных подготовительных экзаменов, чтобы спрогнозировать оценки, которые студенты получат в его классе. Он собирает данные от 20 студентов и соответствует модели множественной линейной регрессии.

На следующем снимке экрана показан результат регрессионной модели:

Вывод множественной линейной регрессии в Excel

Подобранная модель множественной линейной регрессии:

Экзаменационный балл = 67,67 + 5,56*(учебные часы) – 0,60*(сданные подготовительные экзамены)

Чтобы определить, существует ли статистически значимая связь между двумя переменными-предикторами и переменной ответа, нам нужно проанализировать общее значение F модели и соответствующее значение p:

  • Общее значение F: 23,46
  • P-значение: 0,00

Поскольку это значение p меньше 0,05, мы можем отвергнуть нулевую гипотезу. Другими словами, количество учебных часов и сданных подготовительных экзаменов статистически значимо связано с результатами экзаменов.

Примечание. Хотя значение p для сданных подготовительных экзаменов (p = 0,52) не является значимым, подготовительные экзамены в сочетании с учебными часами имеют значительную связь с результатами экзаменов.

Дополнительные ресурсы

Понимание F-теста на общую значимость регрессии
Как читать и интерпретировать таблицу регрессии
Как сообщить о результатах регрессии
Как выполнить простую линейную регрессию в Excel
Как выполнить множественную линейную регрессию в Excel

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *