Как проверить значимость наклона регрессии


Допустим, у нас есть следующий набор данных, который показывает площадь и цену 12 разных домов:

Простой пример линейной регрессии

Мы хотим знать, существует ли существенная связь между площадью и ценой.

Чтобы получить представление о том, как выглядят данные, мы сначала создаем диаграмму рассеяния с квадратными футами по оси X и ценой по оси Y:

Простая диаграмма рассеяния линейной регрессии

Мы ясно видим, что существует положительная корреляция между площадью и ценой. По мере увеличения квадратных метров цена дома также имеет тенденцию к увеличению.

Однако, чтобы выяснить, существует ли статистически значимая связь между площадью и ценой, нам нужно провести простую линейную регрессию.

Итак, мы запускаем простую линейную регрессию , используя квадратные футы в качестве предиктора и цену в качестве ответа, и получаем следующий результат:

Выходные данные простой линейной регрессии

Независимо от того, запустите ли вы простую линейную регрессию в Excel, SPSS, R или любом другом программном обеспечении, вы получите результат, аналогичный показанному выше.

Помните, что простая линейная регрессия создаст линию наилучшего соответствия, которая представляет собой уравнение линии, которая лучше всего «соответствует» данным на нашей диаграмме рассеяния. Эта линия наилучшего соответствия определяется как:

ŷ = б 0 + б 1 х

где ŷ — прогнозируемое значение переменной отклика, b 0 — точка пересечения, b 1 — коэффициент регрессии, а x — значение переменной-предиктора.

Значение b 0 задается коэффициентом начала координат, который равен 47588,70.

Значение b 1 задается коэффициентом предикторной переменной Square Feet , который равен 93,57.

Таким образом, наиболее подходящая линия в этом примере — ŷ = 47588,70+ 93,57x.

Вот как интерпретировать эту линию наилучшего соответствия:

  • b 0 : Когда стоимость квадратных футов равна нулю, ожидаемое среднее значение цены составляет 47 588,70 долларов США. (В этом случае интерпретировать перехват не имеет смысла, поскольку в доме никогда не может быть нуля квадратных футов)
  • b 1 : За каждый дополнительный квадратный фут среднее ожидаемое увеличение цены составляет 93,57 доллара.

Итак, теперь мы знаем, что на каждый дополнительный квадратный фут среднее ожидаемое увеличение цены составляет 93,57 доллара.

Чтобы узнать, является ли это увеличение статистически значимым, нам нужно выполнить проверку гипотезы для B 1 или построить доверительный интервал для B 1 .

Примечание . Проверка гипотезы и доверительный интервал всегда дают одни и те же результаты.

Построение доверительного интервала для наклона регрессии

Чтобы построить доверительный интервал для наклона регрессии, мы используем следующую формулу:

Доверительный интервал = b 1 +/- (t 1-∝/2, n-2 ) * (стандартная ошибка b 1 )

Золото:

  • b 1 — коэффициент наклона, указанный в результате регрессии.
  • (t 1-∝/2, n-2 ) — критическое значение t для уровня достоверности 1-∝ с n-2 степенями свободы, где n — общее количество наблюдений в нашем наборе данных.
  • (стандартная ошибка b 1 ) — это стандартная ошибка b 1 , указанная в результате регрессии.

В нашем примере показано, как построить 95% доверительный интервал для B 1 :

  • b 1 составляет 93,57 по результатам регрессии.
  • Поскольку мы используем доверительный интервал 95%, ∝ = 0,05 и n-2 = 12-2 = 10, поэтому t 0,975, 10 равно 2,228 согласно таблице распределения t.
  • (стандартная ошибка b1 ) равна 11,45 по результатам регрессии.

Таким образом, наш 95% доверительный интервал для B 1 составляет:

93,57 +/- (2,228) * (11,45) = (68,06, 119,08)

Это означает, что мы на 95% уверены, что реальный средний рост цен на каждый дополнительный квадратный фут составляет от 68,06 до 119,08 долларов.

Обратите внимание, что 0 долларов США не находится в этом интервале, поэтому взаимосвязь между площадью в квадратных футах и ценой статистически значима на уровне достоверности 95%.

Выполнение проверки гипотезы для наклона регрессии

Чтобы выполнить проверку гипотезы для наклона регрессии, мы следуем пяти стандартным шагам для любой проверки гипотезы :

Шаг 1. Сформулируйте гипотезы.

Нулевая гипотеза (H0): B 1 = 0

Альтернативная гипотеза: (Ha): B 1 ≠ 0

Шаг 2. Определите уровень значимости для использования.

Поскольку в предыдущем примере мы построили доверительный интервал 95%, мы будем использовать здесь эквивалентный подход и выберем уровень значимости 0,05.

Шаг 3. Найдите тестовую статистику и соответствующее значение p.

В этом случае статистика теста равна t = коэффициент b 1 / стандартная ошибка b 1 с n-2 степенями свободы. Мы можем найти эти значения из результата регрессии:

Выходные данные простой линейной регрессии
Таким образом, статистика теста t = 92,89/13,88 = 6,69.

Используя калькулятор значений T для P со счетом 6,69 с 10 степенями свободы и двусторонним тестом, значение p = 0,000 .

Шаг 4. Отклонить или не отвергать нулевую гипотезу.

Поскольку значение p ниже нашего уровня значимости 0,05, мы отвергаем нулевую гипотезу.

Шаг 5. Интерпретируйте результаты.

Поскольку мы отвергли нулевую гипотезу, у нас есть достаточно доказательств, чтобы сказать, что истинное среднее увеличение цены на каждый дополнительный квадратный фут не равно нулю.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *