Что такое частичный f-тест?
Частичный F-тест используется, чтобы определить, существует ли статистически значимая разница между регрессионной моделью и вложенной версией той же модели.
Вложенная модель — это просто модель, которая содержит подмножество переменных-предикторов в общей модели регрессии.
Например, предположим, что у нас есть следующая модель регрессии с четырьмя переменными-предикторами:
Y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 + ε
Примером вложенной модели может быть следующая модель только с двумя исходными переменными-предикторами:
Y = β 0 + β 1 x 1 + β 2 x 2 + ε
Чтобы определить, существенно ли отличаются эти две модели, мы можем выполнить частичный F-тест.
Частичный F-тест: основы
Частичный F-тест вычисляет следующую статистику F-теста:
F = (( Уменьшенный RSS – Полный RSS)/p) / ( Полный RSS /nk)
Золото:
- Уменьшенный RSS : Остаточная сумма квадратов уменьшенной (т.е. «вложенной») модели.
- RSS полный : Остаточная сумма квадратов полной модели.
- p: количество предикторов, удаленных из полной модели.
- n: общее количество наблюдений в наборе данных.
- k: количество коэффициентов (включая точку пересечения) в полной модели.
Обратите внимание, что остаточная сумма квадратов всегда будет меньше для полной модели, поскольку добавление предикторов всегда приводит к некоторому уменьшению ошибки.
Таким образом, частичный F-тест по сути проверяет, действительно ли группа предикторов, удаленных из полной модели, полезна и ее следует включить в полную модель.
В этом тесте используются следующие нулевые и альтернативные гипотезы:
H 0 : Все коэффициенты, удаленные из полной модели, равны нулю.
H A : По крайней мере один из коэффициентов, удаленных из полной модели, не равен нулю.
Если значение p, соответствующее статистике F-теста, ниже определенного уровня значимости (например, 0,05), то мы можем отвергнуть нулевую гипотезу и сделать вывод, что по крайней мере один из коэффициентов, удаленных из полной модели, является значимым.
Частичный F-тест: пример
На практике мы используем следующие шаги для выполнения частичного F-теста:
1. Подберите полную регрессионную модель и рассчитайте полный RSS.
2. Подберите модель вложенной регрессии и рассчитайте уменьшенный RSS.
3. Выполните дисперсионный анализ для сравнения полной и сокращенной модели, в результате чего будет получена статистика F-теста, необходимая для сравнения моделей.
Например, следующий код показывает, как подогнать следующие две модели регрессии в R, используя данные из встроенного набора данных mtcars :
Полная модель: миль на галлон = β 0 + β 1 доступно + β 2 карбюратор + β 3 л.с. + β 4 цил.
Модель: миль на галлон = β 0 + β 1 в наличии + β 2 карбюратор
#fit full model model_full <- lm(mpg ~ disp + carb + hp + cyl, data = mtcars) #fit reduced model model_reduced <- lm(mpg ~ disp + carb, data = mtcars) #perform ANOVA to test for differences in models anova(model_reduced, model_full) Analysis of Variance Table Model 1: mpg ~ available + carb Model 2: mpg ~ disp + carb + hp + cyl Res.Df RSS Df Sum of Sq F Pr(>F) 1 29 254.82 2 27 238.71 2 16.113 0.9113 0.414
Из результата мы видим, что статистика F-теста ANOVA равна 0,9113 , а соответствующее значение p составляет 0,414 .
Поскольку это значение p не меньше 0,05, мы не сможем отвергнуть нулевую гипотезу. Это означает, что у нас недостаточно доказательств, чтобы сказать, что какая-либо из переменных-предикторов hp или cyl является статистически значимой.
Другими словами, добавление hp и cyl в регрессионную модель существенно не улучшает соответствие модели.