Что такое частичный f-тест?


Частичный F-тест используется, чтобы определить, существует ли статистически значимая разница между регрессионной моделью и вложенной версией той же модели.

Вложенная модель — это просто модель, которая содержит подмножество переменных-предикторов в общей модели регрессии.

Например, предположим, что у нас есть следующая модель регрессии с четырьмя переменными-предикторами:

Y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 + ε

Примером вложенной модели может быть следующая модель только с двумя исходными переменными-предикторами:

Y = β 0 + β 1 x 1 + β 2 x 2 + ε

Чтобы определить, существенно ли отличаются эти две модели, мы можем выполнить частичный F-тест.

Частичный F-тест: основы

Частичный F-тест вычисляет следующую статистику F-теста:

F = (( Уменьшенный RSS – Полный RSS)/p) / ( Полный RSS /nk)

Золото:

  • Уменьшенный RSS : Остаточная сумма квадратов уменьшенной (т.е. «вложенной») модели.
  • RSS полный : Остаточная сумма квадратов полной модели.
  • p: количество предикторов, удаленных из полной модели.
  • n: общее количество наблюдений в наборе данных.
  • k: количество коэффициентов (включая точку пересечения) в полной модели.

Обратите внимание, что остаточная сумма квадратов всегда будет меньше для полной модели, поскольку добавление предикторов всегда приводит к некоторому уменьшению ошибки.

Таким образом, частичный F-тест по сути проверяет, действительно ли группа предикторов, удаленных из полной модели, полезна и ее следует включить в полную модель.

В этом тесте используются следующие нулевые и альтернативные гипотезы:

H 0 : Все коэффициенты, удаленные из полной модели, равны нулю.

H A : По крайней мере один из коэффициентов, удаленных из полной модели, не равен нулю.

Если значение p, соответствующее статистике F-теста, ниже определенного уровня значимости (например, 0,05), то мы можем отвергнуть нулевую гипотезу и сделать вывод, что по крайней мере один из коэффициентов, удаленных из полной модели, является значимым.

Частичный F-тест: пример

На практике мы используем следующие шаги для выполнения частичного F-теста:

1. Подберите полную регрессионную модель и рассчитайте полный RSS.

2. Подберите модель вложенной регрессии и рассчитайте уменьшенный RSS.

3. Выполните дисперсионный анализ для сравнения полной и сокращенной модели, в результате чего будет получена статистика F-теста, необходимая для сравнения моделей.

Например, следующий код показывает, как подогнать следующие две модели регрессии в R, используя данные из встроенного набора данных mtcars :

Полная модель: миль на галлон = β 0 + β 1 доступно + β 2 карбюратор + β 3 л.с. + β 4 цил.

Модель: миль на галлон = β 0 + β 1 в наличии + β 2 карбюратор

 #fit full model
model_full <- lm(mpg ~ disp + carb + hp + cyl, data = mtcars)

#fit reduced model
model_reduced <- lm(mpg ~ disp + carb, data = mtcars)

#perform ANOVA to test for differences in models
anova(model_reduced, model_full)

Analysis of Variance Table

Model 1: mpg ~ available + carb
Model 2: mpg ~ disp + carb + hp + cyl
  Res.Df RSS Df Sum of Sq F Pr(>F)
1 29 254.82                           
2 27 238.71 2 16.113 0.9113 0.414

Из результата мы видим, что статистика F-теста ANOVA равна 0,9113 , а соответствующее значение p составляет 0,414 .

Поскольку это значение p не меньше 0,05, мы не сможем отвергнуть нулевую гипотезу. Это означает, что у нас недостаточно доказательств, чтобы сказать, что какая-либо из переменных-предикторов hp или cyl является статистически значимой.

Другими словами, добавление hp и cyl в регрессионную модель существенно не улучшает соответствие модели.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *