Що таке частковий тест f?


Частковий F-тест використовується, щоб визначити, чи є статистично значуща різниця між моделлю регресії та вкладеною версією тієї самої моделі.

Вкладена модель — це просто модель, яка містить підмножину змінних предикторів у загальній моделі регресії.

Наприклад, припустімо, що ми маємо таку модель регресії з чотирма змінними предикторів:

Y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 + ε

Прикладом вкладеної моделі може бути наступна модель лише з двома початковими змінними предиктора:

Y = β 0 + β 1 x 1 + β 2 x 2 + ε

Щоб визначити, чи істотно відрізняються ці дві моделі, ми можемо виконати частковий F-тест.

Частковий тест F: основи

Частковий F-тест обчислює таку статистику F-тесту:

F = (( Скорочений RSS – Повний RSS)/p) / ( Повний RSS /nk)

золото:

  • Скорочений RSS : Залишкова сума квадратів зменшеної (тобто «вкладеної») моделі.
  • RSS full : Залишкова сума квадратів повної моделі.
  • p: кількість предикторів, видалених із повної моделі.
  • n: загальна кількість спостережень у наборі даних.
  • k: кількість коефіцієнтів (включаючи відрізок) у повній моделі.

Зверніть увагу, що залишкова сума квадратів завжди буде меншою для повної моделі, оскільки додавання предикторів завжди призведе до деякого зменшення помилки.

Таким чином, частковий F-тест по суті перевіряє, чи група предикторів, яку ви вилучили з повної моделі, дійсно корисна і чи її слід включити до повної моделі.

Цей тест використовує такі нульові та альтернативні гіпотези:

H 0 : усі коефіцієнти, видалені з повної моделі, дорівнюють нулю.

H A : принаймні один із коефіцієнтів, вилучених із повної моделі, відмінний від нуля.

Якщо p-значення, що відповідає статистиці F-критерію, нижче певного рівня значущості (наприклад, 0,05), тоді ми можемо відхилити нульову гіпотезу та зробити висновок, що принаймні один із коефіцієнтів, вилучених із повної моделі, є значущим.

Частковий тест F: приклад

На практиці ми використовуємо наступні кроки для виконання часткового тесту F:

1. Підберіть модель повної регресії та обчисліть повний RSS.

2. Підберіть вкладену регресійну модель і обчисліть зменшений RSS.

3. Виконайте дисперсійний аналіз, щоб порівняти повну та скорочену моделі, що дасть статистику F-критерію, необхідну для порівняння моделей.

Наприклад, наведений нижче код показує, як підібрати наступні дві моделі регресії в R, використовуючи дані з вбудованого набору даних mtcars :

Повна модель: mpg = β 0 + β 1 доступний + β 2 вуглеводів + β 3 к.с. + β 4 цил.

Модель: mpg = β 0 + β 1 доступний + β 2 вуглеводів

 #fit full model
model_full <- lm(mpg ~ disp + carb + hp + cyl, data = mtcars)

#fit reduced model
model_reduced <- lm(mpg ~ disp + carb, data = mtcars)

#perform ANOVA to test for differences in models
anova(model_reduced, model_full)

Analysis of Variance Table

Model 1: mpg ~ available + carb
Model 2: mpg ~ disp + carb + hp + cyl
  Res.Df RSS Df Sum of Sq F Pr(>F)
1 29 254.82                           
2 27 238.71 2 16.113 0.9113 0.414

З результату ми бачимо, що F-статистика ANOVA становить 0,9113 , а відповідне значення p — 0,414 .

Оскільки це p-значення не менше 0,05, ми не зможемо відхилити нульову гіпотезу. Це означає, що ми не маємо достатньо доказів, щоб стверджувати, що будь-яка змінна предиктора hp або cyl є статистично значущою.

Іншими словами, додавання hp і cyl до регресійної моделі суттєво не покращує відповідність моделі.

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *