Що таке частковий тест f?
Частковий F-тест використовується, щоб визначити, чи є статистично значуща різниця між моделлю регресії та вкладеною версією тієї самої моделі.
Вкладена модель — це просто модель, яка містить підмножину змінних предикторів у загальній моделі регресії.
Наприклад, припустімо, що ми маємо таку модель регресії з чотирма змінними предикторів:
Y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 + ε
Прикладом вкладеної моделі може бути наступна модель лише з двома початковими змінними предиктора:
Y = β 0 + β 1 x 1 + β 2 x 2 + ε
Щоб визначити, чи істотно відрізняються ці дві моделі, ми можемо виконати частковий F-тест.
Частковий тест F: основи
Частковий F-тест обчислює таку статистику F-тесту:
F = (( Скорочений RSS – Повний RSS)/p) / ( Повний RSS /nk)
золото:
- Скорочений RSS : Залишкова сума квадратів зменшеної (тобто «вкладеної») моделі.
- RSS full : Залишкова сума квадратів повної моделі.
- p: кількість предикторів, видалених із повної моделі.
- n: загальна кількість спостережень у наборі даних.
- k: кількість коефіцієнтів (включаючи відрізок) у повній моделі.
Зверніть увагу, що залишкова сума квадратів завжди буде меншою для повної моделі, оскільки додавання предикторів завжди призведе до деякого зменшення помилки.
Таким чином, частковий F-тест по суті перевіряє, чи група предикторів, яку ви вилучили з повної моделі, дійсно корисна і чи її слід включити до повної моделі.
Цей тест використовує такі нульові та альтернативні гіпотези:
H 0 : усі коефіцієнти, видалені з повної моделі, дорівнюють нулю.
H A : принаймні один із коефіцієнтів, вилучених із повної моделі, відмінний від нуля.
Якщо p-значення, що відповідає статистиці F-критерію, нижче певного рівня значущості (наприклад, 0,05), тоді ми можемо відхилити нульову гіпотезу та зробити висновок, що принаймні один із коефіцієнтів, вилучених із повної моделі, є значущим.
Частковий тест F: приклад
На практиці ми використовуємо наступні кроки для виконання часткового тесту F:
1. Підберіть модель повної регресії та обчисліть повний RSS.
2. Підберіть вкладену регресійну модель і обчисліть зменшений RSS.
3. Виконайте дисперсійний аналіз, щоб порівняти повну та скорочену моделі, що дасть статистику F-критерію, необхідну для порівняння моделей.
Наприклад, наведений нижче код показує, як підібрати наступні дві моделі регресії в R, використовуючи дані з вбудованого набору даних mtcars :
Повна модель: mpg = β 0 + β 1 доступний + β 2 вуглеводів + β 3 к.с. + β 4 цил.
Модель: mpg = β 0 + β 1 доступний + β 2 вуглеводів
#fit full model model_full <- lm(mpg ~ disp + carb + hp + cyl, data = mtcars) #fit reduced model model_reduced <- lm(mpg ~ disp + carb, data = mtcars) #perform ANOVA to test for differences in models anova(model_reduced, model_full) Analysis of Variance Table Model 1: mpg ~ available + carb Model 2: mpg ~ disp + carb + hp + cyl Res.Df RSS Df Sum of Sq F Pr(>F) 1 29 254.82 2 27 238.71 2 16.113 0.9113 0.414
З результату ми бачимо, що F-статистика ANOVA становить 0,9113 , а відповідне значення p — 0,414 .
Оскільки це p-значення не менше 0,05, ми не зможемо відхилити нульову гіпотезу. Це означає, що ми не маємо достатньо доказів, щоб стверджувати, що будь-яка змінна предиктора hp або cyl є статистично значущою.
Іншими словами, додавання hp і cyl до регресійної моделі суттєво не покращує відповідність моделі.