Що таке частковий тест f?

за Редакція 27 Липня, 2023 Гід 0 коментарів

Частковий F-тест використовується, щоб визначити, чи є статистично значуща різниця між моделлю регресії та вкладеною версією тієї самої моделі.

Вкладена модель — це просто модель, яка містить підмножину змінних предикторів у загальній моделі регресії.

Наприклад, припустімо, що ми маємо таку модель регресії з чотирма змінними предикторів:

Y = β ₀ + β ₁ x ₁ + β ₂ x ₂ + β ₃ x ₃ + β ₄ x ₄ + ε

Прикладом вкладеної моделі може бути наступна модель лише з двома початковими змінними предиктора:

Y = β ₀ + β ₁ x ₁ + β ₂ x ₂ + ε

Щоб визначити, чи істотно відрізняються ці дві моделі, ми можемо виконати частковий F-тест.

Частковий тест F: основи

Частковий F-тест обчислює таку статистику F-тесту:

F = (( _{Скорочений} RSS – _Повний RSS)/p) / ( _Повний RSS /nk)

золото:

_{Скорочений} RSS : Залишкова сума квадратів зменшеної (тобто «вкладеної») моделі.
RSS _full : Залишкова сума квадратів повної моделі.
p: кількість предикторів, видалених із повної моделі.
n: загальна кількість спостережень у наборі даних.
k: кількість коефіцієнтів (включаючи відрізок) у повній моделі.

Зверніть увагу, що залишкова сума квадратів завжди буде меншою для повної моделі, оскільки додавання предикторів завжди призведе до деякого зменшення помилки.

Таким чином, частковий F-тест по суті перевіряє, чи група предикторів, яку ви вилучили з повної моделі, дійсно корисна і чи її слід включити до повної моделі.

Цей тест використовує такі нульові та альтернативні гіпотези:

H ₀ : усі коефіцієнти, видалені з повної моделі, дорівнюють нулю.

H _A : принаймні один із коефіцієнтів, вилучених із повної моделі, відмінний від нуля.

Якщо p-значення, що відповідає статистиці F-критерію, нижче певного рівня значущості (наприклад, 0,05), тоді ми можемо відхилити нульову гіпотезу та зробити висновок, що принаймні один із коефіцієнтів, вилучених із повної моделі, є значущим.

Частковий тест F: приклад

На практиці ми використовуємо наступні кроки для виконання часткового тесту F:

1. Підберіть модель повної регресії та обчисліть _повний RSS.

2. Підберіть вкладену регресійну модель і обчисліть _{зменшений} RSS.

3. Виконайте дисперсійний аналіз, щоб порівняти повну та скорочену моделі, що дасть статистику F-критерію, необхідну для порівняння моделей.

Наприклад, наведений нижче код показує, як підібрати наступні дві моделі регресії в R, використовуючи дані з вбудованого набору даних mtcars :

Повна модель: mpg = β ₀ + β ₁ доступний + β ₂ вуглеводів + β ₃ к.с. + β ₄ цил.

Модель: mpg = β ₀ + β ₁ доступний + β ₂ вуглеводів

 #fit full model
model_full <- lm(mpg ~ disp + carb + hp + cyl, data = mtcars)

#fit reduced model
model_reduced <- lm(mpg ~ disp + carb, data = mtcars)

#perform ANOVA to test for differences in models
anova(model_reduced, model_full)

Analysis of Variance Table

Model 1: mpg ~ available + carb
Model 2: mpg ~ disp + carb + hp + cyl
  Res.Df RSS Df Sum of Sq F Pr(>F)
1 29 254.82                           
2 27 238.71 2 16.113 0.9113 0.414

З результату ми бачимо, що F-статистика ANOVA становить 0,9113 , а відповідне значення p — 0,414 .

Оскільки це p-значення не менше 0,05, ми не зможемо відхилити нульову гіпотезу. Це означає, що ми не маємо достатньо доказів, щоб стверджувати, що будь-яка змінна предиктора hp або cyl є статистично значущою.

Іншими словами, додавання hp і cyl до регресійної моделі суттєво не покращує відповідність моделі.

Про автора

Редакція

Привіт, я Бенджамін, професор статистики на пенсії, який став викладачем статистики. Маючи великий досвід і знання в галузі статистики, я готовий поділитися своїми знаннями, щоб розширити можливості студентів через Statorials. Дізнайтеся більше

Частковий тест F: основи

Частковий тест F: приклад

Про автора

Редакція

Додати коментар