Простий посібник із розуміння f-тесту загальної значущості в регресії
У цьому підручнику пояснюється, як ідентифікувати статистику F у результатах таблиці регресії, а також як інтерпретувати цю статистику та відповідне їй значення p.
Розуміння тесту F на загальну значимість
F-тест загальної значущості в регресії – це перевірка, щоб визначити, чи ваша модель лінійної регресії краще відповідає набору даних, ніж модель без змінних предикторів.
Тест загальної значущості F базується на таких двох припущеннях:
Нульова гіпотеза ( H0 ): модель без змінних предикторів (також звана моделлю лише перехоплення ) відповідає даним так само добре, як ваша регресійна модель.
Альтернативна гіпотеза ( HA ): ваша регресійна модель краще відповідає даним, ніж модель лише перехоплення.
Коли ви адаптуєте регресійну модель до набору даних, ви отримаєте таблицю регресії як вихідні дані, яка повідомить вам F-статистику разом із відповідним значенням p для цієї F-статистики.
Якщо p-значення менше за обраний вами рівень значущості ( звичайні варіанти — 0,01, 0,05 і 0,10 ), тоді у вас є достатньо доказів, щоб зробити висновок, що ваша модель регресії відповідає даним лише як вихідна модель. модель.
Приклад: тест F у регресії
Припустімо, що ми маємо такий набір даних, який показує загальну кількість вивчених годин, загальну кількість складених підготовчих іспитів і підсумкову оцінку іспиту для 12 різних студентів:
Щоб проаналізувати взаємозв’язок між вивченими годинами та складеними підготовчими іспитами та підсумковою іспитовою оцінкою, отриманою студентом, ми виконуємо множинну лінійну регресію, використовуючи вивчені години та підготовчі іспити, взяті як предикторні змінні, і підсумкову оцінку, що перевіряється, як змінну відповіді.
Отримуємо такий результат:
Виходячи з цих результатів, ми зосередимося на F-статистиці, наведеній у таблиці ANOVA, а також на p-значенні цієї F-статистики, яке в таблиці позначено як F-значущість . Ми виберемо 0,05 як рівень значущості.
F-статистика: 5,090515
P-значення: 0,0332
Технічна примітка: F-статистика розраховується як регресія MS, поділена на залишкову MS. У цьому випадку регресія MS / залишкова MS = 273,2665 / 53,68151 = 5,090515 .
Оскільки p-значення нижче рівня значущості, ми можемо зробити висновок, що наша регресійна модель краще відповідає даним, ніж модель лише перехоплення.
У контексті цієї конкретної проблеми це означає, що використання в моделі змінних-прогнозів навчальних годин і підготовчих іспитів дозволяє нам краще підганяти дані, ніж якби ми їх не враховували й просто використовували унікальну модель перехоплення.
Примітки щодо інтерпретації F-тесту загальної значущості
Загалом, якщо жодна з ваших прогностичних змінних не є статистично значущою, загальний F-тест також не буде статистично значущим.
Однак у деяких випадках це може бути не так, оскільки F-тест для загальної значущості перевіряє, чи всі прогностичні змінні спільно значущі, тоді як Т-тест для значущості для кожної окремої прогностичної змінної просто перевіряє, чи кожна прогностична змінна є значущою. індивідуально значущі.
Таким чином, F-тест визначає, чи всі змінні предикторів разом значущі чи ні.
Можливо, що кожна змінна предиктора не є значущою, але F-критерій показує, що всі змінні предиктора разом є значущими.
Технічна примітка. Загалом, що більше змінних предикторів у вас у моделі, то вища ймовірність того, що F-статистика та відповідне значення p будуть статистично значущими.
Інший показник, який ви, ймовірно, побачите в результатах регресії, — R-квадрат , який вимірює міцність лінійного зв’язку між змінними прогнозу та іншою змінною відповіді.
Хоча R-квадрат може дати вам уявлення про те, якою мірою прогностичні змінні тісно пов’язані зі змінною відповіді, він не забезпечує формального статистичного тесту для цього зв’язку.
Ось чому F-тест корисний, оскільки це формальний статистичний тест. Крім того, якщо загальний F-тест є значущим, ви можете зробити висновок, що R-квадрат не дорівнює нулю і що кореляція між змінною(ями) предиктора та змінною відповіді є статистично значущою.
Додаткові ресурси
У наступних посібниках пояснюється, як інтерпретувати інші загальні значення в регресійних моделях:
Як читати та інтерпретувати таблицю регресії
Розуміння стандартної помилки регресії
Що таке хороше значення R-квадрат?