Простое руководство по пониманию f-теста общей значимости в регрессии


В этом руководстве объясняется, как определить статистику F в выходных данных таблицы регрессии, а также как интерпретировать эту статистику и соответствующее ей значение p.

Понимание F-теста общей значимости

F-тест на общую значимость регрессии — это тест, позволяющий определить, обеспечивает ли ваша модель линейной регрессии лучшее соответствие набору данных, чем модель без переменных-предикторов.

Тест общей значимости F основан на следующих двух предположениях:

Нулевая гипотеза ( H0 ): модель без переменных-предикторов (также называемая моделью только для перехвата ) соответствует данным так же, как и ваша модель регрессии.

Альтернативная гипотеза ( HA ): ваша регрессионная модель лучше соответствует данным, чем модель только перехвата.

Когда вы подгоните модель регрессии к набору данных, вы получите на выходе таблицу регрессии , которая сообщит вам статистику F вместе с соответствующим значением p для этой статистики F.

Если значение p меньше выбранного вами уровня значимости ( обычные варианты — 0,01, 0,05 и 0,10 ), то у вас есть достаточно доказательств, чтобы сделать вывод, что ваша модель регрессии соответствует данным только как исходная модель. модель.

Пример: F-тест в регрессии

Предположим, у нас есть следующий набор данных, который показывает общее количество учебных часов, общее количество сданных подготовительных экзаменов и оценку за выпускной экзамен для 12 разных студентов:

Чтобы проанализировать взаимосвязь между учебными часами и сданными подготовительными экзаменами с итоговой оценкой за экзамен, которую получает студент, мы выполняем множественную линейную регрессию, используя количество учебных часов и количество сданных подготовительных экзаменов в качестве предикторных переменных, а итоговую экзаменационную оценку — как переменную ответа.

Получаем следующий результат:

Исходя из этих результатов, мы сосредоточимся на статистике F, приведенной в таблице ANOVA, а также на p-значении этой статистики F, которое в таблице помечено как значимость F. В качестве уровня значимости выберем 0,05.

F-статистика: 5,090515

P-значение: 0,0332

Техническое примечание. Статистика F рассчитывается как регрессия MS, деленная на остаток MS. В этом случае регрессия MS/остаток MS = 273,2665/53,68151 = 5,090515 .

Поскольку значение p ниже уровня значимости, мы можем заключить, что наша модель регрессии лучше соответствует данным, чем модель только перехвата.

В контексте этой конкретной проблемы это означает, что использование наших переменных-предсказателей «Часы обучения » и «Подготовительные экзамены» в модели позволяет нам лучше подогнать данные, чем если бы мы их исключили и просто использовали уникальную модель перехвата.

Примечания по интерпретации F-критерия общей значимости

В общем, если ни одна из ваших переменных-предсказателей не является статистически значимой, общий F-тест также не будет статистически значимым.

Однако в некоторых случаях это может быть не так, поскольку F-тест на общую значимость проверяет, являются ли все переменные-предикторы значимыми в совокупности , тогда как T-тест на значимость для каждой отдельной переменной-предиктора просто проверяет, является ли каждая прогностическая переменная значимой. индивидуально значимы.

Таким образом, F-тест определяет, являются ли все переменные-предикторы совместно значимыми или нет.

Возможно, что каждая переменная-предиктор не является значимой, но F-критерий показывает, что все вместе взятые переменные-предикторы являются значимыми в совокупности.

Техническое примечание. Как правило, чем больше переменных-предсказателей имеется в модели, тем выше вероятность того, что статистика F и соответствующее значение p будут статистически значимыми.

Другой показатель, который вы, вероятно, увидите в результатах регрессии, — это R-квадрат , который измеряет силу линейной связи между переменными-предикторами и переменной отклика.

Хотя R-квадрат может дать вам представление о том, в какой степени переменные-предикторы тесно связаны с переменной отклика, он не обеспечивает формальную статистическую проверку этой взаимосвязи.

Вот почему F-тест полезен, поскольку это формальный статистический тест. Кроме того, если общий F-тест значим, вы можете сделать вывод, что R-квадрат не равен нулю и что корреляция между переменными-предикторами и переменной ответа статистически значима.

Дополнительные ресурсы

В следующих руководствах объясняется, как интерпретировать другие распространенные значения в моделях регрессии:

Как читать и интерпретировать таблицу регрессии
Понимание стандартной ошибки регрессии
Что такое хорошее значение R-квадрата?

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *