Что объясняется дисперсией? (определение & #038; пример)
Объясненная дисперсия (иногда называемая «объясненной вариацией») относится к дисперсии переменной отклика в модели, которую можно объяснить с помощью предикторных переменных модели.
Чем выше объясненная дисперсия модели, тем большую вариативность данных она способна объяснить.
Объясненная дисперсия проявляется в результатах двух разных статистических моделей:
1. ANOVA: используется для сравнения средних значений трех или более независимых групп.
2. Регрессия: используется для количественной оценки взаимосвязи между одной или несколькими переменными-предикторами и переменной отклика.
Следующие примеры показывают, как интерпретировать остаточную дисперсию в каждом из этих методов.
Примечание . Противоположность объясненной дисперсии называется остаточной дисперсией .
Отклонение, объясненное в моделях ANOVA
Каждый раз, когда мы подгоняем модель ANOVA («дисперсионный анализ»), мы получаем таблицу ANOVA, которая выглядит следующим образом:
Объясненная дисперсия находится в столбце SS («сумма квадратов») для вариаций между группами .
В приведенной выше модели ANOVA мы видим, что объясненная дисперсия составляет 192,2.
Чтобы определить, является ли эта объясненная дисперсия «высокой», мы можем вычислить среднюю сумму квадратов внутри групп и среднюю сумму квадратов между группами и найти соотношение между ними, что дает общее значение F в таблице ANOVA.
- F = МС входит / МС входит
- Ф = 96,1/40,76296
- Ф = 2,357
Значение F в таблице ANOVA выше составляет 2,357, а соответствующее значение p — 0,113848.
Поскольку это значение p не меньше α = 0,05, у нас нет достаточных доказательств, чтобы отвергнуть нулевую гипотезу ANOVA .
Это означает, что у нас нет достаточных доказательств, чтобы сказать, что средняя разница между сравниваемыми группами существенно различается.
Это говорит нам о том, что объясненная дисперсия в модели ANOVA мала по сравнению с необъяснимой дисперсией.
Отклонение, объясненное в регрессионных моделях
В регрессионной модели объясненная дисперсия суммируется как R-квадрат , часто обозначаемый R2 .
Это значение представляет собой долю дисперсии переменной ответа, которую можно объяснить предикторными переменными в модели.
Значение R в квадрате может варьироваться от 0 до где:
- Значение 0 указывает, что переменная ответа вообще не может быть объяснена предикторной переменной(ями).
- Значение 1 указывает на то, что переменная отклика может быть полностью и без ошибок объяснена предикторной переменной(ями).
Когда мы подгоняем регрессионную модель, мы обычно получаем результат, который выглядит следующим образом:
Мы видим, что объясненная дисперсия равна 168,5976 , а общая дисперсия равна 174,5 .
Используя эти значения, мы можем рассчитать значение R-квадрата для этой регрессионной модели следующим образом:
- R в квадрате: регрессия SS / общая SS
- R в квадрате: 168,5976/174,5
- R в квадрате: 0,966
Поскольку значение R-квадрата этой модели близко к 1, это говорит нам о том, что дисперсия, объясняемая моделью, чрезвычайно высока.
Другими словами, модель способна хорошо использовать переменные-предикторы для объяснения изменений переменной отклика.
Связанный: Что такое хорошее значение R-квадрата?