Каков остаточный зазор? (определение & #038; пример)
Остаточная дисперсия (иногда называемая «необъяснимой дисперсией») относится к дисперсии в модели, которую нельзя объяснить переменными модели.
Чем выше остаточная дисперсия модели, тем меньше модель способна объяснить вариацию данных.
Остаточная дисперсия появляется в результатах двух разных статистических моделей:
1. ANOVA: используется для сравнения средних значений трех или более независимых групп.
2. Регрессия: используется для количественной оценки взаимосвязи между одной или несколькими переменными-предикторами и переменной отклика .
Следующие примеры показывают, как интерпретировать остаточную дисперсию в каждом из этих методов.
Остаточная дисперсия в моделях ANOVA
Каждый раз, когда мы подгоняем модель ANOVA («дисперсионный анализ»), мы получаем таблицу ANOVA, которая выглядит следующим образом:
Значение остаточной дисперсии модели ANOVA находится в столбце SS («сумма квадратов») для вариаций внутри группы .
Эту величину еще называют «суммой квадратов ошибок» и рассчитывают по следующей формуле:
Σ(X ij – X j ) 2
Золото:
- Σ : греческий символ, означающий «сумма».
- X ij : i-е наблюдение группы j
- X j : среднее значение группы j
В приведенной выше модели ANOVA мы видим, что остаточная дисперсия составляет 1100,6.
Чтобы определить, является ли эта остаточная дисперсия «высокой», мы можем вычислить среднюю сумму квадратов внутри групп и среднюю сумму квадратов между группами и найти соотношение между ними, что дает общее значение F в таблице ANOVA.
- F = МС входит / МС входит
- Ф = 96,1/40,76296
- Ф = 2,357
Значение F в таблице ANOVA выше составляет 2,357, а соответствующее значение p — 0,113848. Поскольку это значение p не меньше α = 0,05, у нас нет достаточных доказательств, чтобы отвергнуть нулевую гипотезу.
Это означает, что у нас нет достаточных доказательств, чтобы сказать, что средняя разница между сравниваемыми группами существенно различается.
Это говорит нам о том, что остаточная дисперсия модели ANOVA высока по сравнению с вариацией, которую модель может фактически объяснить.
Остаточная дисперсия в регрессионных моделях
В регрессионной модели остаточная дисперсия определяется как сумма квадратов разностей между прогнозируемыми точками данных и наблюдаемыми точками данных.
Он рассчитывается следующим образом:
Σ(ŷ i – y i ) 2
Золото:
- Σ : греческий символ, означающий «сумма».
- ŷ i : Прогнозируемые точки данных.
- y i : наблюдаемые точки данных
Когда мы подгоняем регрессионную модель, мы обычно получаем результат, который выглядит следующим образом:
Значение остаточной дисперсии модели ANOVA можно найти в столбце SS («сумма квадратов») для остаточной вариации.
Отношение остаточной вариации к общей вариации в модели показывает нам процент вариации переменной отклика, который не может быть объяснен переменными-предикторами в модели.
Например, в таблице выше мы рассчитаем этот процент следующим образом:
- Необъяснимое изменение = Остаток SS / Всего SS
- Необъяснимое изменение = 5,9024 / 174,5.
- Необъяснимое изменение = 0,0338.
Это значение также можно рассчитать по следующей формуле:
- Необъяснимое изменение = 1 – R 2
- Необъяснимая вариация = 1 – 0,96617
- Необъяснимое изменение = 0,0338.
Значение R-квадрата модели сообщает нам процент вариации переменной отклика, который можно объяснить переменной-предиктором.
Таким образом, чем ниже необъяснимое изменение, тем больше возможностей модели использовать переменные-предикторы для объяснения изменения переменной отклика.
Дополнительные ресурсы
Что такое хорошее значение R-квадрата?
Как посчитать R-квадрат в Excel
Как рассчитать R-квадрат в R