Каков остаточный зазор? (определение & #038; пример)


Остаточная дисперсия (иногда называемая «необъяснимой дисперсией») относится к дисперсии в модели, которую нельзя объяснить переменными модели.

Чем выше остаточная дисперсия модели, тем меньше модель способна объяснить вариацию данных.

Остаточная дисперсия появляется в результатах двух разных статистических моделей:

1. ANOVA: используется для сравнения средних значений трех или более независимых групп.

2. Регрессия: используется для количественной оценки взаимосвязи между одной или несколькими переменными-предикторами и переменной отклика .

Следующие примеры показывают, как интерпретировать остаточную дисперсию в каждом из этих методов.

Остаточная дисперсия в моделях ANOVA

Каждый раз, когда мы подгоняем модель ANOVA («дисперсионный анализ»), мы получаем таблицу ANOVA, которая выглядит следующим образом:

Остаточная дисперсия в модели ANOVA

Значение остаточной дисперсии модели ANOVA находится в столбце SS («сумма квадратов») для вариаций внутри группы .

Эту величину еще называют «суммой квадратов ошибок» и рассчитывают по следующей формуле:

Σ(X ijX j ) 2

Золото:

  • Σ : греческий символ, означающий «сумма».
  • X ij : i-е наблюдение группы j
  • X j : среднее значение группы j

В приведенной выше модели ANOVA мы видим, что остаточная дисперсия составляет 1100,6.

Чтобы определить, является ли эта остаточная дисперсия «высокой», мы можем вычислить среднюю сумму квадратов внутри групп и среднюю сумму квадратов между группами и найти соотношение между ними, что дает общее значение F в таблице ANOVA.

  • F = МС входит / МС входит
  • Ф = 96,1/40,76296
  • Ф = 2,357

Значение F в таблице ANOVA выше составляет 2,357, а соответствующее значение p — 0,113848. Поскольку это значение p не меньше α = 0,05, у нас нет достаточных доказательств, чтобы отвергнуть нулевую гипотезу.

Это означает, что у нас нет достаточных доказательств, чтобы сказать, что средняя разница между сравниваемыми группами существенно различается.

Это говорит нам о том, что остаточная дисперсия модели ANOVA высока по сравнению с вариацией, которую модель может фактически объяснить.

Остаточная дисперсия в регрессионных моделях

В регрессионной модели остаточная дисперсия определяется как сумма квадратов разностей между прогнозируемыми точками данных и наблюдаемыми точками данных.

Он рассчитывается следующим образом:

Σ(ŷ i – y i ) 2

Золото:

  • Σ : греческий символ, означающий «сумма».
  • ŷ i : Прогнозируемые точки данных.
  • y i : наблюдаемые точки данных

Когда мы подгоняем регрессионную модель, мы обычно получаем результат, который выглядит следующим образом:

Остаточная дисперсия в регрессионной модели

Значение остаточной дисперсии модели ANOVA можно найти в столбце SS («сумма квадратов») для остаточной вариации.

Отношение остаточной вариации к общей вариации в модели показывает нам процент вариации переменной отклика, который не может быть объяснен переменными-предикторами в модели.

Например, в таблице выше мы рассчитаем этот процент следующим образом:

  • Необъяснимое изменение = Остаток SS / Всего SS
  • Необъяснимое изменение = 5,9024 / 174,5.
  • Необъяснимое изменение = 0,0338.

Это значение также можно рассчитать по следующей формуле:

  • Необъяснимое изменение = 1 – R 2
  • Необъяснимая вариация = 1 – 0,96617
  • Необъяснимое изменение = 0,0338.

Значение R-квадрата модели сообщает нам процент вариации переменной отклика, который можно объяснить переменной-предиктором.

Таким образом, чем ниже необъяснимое изменение, тем больше возможностей модели использовать переменные-предикторы для объяснения изменения переменной отклика.

Дополнительные ресурсы

Что такое хорошее значение R-квадрата?
Как посчитать R-квадрат в Excel
Как рассчитать R-квадрат в R

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *