Что объясняется дисперсией? (определение & #038; пример)


Объясненная дисперсия (иногда называемая «объясненной вариацией») относится к дисперсии переменной отклика в модели, которую можно объяснить с помощью предикторных переменных модели.

Чем выше объясненная дисперсия модели, тем большую вариативность данных она способна объяснить.

Объясненная дисперсия проявляется в результатах двух разных статистических моделей:

1. ANOVA: используется для сравнения средних значений трех или более независимых групп.

2. Регрессия: используется для количественной оценки взаимосвязи между одной или несколькими переменными-предикторами и переменной отклика.

Следующие примеры показывают, как интерпретировать остаточную дисперсию в каждом из этих методов.

Примечание . Противоположность объясненной дисперсии называется остаточной дисперсией .

Отклонение, объясненное в моделях ANOVA

Каждый раз, когда мы подгоняем модель ANOVA («дисперсионный анализ»), мы получаем таблицу ANOVA, которая выглядит следующим образом:

Объясненная дисперсия находится в столбце SS («сумма квадратов») для вариаций между группами .

В приведенной выше модели ANOVA мы видим, что объясненная дисперсия составляет 192,2.

Чтобы определить, является ли эта объясненная дисперсия «высокой», мы можем вычислить среднюю сумму квадратов внутри групп и среднюю сумму квадратов между группами и найти соотношение между ними, что дает общее значение F в таблице ANOVA.

  • F = МС входит / МС входит
  • Ф = 96,1/40,76296
  • Ф = 2,357

Значение F в таблице ANOVA выше составляет 2,357, а соответствующее значение p — 0,113848.

Поскольку это значение p не меньше α = 0,05, у нас нет достаточных доказательств, чтобы отвергнуть нулевую гипотезу ANOVA .

Это означает, что у нас нет достаточных доказательств, чтобы сказать, что средняя разница между сравниваемыми группами существенно различается.

Это говорит нам о том, что объясненная дисперсия в модели ANOVA мала по сравнению с необъяснимой дисперсией.

Отклонение, объясненное в регрессионных моделях

В регрессионной модели объясненная дисперсия суммируется как R-квадрат , часто обозначаемый R2 .

Это значение представляет собой долю дисперсии переменной ответа, которую можно объяснить предикторными переменными в модели.

Значение R в квадрате может варьироваться от 0 до где:

  • Значение 0 указывает, что переменная ответа вообще не может быть объяснена предикторной переменной(ями).
  • Значение 1 указывает на то, что переменная отклика может быть полностью и без ошибок объяснена предикторной переменной(ями).

Когда мы подгоняем регрессионную модель, мы обычно получаем результат, который выглядит следующим образом:

Мы видим, что объясненная дисперсия равна 168,5976 , а общая дисперсия равна 174,5 .

Используя эти значения, мы можем рассчитать значение R-квадрата для этой регрессионной модели следующим образом:

  • R в квадрате: регрессия SS / общая SS
  • R в квадрате: 168,5976/174,5
  • R в квадрате: 0,966

Поскольку значение R-квадрата этой модели близко к 1, это говорит нам о том, что дисперсия, объясняемая моделью, чрезвычайно высока.

Другими словами, модель способна хорошо использовать переменные-предикторы для объяснения изменений переменной отклика.

Связанный: Что такое хорошее значение R-квадрата?

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *