Що пояснюється дисперсією? (визначення & #038; приклад)


Пояснена дисперсія (іноді її називають «поясненою варіацією») відноситься до дисперсії змінної відповіді в моделі, яку можна пояснити змінною(ями) предиктора моделі.

Чим вище пояснена дисперсія моделі, тим більше варіацій у даних модель здатна пояснити.

Пояснена дисперсія з’являється в результатах двох різних статистичних моделей:

1. ANOVA: використовується для порівняння середніх трьох або більше незалежних груп.

2. Регресія: використовується для кількісного визначення зв’язку між однією або декількома змінними предиктора та змінною відповіді.

У наступних прикладах показано, як інтерпретувати залишкову дисперсію в кожному з цих методів.

Примітка : протилежність поясненій дисперсії називається залишковою дисперсією .

Дисперсія пояснюється моделями ANOVA

Щоразу, коли ми підбираємо модель ANOVA («дисперсійний аналіз»), ми отримуємо таблицю ANOVA, яка виглядає так:

Пояснена дисперсія знаходиться в колонці SS («сума квадратів») для варіації між групами .

У наведеній вище моделі ANOVA ми бачимо, що пояснена дисперсія становить 192,2.

Щоб визначити, чи є ця пояснена дисперсія «високою», ми можемо обчислити середню суму квадратів для груп і середню суму квадратів для груп і знайти співвідношення між ними, яке дає загальне значення F у таблиці ANOVA.

  • F = MS входить / MS входить
  • F = 96,1 / 40,76296
  • F = 2,357

Значення F у таблиці ANOVA вище становить 2,357, а відповідне значення p — 0,113848.

Оскільки це p-значення не менше α = 0,05, ми не маємо достатніх доказів, щоб відхилити нульову гіпотезу ANOVA .

Це означає, що ми не маємо достатніх доказів, щоб стверджувати, що середня різниця між групами, які ми порівнюємо, значно відрізняється.

Це говорить нам про те, що пояснена дисперсія в моделі ANOVA мала порівняно з нез’ясованою дисперсією.

Дисперсія пояснюється в регресійних моделях

У моделі регресії пояснена дисперсія узагальнюється як R-квадрат , який часто записують як R2 .

Це значення представляє частку дисперсії у змінній відповіді, яку можна пояснити змінною(ями) предиктора в моделі.

Значення R у квадраті може коливатися від 0 до де:

  • Значення 0 вказує на те, що змінна відповіді взагалі не може бути пояснена змінною(ями) предиктора.
  • Значення 1 вказує на те, що змінна відповіді може бути ідеально пояснена без помилок змінною(ями) предиктора.

Коли ми підбираємо модель регресії, ми зазвичай отримуємо результат, який виглядає так:

Ми бачимо, що пояснена дисперсія становить 168,5976 , а загальна дисперсія – 174,5 .

Використовуючи ці значення, ми можемо обчислити значення R-квадрат для цієї моделі регресії наступним чином:

  • R у квадраті: регресія SS / загальна SS
  • R у квадраті: 168,5976 / 174,5
  • R у квадраті: 0,966

Оскільки значення R-квадрат цієї моделі близько до 1, це говорить нам про те, що дисперсія, пояснена в моделі, є надзвичайно високою.

Іншими словами, модель здатна виконувати хорошу роботу, використовуючи змінні предикторів для пояснення варіацій у змінній відповіді.

За темою: що таке хороше значення R-квадрат?

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *