Як обчислити суму квадратів у anova (з прикладом)
У статистиці односторонній дисперсійний аналіз використовується для порівняння середніх значень трьох або більше незалежних груп, щоб визначити, чи існує статистично значуща різниця між середніми значеннями відповідної сукупності.
Щоразу, коли ви виконуєте односторонній дисперсійний аналіз, ви завжди обчислюєте три значення суми квадратів:
1. Сума квадратів регресії (SSR)
- Це сума квадратів різниць між середнім показником кожної групи та загальним середнім .
2. Помилка суми квадратів (SSE)
- Це сума квадратів різниць між кожним окремим спостереженням і груповим середнім значенням цього спостереження.
3. Сума загальних квадратів (SST)
- Це сума квадратів різниць між кожним окремим спостереженням і загальним середнім.
Кожне з цих трьох значень розміщується в остаточній таблиці ANOVA, яку ми використовуємо, щоб визначити, чи є статистично значуща різниця між середніми значеннями групи.
У наступному прикладі показано, як на практиці обчислити кожне з цих значень суми квадратів для одностороннього дисперсійного аналізу.
Приклад: як обчислити суму квадратів у ANOVA
Припустімо, ми хочемо знати, чи три різні програми підготовки до іспиту призводять до різних середніх балів на даному іспиті. Щоб перевірити це, ми набираємо 30 студентів для участі в дослідженні та ділимо їх на три групи.
Студенти в кожній групі випадковим чином розподіляються для використання однієї з трьох програм підготовки до іспиту протягом наступних трьох тижнів для підготовки до іспиту. Після закінчення трьох тижнів усі студенти складають один і той же іспит.
Результати іспитів для кожної групи наведені нижче:
Наступні кроки показують, як обчислити суму квадратів значень для цього одностороннього дисперсійного аналізу.
Крок 1: Обчисліть середнє групове та загальне середнє значення.
Спочатку ми обчислимо середнє значення трьох груп, а також загальне (або «загальне») середнє значення:
Крок 2: Обчисліть SSR.
Далі ми розрахуємо регресію суми квадратів (SSR) за такою формулою:
nΣ(X j – X ..) 2
золото:
- n : розмір вибірки групи j
- Σ : грецький символ, що означає «сума»
- X j : середнє значення групи j
- X .. : загальне середнє
У нашому прикладі ми обчислюємо, що SSR = 10(83,4-85,8) 2 + 10(89,3-85,8) 2 + 10(84,7-85,8) 2 = 192,2
Крок 3: розрахувати SES.
Далі ми обчислимо похибку суми квадратів (SSE) за такою формулою:
Σ(X ij – X j ) 2
золото:
- Σ : грецький символ, що означає «сума»
- X ij : i-те спостереження групи j
- X j : середнє значення групи j
У нашому прикладі ми обчислюємо SSE наступним чином:
Група 1: (85-83,4) 2 + (86-83,4) 2 + (88-83,4) 2 + (75-83,4) 2 + (78-83,4) 2 + (94-83,4) 2 + (98-83,4) 2 + (79-83,4) 2 + (71-83,4) 2 + (80-83,4) 2 = 640,4
Група 2: (91-89,3) 2 + (92-89,3) 2 + (93-89,3) 2 + (85-89,3) 2 + (87-89,3) 2 + (84-89,3) 2 + (82-89,3) 2 + (88-89,3) 2 + (95-89,3) 2 + (96-89,3) 2 = 208,1
3 група: (79-84,7) 2 + (78-84,7) 2 + (88-84,7) 2 + (94-84,7) 2 + (92-84,7) 2 + (85-84,7) 2 + (83-84,7) 2 + (85-84,7) 2 + (82-84,7) 2 + (81-84,7) 2 = 252,1
ESS: 640,4 + 208,1 + 252,1 = 1100,6
Крок 4: Обчисліть SST.
Далі ми обчислимо загальну суму квадратів (SST) за такою формулою:
SST = SSR + SSE
У нашому прикладі SST = 192,2 + 1100,6 = 1292,8
Після того, як ми обчислили значення SSR, SSE і SST, кожне з цих значень буде остаточно розміщено в таблиці ANOVA:
Джерело | Сума квадратів (SS) | df | Середні квадрати (MS) | F-значення | р-значення |
---|---|---|---|---|---|
регресія | 192.2 | 2 | 96.1 | 2,358 | 0,1138 |
Помилка | 1100,6 | 27 | 40.8 | ||
Всього | 1292,8 | 29 |
Ось як ми розрахували різні числа в таблиці:
- регресія df: k-1 = 3-1 = 2
- помилка df: nk = 30-3 = 27
- загальний df: n-1 = 30-1 = 29
- Лікування SEP: лікування SST/df = 192,2 / 2 = 96,1
- Помилка MS: помилка SSE / df = 1100,6 / 27 = 40,8
- Значення F: обробка MS / помилка MS = 96,1 / 40,8 = 2,358
- p-value : p-value, яке відповідає значенню F.
Примітка: n = загальна кількість спостережень, k = кількість груп
Перегляньте цей підручник , щоб дізнатися, як інтерпретувати значення F і p у таблиці ANOVA.