Как вручную выполнить однофакторный дисперсионный анализ
Односторонний дисперсионный анализ («дисперсионный анализ») сравнивает средние значения трех или более независимых групп, чтобы определить, существует ли статистически значимая разница между средними значениями соответствующей совокупности.
В этом руководстве объясняется, как вручную выполнить однофакторный дисперсионный анализ.
Пример: ручной однофакторный дисперсионный анализ.
Предположим, мы хотим знать, приводят ли три разные программы подготовки к экзамену к разным средним баллам на данном экзамене. Чтобы проверить это, мы набираем 30 студентов для участия в исследовании и делим их на три группы.
Студентам в каждой группе случайным образом назначаются использовать одну из трех программ подготовки к экзамену в течение следующих трех недель для подготовки к экзамену. В конце трех недель все студенты сдают один и тот же экзамен.
Результаты экзамена для каждой группы показаны ниже:
Выполните следующие шаги, чтобы вручную выполнить однофакторный дисперсионный анализ и определить, различается ли средний балл экзамена между тремя группами:
Шаг 1: Рассчитайте среднее значение группы и общее среднее значение.
Сначала мы рассчитаем среднее значение по трем группам, а также общее среднее значение:
Шаг 2: Рассчитайте SSR.
Далее мы рассчитаем регрессию суммы квадратов (SSR), используя следующую формулу:
nΣ(X j – X ..) 2
Золото:
- n : размер выборки группы j
- Σ : греческий символ, означающий «сумма».
- X j : среднее значение группы j
- X .. : общий средний показатель
В нашем примере мы вычисляем, что SSR = 10(83,4-85,8) 2 + 10(89,3-85,8) 2 + 10(84,7-85,8) 2 = 192,2.
Шаг 3: Рассчитайте SES.
Далее мы рассчитаем сумму квадратов ошибок (SSE) по следующей формуле:
Σ(X ij – X j ) 2
Золото:
- Σ : греческий символ, означающий «сумма».
- X ij : i-е наблюдение группы j
- X j : среднее значение группы j
В нашем примере мы рассчитываем SSE следующим образом:
Группа 1: (85-83,4) 2 + (86-83,4) 2 + (88-83,4) 2 + (75-83,4) 2 + (78-83,4) 2 + (94-83,4) 2 + (98-83,4) 2 + (79-83,4) 2 + (71-83,4) 2 + (80-83,4) 2 = 640,4
Группа 2: (91-89,3) 2 + (92-89,3) 2 + (93-89,3) 2 + (85-89,3) 2 + (87-89,3) 2 + (84-89,3) 2 + (82-89,3) 2 + (88-89,3) 2 + (95-89,3) 2 + (96-89,3) 2 = 208,1
Группа 3: (79-84,7) 2 + (78-84,7) 2 + (88-84,7) 2 + (94-84,7) 2 + (92-84,7) 2 + (85-84,7) 2 + (83-84,7) 2 + (85-84,7) 2 + (82-84,7) 2 + (81-84,7) 2 = 252,1
ЭСС: 640,4 + 208,1 + 252,1 = 1100,6
Шаг 4: Рассчитайте SST.
Далее рассчитаем общую сумму квадратов (SST) по следующей формуле:
ССТ = ССР + ССЕ
В нашем примере ССТ = 192,2 + 1100,6 = 1292,8.
Шаг 5: Заполните таблицу ANOVA.
Теперь, когда у нас есть SSR, SSE и SST, мы можем заполнить таблицу ANOVA:
Источник | Сумма квадратов (СС) | дф | Среднеквадратичные (МС) | Ф |
---|---|---|---|---|
Уход | 192,2 | 2 | 96,1 | 2358 |
Ошибка | 1100,6 | 27 | 40,8 | |
Общий | 1292,8 | 29 |
Вот как мы рассчитали разные числа в таблице:
- лечение df: k-1 = 3-1 = 2
- ошибка df: nk = 30-3 = 27
- общая df: n-1 = 30-1 = 29
- Лечение СЭП: лечение ССТ / df = 192,2 / 2 = 96,1
- Ошибка MS: ошибка SSE / df = 1100,6 / 27 = 40,8
- F: обработка MS/ошибка MS = 96,1/40,8 = 2,358
Примечание: n = общее количество наблюдений, k = количество групп.
Шаг 6: Интерпретируйте результаты.
Статистика F-теста для этого однофакторного дисперсионного анализа равна 2,358 . Чтобы определить, является ли это статистически значимым результатом, нам нужно сравнить его с критическим значением F, найденным в таблице распределения F со следующими значениями:
- α (уровень значимости) = 0,05
- DF1 (степени свободы числителя) = df обработка = 2
- DF2 (степени свободы знаменателя) = ошибка df = 27
Мы находим, что критическое значение F составляет 3,3541 .
Поскольку статистика F-теста в таблице ANOVA меньше критического значения F в таблице распределения F, мы не можем отвергнуть нулевую гипотезу. Это означает, что у нас нет достаточных доказательств, чтобы утверждать, что существует статистически значимая разница между средними баллами экзаменов трех групп.
Бонусный ресурс: используйте этот калькулятор однофакторного дисперсионного анализа для автоматического выполнения однофакторного дисперсионного анализа для пяти образцов.