Повний посібник: як інтерпретувати результати anova у r

за Редакція 25 Липня, 2023 Гід 0 коментарів

Односторонній дисперсійний аналіз використовується, щоб визначити, чи існує статистично значуща різниця між середніми значеннями трьох або більше незалежних груп.

Цей підручник містить повний посібник щодо інтерпретації результатів одностороннього дисперсійного аналізу в R.

Крок 1: Створіть дані

Припустімо, ми хочемо визначити, чи призводять три різні тренувальні програми до різної середньої втрати ваги в окремих людей.

Щоб перевірити це, ми набираємо 90 людей для участі в експерименті, у якому випадковим чином призначаємо 30 осіб, які будуть виконувати Програму A, B або C протягом місяця.

Наступний код створює фрейм даних, з яким ми будемо працювати:

 #make this example reproducible
set. seeds (0)

#create data frame
data <- data. frame (program = rep(c(' A ', ' B ', ' C '), each = 30),
                   weight_loss = c(runif(30, 0, 3),
                                   runif(30, 0, 5),
                                   runif(30, 1, 7)))

#view first six rows of data frame
head(data)

program weight_loss
1 A 2.6900916
2 A 0.7965260
3 A 1.1163717
4 A 1.7185601
5 A 2.7246234
6 A 0.6050458

Крок 2: Виконайте ANOVA

Далі ми використаємо команду aov() , щоб виконати односторонній дисперсійний аналіз:

 #fit one-way ANOVA model
model <- aov(weight_loss ~ program, data = data)

Крок 3: Інтерпретація результатів ANOVA

Далі ми використаємо команду summary() , щоб відобразити результати одностороннього дисперсійного аналізу:

 #view summary of one-way ANOVA model
summary(model)

            Df Sum Sq Mean Sq F value Pr(>F)    
program 2 98.93 49.46 30.83 7.55e-11 ***
Residuals 87 139.57 1.60                     
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Ось як інтерпретувати кожне значення результату:

Програма Df: Ступені свободи змінної програми . Це обчислюється як #groups -1. У цьому випадку було 3 різні програми навчання, тому це значення: 3-1 = 2 .

Df Залишки: Ступені свободи для залишків. Це обчислюється як #загальна кількість спостережень – #групи. У цьому випадку було 90 спостережень і 3 групи, тому це значення: 90 -3 = 87 .

Program Sum Sq: сума квадратів, пов’язана зі змінною програмою . Це значення становить 98,93 .

Сума квадратів залишків: сума квадратів, пов’язаних із залишками або «помилками». Це значення дорівнює 139,57 .

Середній квадрат. Програма: середня сума квадратів, пов’язана з програмою. Це обчислюється як сума в квадраті. програма / програма Дф. У цьому випадку це обчислюється так: 98,93 / 2 = 49,46 .

Середній квадрат. Залишки: середня сума квадратів, пов’язаних із залишками. Це обчислюється як сума в квадраті. залишки / залишки Df. У цьому випадку це обчислюється так: 139,57 / 87 = 1,60 .

Значення F: загальна F-статистика моделі ANOVA. Це обчислюється як середній квадрат. програма / Середн.кв. Залишки. У цьому випадку він розраховується так: 49,46 / 1,60 = 30,83 .

Pr(>F): значення p, пов’язане зі статистикою F із чисельником df = 2 і знаменником df = 87. У цьому випадку значення p становить 7,552e-11 , що є надзвичайно малим числом.

Найважливішим значенням у наборі результатів є p-значення, оскільки воно говорить нам, чи є значна різниця в середніх значеннях між трьома групами.

Нагадаємо, що односторонній дисперсійний аналіз використовує такі нульові та альтернативні гіпотези:

H ₀ (нульова гіпотеза): усі групові середні рівні.
H _A (альтернативна гіпотеза): принаймні одне групове середнє значення відрізняється від інших.

Оскільки p-значення в нашій таблиці ANOVA (.7552e-11) менше 0,05, ми маємо достатньо доказів, щоб відхилити нульову гіпотезу.

Це означає, що ми маємо достатньо доказів, щоб стверджувати, що середня втрата ваги, яку відчувають люди, не є однаковою між трьома програмами тренувань.

Крок 4: Виконайте пост-хок тестування (якщо необхідно)

Якщо значення p у результатах ANOVA менше 0,05, ми відхиляємо нульову гіпотезу. Це говорить нам про те, що середнє значення для кожної групи не однакове. Однак це не говорить нам про те, які групи відрізняються одна від одної.

Щоб це з’ясувати, нам потрібно провести пост-тест . У R ми можемо використовувати для цього функцію TukeyHSD() :

 #perform Tukey post-hoc test
TukeyHSD(model)

$program
         diff lwr upr p adj
BA 0.9777414 0.1979466 1.757536 0.0100545
CA 2.5454024 1.7656076 3.325197 0.0000000
CB 1.5676610 0.7878662 2.347456 0.0000199

Ось як інтерпретувати результати:

Скоригований p-значення для середньої різниці між групами A і B становить 0,0100545 .
Скоригований p-значення для середньої різниці між групами A і C становить 0,0000000 .
Скоригований p-значення для середньої різниці між групами B і C становить 0,0000199 .

Оскільки кожне зі скоригованих значень p менше 0,05, ми можемо зробити висновок, що існує значна різниця в середній втраті ваги між кожною групою.

Додаткові ресурси

Вступ до одностороннього дисперсійного аналізу
Як перевірити припущення ANOVA
Як вручну виконати односторонній дисперсійний аналіз
Односторонній калькулятор ANOVA

Про автора

Редакція

Привіт, я Бенджамін, професор статистики на пенсії, який став викладачем статистики. Маючи великий досвід і знання в галузі статистики, я готовий поділитися своїми знаннями, щоб розширити можливості студентів через Statorials. Дізнайтеся більше