Руководство по использованию апостериорного тестирования с помощью anova


ANOVA — это статистический тест, используемый для определения наличия или отсутствия статистически значимой разницы между средними значениями трех или более независимых групп.

Допущения , используемые в ANOVA, следующие:

Нулевая гипотеза (H 0 ): µ 1 = µ 2 = µ 3 = … = µ k (средние значения равны для каждой группы)

Альтернативная гипотеза: (Ха): хотя бы одно из средств отличается от других.

Если значение p ANOVA ниже уровня значимости, мы можем отвергнуть нулевую гипотезу и заключить, что у нас есть достаточно доказательств, чтобы сказать, что по крайней мере одно из групповых средних значений отличается от других.

Однако это не говорит нам о том, какие группы отличаются друг от друга. Это просто говорит нам о том, что не все средние значения по группам одинаковы.

Чтобы точно знать, какие группы отличаются друг от друга, нам необходимо выполнить апостериорный тест (также известный как тест множественного сравнения), который позволит нам изучить разницу между средними значениями нескольких групп, а также контролировать семью. . разумный процент ошибок.

Техническое примечание. Важно отметить, что нам следует выполнять апостериорный тест только тогда, когда p-значение ANOVA является статистически значимым. Если значение p не является статистически значимым, это указывает на то, что средние значения всех групп не отличаются друг от друга. Поэтому нет необходимости проводить апостериорный тест, чтобы определить, какие группы отличаются друг от друга.

Частота семейных ошибок

Как упоминалось ранее, апостериорные тесты позволяют нам проверить разницу между средними значениями нескольких групп, а также контролировать частоту ошибок для каждой семьи .

При проверке гипотез всегда существует частота ошибок I типа, которая определяется нашим уровнем значимости (альфа) и сообщает нам вероятность отклонения нулевой гипотезы, которая на самом деле верна. Другими словами, это вероятность получения «ложноположительного результата», то есть когда мы утверждаем, что между группами существует статистически значимая разница, тогда как на самом деле это не так.

Когда мы проводим проверку гипотез, частота ошибок типа I равна уровню значимости, который обычно выбирается равным 0,01, 0,05 или 0,10. Однако когда мы запускаем несколько тестов гипотез одновременно, вероятность получения ложноположительного результата возрастает.

Например, представьте, что мы бросаем 20-гранный кубик. Вероятность того, что на кубике выпадет «1», составляет всего 5%. Но если вы бросите два кубика одновременно, вероятность того, что на одном из кубиков выпадет «1», увеличится до 9,75%. Если мы бросим пять кубиков одновременно, вероятность увеличится до 22,6%.

Чем больше кубиков мы бросим, тем выше вероятность того, что на одном из кубиков выпадет «1». Аналогичным образом, если мы запустим несколько проверок гипотез одновременно, используя уровень значимости 0,05, вероятность того, что мы получим ложноположительный результат, увеличится за пределы 0,05.

Множественные сравнения в ANOVA

Когда мы выполняем ANOVA, мы часто сравниваем три или более группы. Поэтому, когда мы проводим апостериорный тест, чтобы изучить разницу между групповыми средними, мы хотим изучить множественные парные сравнения.

Например, предположим, что у нас есть четыре группы: A, B, C и D. Это означает, что всего существует шесть парных сравнений, которые мы хотим проверить с помощью апостериорного теста:

A – B (разница между средним значением группы A и средним значением группы B)
переменного тока
ОБЪЯВЛЕНИЕ
ДО Н.Э.
комиксы
CD

Если у нас будет более четырех групп, количество парных сравнений, которые мы захотим выполнить, только увеличится еще больше. В следующей таблице показано количество парных сравнений, связанных с каждым количеством групп, а также частота ошибок на семейство:

Обратите внимание, что частота ошибок для каждого семейства быстро увеличивается по мере увеличения количества групп (и, следовательно, количества парных сравнений). Фактически, как только мы достигнем шести групп, вероятность того, что мы получим ложноположительный результат, составит более 50%!

Это означает, что у нас возникли бы серьезные сомнения относительно наших результатов, если бы нам пришлось проводить так много парных сравнений, зная, что наша частота семейных ошибок очень высока.

К счастью, апостериорное тестирование позволяет нам проводить многочисленные сравнения между группами, одновременно контролируя частоту ошибок по семьям.

Пример: однофакторный дисперсионный анализ с апостериорными тестами.

В следующем примере показано, как выполнить однофакторный дисперсионный анализ с помощью апостериорных тестов.

Примечание. В этом примере используется язык программирования R, но вам не обязательно знать R, чтобы понять результаты тестов или ключевые выводы.

Сначала мы создадим набор данных, содержащий четыре группы (A, B, C, D) по 20 наблюдений в каждой группе:

 #make this example reproducible
set.seed(1)

#load tidyr library to convert data from wide to long format
library(tidyr)

#create wide dataset
data <- data.frame(A = runif(20, 2, 5),
                   B = runif(20, 3, 5),
                   C = runif(20, 3, 6),
                   D = runif(20, 4, 6))

#convert to long dataset for ANOVA
data_long <- gather(data, key = "group", value = "amount", A, B, C, D)

#view first six lines of dataset
head(data_long)

# group amount
#1 To 2.796526
#2 A 3.116372
#3 A 3.718560
#4 A 4.724623
#5 A 2.605046
#6 A 4.695169

Далее мы проведем односторонний дисперсионный анализ для набора данных:

 #fit anova model
anova_model <- aov(amount ~ group, data = data_long)

#view summary of anova model
summary(anova_model)

# Df Sum Sq Mean Sq F value Pr(>F)    
#group 3 25.37 8.458 17.66 8.53e-09 ***
#Residuals 76 36.39 0.479            

Из результатов таблицы ANOVA мы видим, что статистика F равна 17,66, а соответствующее значение p чрезвычайно мало.

Это означает, что у нас есть достаточно доказательств, чтобы отвергнуть нулевую гипотезу о том, что все средние группы равны. Затем мы можем использовать апостериорный тест, чтобы определить, какие средние группы отличаются друг от друга.

Мы рассмотрим примеры следующих апостериорных тестов:

Тест Тьюки – полезен, когда вы хотите выполнить все возможные попарные сравнения.

Метод Холма — немного более консервативный тест, чем тест Тьюки.

Коррекция Даннетта – полезна, когда вы хотите сравнить среднее значение каждой группы со средним значением контроля и не хотите сравнивать средства лечения друг с другом.

Тест Тьюки

Мы можем выполнить тест Тьюки для множественных сравнений, используя встроенную функцию R TukeyHSD() следующим образом:

 #perform Tukey's Test for multiple comparisons
TukeyHSD(anova_model, conf.level=.95) 

#Tukey multiple comparisons of means
# 95% family-wise confidence level
#
#Fit: aov(formula = amount ~ group, data = data_long)
#
#$group
# diff lwr upr p adj
#BA 0.2822630 -0.292540425 0.8570664 0.5721402
#CA 0.8561388 0.281335427 1.4309423 0.0011117
#DA 1.4676027 0.892799258 2.0424061 0.0000000
#CB 0.5738759 -0.000927561 1.1486793 0.0505270
#DB 1.1853397 0.610536271 1.7601431 0.0000041
#DC 0.6114638 0.036660419 1.1862672 0.0326371

Обратите внимание, что мы указали, что наш уровень достоверности составляет 95 %, что означает, что мы хотим, чтобы коэффициент ошибок для каждого семейства составлял 0,05. R дает нам две метрики для сравнения каждой попарной разницы:

  • Доверительный интервал для средней разницы (задается значениями lwr и upr )
  • p-значение с поправкой на среднюю разницу

Доверительный интервал и значение p приведут к такому же выводу.

Например, 95% доверительный интервал для средней разницы между группой C и группой A равен (0,2813, 1,4309), и поскольку этот интервал не содержит нуля, мы знаем, что разница между средними значениями этих двух групп статистически значима. В частности, мы знаем, что разница положительна, поскольку нижняя граница доверительного интервала больше нуля.

Аналогичным образом, значение p для средней разницы между группой C и группой A составляет 0,0011, что ниже нашего уровня значимости 0,05, что также указывает на то, что разница между средними значениями этих двух групп статистически значима.

Мы также можем визуализировать 95% доверительные интервалы, полученные в результате теста Тьюки, с помощью функцииplot() в R:

 plot(TukeyHSD(anova_model, conf.level=.95))

Если интервал содержит ноль, то мы знаем, что разница между средними значениями группы не является статистически значимой. В приведенном выше примере различия для BA и CB не являются статистически значимыми, но различия для остальных четырех парных сравнений статистически значимы.

метод Холма

Еще один апостериорный тест, который мы можем выполнить, — это метод Холма. Этот тест обычно считается более консервативным, чем тест Тьюки.

Мы можем использовать следующий код в R для запуска метода Холма для множественных парных сравнений:

 #perform holm's method for multiple comparisons
pairwise.t.test(data_long$amount, data_long$group, p.adjust="holm") 
# Pairwise comparisons using t tests with pooled SD 
#
#data: data_long$amount and data_long$group 
#
#ABC
#B 0.20099 - -      
#C 0.00079 0.02108 -      
#D 1.9e-08 3.4e-06 0.01974
#
#P value adjustment method: holm

Этот тест предоставляет сетку p-значений для каждого парного сравнения. Например, значение p для разницы между средним значением группы A и группы B составляет 0,20099.

Если вы сравните значения p из этого теста со значениями p из теста Тьюки, вы заметите, что каждое из парных сравнений приводит к одному и тому же выводу, за исключением разницы между группами C и D. -значение этой разницы составило 0,0505 в тесте Тьюки по сравнению с 0,02108 в методе Холма.

Таким образом, используя критерий Тьюки, мы пришли к выводу, что разница между группой С и группой D не является статистически значимой на уровне значимости 0,05, но, используя метод Холма, мы пришли к выводу, что разница между группой C и группой D статистически значима .

В целом значения p, полученные методом Холма, как правило, ниже, чем значения, полученные с помощью теста Тьюки.

Поправка Даннета

Другой метод, который мы можем использовать для множественных сравнений, — это поправка Данетта. Мы будем использовать этот подход, когда хотим сравнить средства каждой группы с контрольным средним и не хотим сравнивать средства лечения друг с другом.

Например, используя приведенный ниже код, мы сравниваем групповые средние значения B, C и D со средними значениями группы A. Таким образом, мы используем группу A в качестве контрольной группы и нас не интересуют различия между группами B, C. ., и Д.

 #load multcomp library necessary for using Dunnett's Correction
library(multicomp)

#convert group variable to factor 
data_long$group <- as.factor(data_long$group)

#fit anova model
anova_model <- aov(amount ~ group, data = data_long)

#performcomparisons
dunnet_comparison <- glht(anova_model, linfct = mcp(group = "Dunnett"))

#view summary of comparisons
summary(dunnet_comparison)

#Multiple Comparisons of Means: Dunnett Contrasts
#
#Fit: aov(formula = amount ~ group, data = data_long)
#
#Linear Assumptions:
#Estimate Std. Error t value Pr(>|t|)    
#B - A == 0 0.2823 0.2188 1.290 0.432445    
#C - A == 0 0.8561 0.2188 3.912 0.000545 ***
#D - A == 0 1.4676 0.2188 6.707 < 1e-04 ***

Из p-значений на выходе мы видим следующее:

  • Разница между средним значением группы B и группы A не является статистически значимой при уровне значимости 0,05. Значение p для этого теста составляет 0,4324 .
  • Разница между средним значением группы C и группы A статистически значима при уровне значимости 0,05. Значение p для этого теста составляет 0,0005 .
  • Разница между средним значением группы D и группы A статистически значима при уровне значимости 0,05. Значение p для этого теста составляет 0,00004 .

Как отмечалось ранее, этот подход рассматривает группу A как «контрольную» группу и просто сравнивает средние значения всех других групп со средними значениями для группы A. Обратите внимание, что тесты на различия между группами B, C и D не проводятся, поскольку мы не Я не делаю этого. Меня не интересуют различия между этими группами.

Примечание об апостериорном тестировании и статистической мощности

Апостериорные тесты отлично справляются с контролем частоты семейных ошибок, но их недостатком является то, что они снижают статистическую достоверность сравнений. Действительно, единственный способ снизить частоту семейных ошибок — это использовать более низкий уровень значимости для всех индивидуальных сравнений.

Например, когда мы используем тест Тьюки для шести парных сравнений и хотим поддерживать коэффициент семейных ошибок 0,05, нам следует использовать уровень значимости примерно 0,011 для каждого отдельного уровня значимости. Чем больше парных сравнений мы проводим, тем ниже уровень значимости мы должны использовать для каждого отдельного уровня значимости.

Проблема в том, что более низкие уровни значимости соответствуют более низкой статистической мощности. Это означает, что если в популяции действительно существует разница между групповыми средними значениями, менее мощное исследование с меньшей вероятностью сможет ее обнаружить.

Один из способов уменьшить влияние этого компромисса — просто уменьшить количество выполняемых нами парных сравнений. Например, в предыдущих примерах мы выполнили шесть попарных сравнений для четырех разных групп. Однако, в зависимости от потребностей вашего исследования, возможно, вам захочется провести лишь несколько сравнений.

Делая меньше сравнений, вам не нужно так сильно уменьшать статистическую мощность.

Важно отметить, что перед выполнением ANOVA вы должны определить, какие именно группы вы хотите провести сравнения и какой апостериорный тест вы будете использовать для этих сравнений. В противном случае, если вы просто увидите, какой апостериорный тест дает статистически значимые результаты, это снизит целостность исследования.

Заключение

В этой статье мы узнали следующие вещи:

  • ANOVA используется для определения наличия или отсутствия статистически значимой разницы между средними значениями трех или более независимых групп.
  • Если дисперсионный анализ дает значение p ниже нашего уровня значимости, мы можем использовать апостериорные тесты, чтобы выяснить, какие средние группы отличаются друг от друга.
  • Апостериорные тесты позволяют нам контролировать частоту ошибок на семейство при выполнении нескольких парных сравнений.
  • Компромисс контроля частоты семейных ошибок заключается в меньшей статистической мощности. Мы можем уменьшить влияние более низкой статистической мощности, проводя меньшее количество парных сравнений.
  • Сначала вы должны определить, в каких группах вы хотите провести попарные сравнения и какой апостериорный тест вы будете для этого использовать.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *