Дисперсионный анализ (anova)
В этой статье объясняется, что такое дисперсионный анализ, также известный как ANOVA, в статистике. Итак, вы узнаете, как проводить дисперсионный анализ, что такое таблица ANOVA и пошаговое решение упражнения. Кроме того, он показывает, какие априорные предположения необходимо учитывать при проведении дисперсионного анализа и, наконец, каковы преимущества и недостатки анализа ANOVA.
Что такое дисперсионный анализ (ANOVA)?
В статистике дисперсионный анализ , также называемый ANOVA (дисперсионный анализ), представляет собой метод, позволяющий сравнивать дисперсии между средними значениями различных выборок.
Дисперсионный анализ (ANOVA) используется для анализа того, существует ли разница между средними значениями более чем двух популяций. Таким образом, дисперсионный анализ позволяет нам определить, различны ли средние значения двух или более групп, путем анализа изменчивости между выборочными средними.
Таким образом, нулевая гипотеза дисперсионного анализа заключается в том, что средние значения всех анализируемых групп равны. Альтернативная гипотеза утверждает, что по крайней мере одно из средств отличается.
Таким образом, дисперсионный анализ особенно полезен для сравнения средних значений более чем двух групп, поскольку с помощью этого типа анализа вы можете изучать средние значения всех групп одновременно, а не сравнивать средние значения попарно. Ниже мы увидим, в чем заключаются преимущества и недостатки дисперсионного анализа.
Таблица дисперсионного анализа
Дисперсионный анализ сведен в таблицу, называемую таблицей ANOVA , формулы которой следующие:

Золото:
-
размер выборки i.
-
общее количество наблюдений.
-
— количество различных групп при дисперсионном анализе.
-
— значение j группы i.
-
является средним значением группы i.
-
Это среднее значение всех проанализированных данных.
Пример дисперсионного анализа (ANOVA)
Чтобы завершить понимание концепции ANOVA, давайте посмотрим, как проводить дисперсионный анализ, шаг за шагом решая пример.
- Статистическое исследование проводится для сравнения баллов, полученных четырьмя студентами по трем различным предметам (A, B и C). В следующей таблице подробно описаны баллы, полученные каждым учащимся по тесту с максимальным баллом 20. Выполните дисперсионный анализ, чтобы сравнить баллы, полученные каждым учащимся по каждому предмету.

Нулевая гипотеза этого дисперсионного анализа состоит в том, что средние значения оценок трех испытуемых равны. С другой стороны, нулевая гипотеза состоит в том, что некоторые из этих средств различны.
Чтобы выполнить дисперсионный анализ, первое, что нужно сделать, это вычислить среднее значение каждого субъекта и общее среднее значение данных:
Как только мы узнаем значение средних значений, мы вычисляем суммы квадратов, используя формулы дисперсионного анализа (ANOVA), показанные выше:
Затем определяем степени свободы фактора, погрешности и суммы:
Теперь мы вычисляем среднеквадратические ошибки, разделив суммы квадратов фактора и ошибки на соответствующие степени свободы:
И, наконец, мы вычисляем значение статистики F путем деления двух ошибок, вычисленных на предыдущем шаге:
Короче говоря, таблица ANOVA для данных примера будет выглядеть так:

После того, как все значения в таблице ANOVA рассчитаны, остается только интерпретировать полученные результаты. Для этого нам нужно найти вероятность получения значения, большего, чем F-статистика, в F-распределении Снедекора с соответствующими степенями свободы, то есть нам нужно определить p-значение теста:
Следует отметить, что в настоящее время существует несколько компьютерных программ, способных выполнить дисперсионный анализ всего за несколько секунд. Однако также важно знать теорию, лежащую в основе расчетов.
Допущения дисперсионного анализа (ANOVA)
Для проведения дисперсионного анализа (ANOVA) должны быть выполнены следующие условия:
- Независимость : наблюдаемые значения не зависят друг от друга. Один из способов обеспечить независимость наблюдений — добавить случайность в процесс выборки.
- Гомоскедастичность : дисперсии должны быть однородными, то есть изменчивость остатков постоянна.
- Нормальность : остатки должны быть нормально распределены или, другими словами, они должны следовать нормальному распределению.
- Непрерывность : Зависимая переменная должна быть непрерывной.
Виды дисперсионного анализа (ANOVA)
Существует три типа дисперсионного анализа (ANOVA) :
- Односторонний дисперсионный анализ (однофакторный дисперсионный анализ) : При дисперсионном анализе используется только один фактор, т. е. существует только одна независимая переменная.
- Двусторонний дисперсионный анализ (двусторонний дисперсионный анализ) : дисперсионный анализ включает два фактора, поэтому анализируются две независимые переменные и взаимодействие между ними.
- Многомерный дисперсионный анализ (MANOVA) : при дисперсионном анализе имеется более одной зависимой переменной. Цель состоит в том, чтобы определить, изменяют ли независимые переменные свое значение при изменении зависимых переменных.
Преимущества и недостатки дисперсионного анализа (ANOVA)
Наконец, мы увидим, когда нам уместно использовать дисперсионный анализ, а также каковы пределы этого типа статистического анализа.
Основное преимущество дисперсионного анализа (ANOVA) заключается в том, что он позволяет сравнивать более двух групп одновременно. В отличие от t-критерия , где вы можете проанализировать только среднее значение одной или двух выборок, дисперсионный анализ используется для определения того, имеют ли несколько популяций одинаковое среднее значение.
Однако дисперсионный анализ не говорит нам, какая исследовательская группа имеет другое среднее значение, он только позволяет нам узнать, существуют ли существенно разные средние значения или все ли средние значения схожи.
Аналогичным образом, еще одним недостатком дисперсионного анализа является то, что для проведения анализа ANOVA необходимо выполнить четыре предыдущих предположения (см. выше), в противном случае сделанные выводы могут быть неверными. Поэтому всегда следует проверять, соответствует ли набор статистических данных этим четырем требованиям.