Что такое предположение о равной дисперсии в статистике?
Многие статистические тесты исходят из предположения о равной дисперсии . Если это предположение не соблюдается, результаты испытаний становятся недостоверными.
Наиболее распространенные статистические тесты и процедуры, которые делают предположение о равной дисперсии, включают:
1. Дисперсионный анализ
2. t-тесты
3. Линейная регрессия
В этом руководстве объясняются предположения, сделанные для каждого теста, как определить, выполняется ли это предположение, и что делать, если оно нарушается.
Предположение о равенстве дисперсии в ANOVA
ANOVA («дисперсионный анализ») используется для определения того, существует ли значительная разница между средними значениями трех или более независимых групп.
Вот пример того, когда мы могли бы использовать ANOVA:
Допустим, мы набираем 90 человек для участия в эксперименте по снижению веса. Мы случайным образом назначаем 30 человек для использования программы A, B или C в течение месяца.
Чтобы увидеть, влияет ли программа на потерю веса, мы можем выполнить однофакторный дисперсионный анализ .
ANOVA предполагает, что каждая из групп имеет одинаковую дисперсию. Есть два способа проверить, верна ли эта гипотеза:
1. Создайте коробчатые диаграммы.
Ящичные диаграммы предоставляют визуальный способ проверить предположение о равенстве дисперсий.
Разницу в потере веса в каждой группе можно наблюдать по длине каждой коробчатой диаграммы. Чем длиннее поле, тем выше дисперсия. Например, мы видим, что дисперсия немного выше для участников программы C по сравнению с программой A и программой B.
2. Выполните тест Бартлетта.
Тест Бартлетта проверяет нулевую гипотезу о том, что выборки имеют равные дисперсии, против альтернативной гипотезы о том, что выборки не имеют равных дисперсий.
Если значение p теста ниже определенного уровня значимости (например, 0,05), то у нас есть свидетельство того, что не все выборки имеют равные дисперсии.
Что произойдет, если предположение о равной дисперсии не будет выполнено?
В целом, дисперсионный анализ считается достаточно устойчивым к нарушениям предположения о равных дисперсиях, если каждая группа имеет одинаковый размер выборки.
Однако, если размеры выборки не одинаковы и это предположение серьезно нарушается, вместо этого вы можете запустить тест Крускала-Уоллиса , который представляет собой непараметрическую версию однофакторного дисперсионного анализа.
Предположение о равной дисперсии в t-тестах
Двухвыборочный t-критерий используется для проверки того, равны ли средние значения двух совокупностей или нет.
Тест предполагает, что дисперсии между двумя группами равны. Есть два способа проверить, верна ли эта гипотеза:
1. Используйте эмпирическое правило соотношения.
Как правило, если отношение наибольшей дисперсии к наименьшей дисперсии меньше 4, то мы можем предположить, что дисперсии примерно равны, и использовать двухвыборочный t-критерий.
Например, предположим, что дисперсия образца 1 составляет 24,5, а дисперсия образца 2 — 15,2. Отношение наибольшей выборочной дисперсии к наименьшей выборочной дисперсии будет рассчитываться как: 24,5 / 15,2 = 1,61.
Поскольку это соотношение меньше 4, можно предположить, что различия между двумя группами примерно равны.
2. Выполните F-тест.
F-тест проверяет нулевую гипотезу о том, что выборки имеют равные дисперсии, против альтернативной гипотезы о том, что выборки не имеют равных дисперсий.
Если значение p теста ниже определенного уровня значимости (например, 0,05), то у нас есть свидетельство того, что не все выборки имеют равные дисперсии.
Что произойдет, если предположение о равной дисперсии не будет выполнено?
Если это предположение нарушается, мы можем выполнить t-критерий Уэлча , который является непараметрической версией двухвыборочного t-критерия и не предполагает, что две выборки имеют равные дисперсии.
Допущение равной дисперсии в линейной регрессии
Линейная регрессия используется для количественной оценки взаимосвязи между одной или несколькими переменными-предикторами и переменной отклика.
Линейная регрессия предполагает, что остатки имеют постоянную дисперсию на каждом уровне предикторной переменной (переменных). Это называется гомоскедастичностью . В противном случае остатки страдают от гетероскедастичности и результаты регрессионного анализа становятся ненадежными.
Самый распространенный способ определить, выполняется ли это предположение, — построить график зависимости остатков от подобранных значений. Если остатки на этом графике случайно разбросаны вокруг нуля, то предположение о гомоскедастичности, вероятно, выполнено.
Однако если в остатках наблюдается систематическая тенденция, такая как форма «конуса» на следующем графике, то гетероскедастичность является проблемой:
Что произойдет, если предположение о равной дисперсии не будет выполнено?
Если это предположение нарушается, наиболее распространенным способом решения проблемы является преобразование переменной ответа с помощью одного из трех преобразований:
1. Преобразование журнала: преобразуйте переменную ответа из y в log(y) .
2. Преобразование квадратного корня: преобразуйте переменную ответа из y в √y .
3. Преобразование корня куба: преобразуйте переменную ответа из y в y 1/3 .
При выполнении этих преобразований проблема гетероскедастичности вообще исчезает.
Другой способ исправить гетероскедастичность — использовать взвешенную регрессию наименьших квадратов . Этот тип регрессии присваивает вес каждой точке данных на основе дисперсии ее подобранного значения.
По сути, это придает низкий вес точкам данных с более высокими дисперсиями, уменьшая их остаточные квадраты. Использование соответствующих весов позволяет устранить проблему гетероскедастичности.
Дополнительные ресурсы
Три гипотезы, сформулированные в ANOVA
Четыре гипотезы, сформулированные в Т-тесте
Четыре предположения линейной регрессии