Что такое предположение о равной дисперсии в статистике?


Многие статистические тесты исходят из предположения о равной дисперсии . Если это предположение не соблюдается, результаты испытаний становятся недостоверными.

Наиболее распространенные статистические тесты и процедуры, которые делают предположение о равной дисперсии, включают:

1. Дисперсионный анализ

2. t-тесты

3. Линейная регрессия

В этом руководстве объясняются предположения, сделанные для каждого теста, как определить, выполняется ли это предположение, и что делать, если оно нарушается.

Предположение о равенстве дисперсии в ANOVA

ANOVA («дисперсионный анализ») используется для определения того, существует ли значительная разница между средними значениями трех или более независимых групп.

Вот пример того, когда мы могли бы использовать ANOVA:

Допустим, мы набираем 90 человек для участия в эксперименте по снижению веса. Мы случайным образом назначаем 30 человек для использования программы A, B или C в течение месяца.

Чтобы увидеть, влияет ли программа на потерю веса, мы можем выполнить однофакторный дисперсионный анализ .

ANOVA предполагает, что каждая из групп имеет одинаковую дисперсию. Есть два способа проверить, верна ли эта гипотеза:

1. Создайте коробчатые диаграммы.

Ящичные диаграммы предоставляют визуальный способ проверить предположение о равенстве дисперсий.

Разницу в потере веса в каждой группе можно наблюдать по длине каждой коробчатой диаграммы. Чем длиннее поле, тем выше дисперсия. Например, мы видим, что дисперсия немного выше для участников программы C по сравнению с программой A и программой B.

2. Выполните тест Бартлетта.

Тест Бартлетта проверяет нулевую гипотезу о том, что выборки имеют равные дисперсии, против альтернативной гипотезы о том, что выборки не имеют равных дисперсий.

Если значение p теста ниже определенного уровня значимости (например, 0,05), то у нас есть свидетельство того, что не все выборки имеют равные дисперсии.

Что произойдет, если предположение о равной дисперсии не будет выполнено?

В целом, дисперсионный анализ считается достаточно устойчивым к нарушениям предположения о равных дисперсиях, если каждая группа имеет одинаковый размер выборки.

Однако, если размеры выборки не одинаковы и это предположение серьезно нарушается, вместо этого вы можете запустить тест Крускала-Уоллиса , который представляет собой непараметрическую версию однофакторного дисперсионного анализа.

Предположение о равной дисперсии в t-тестах

Двухвыборочный t-критерий используется для проверки того, равны ли средние значения двух совокупностей или нет.

Тест предполагает, что дисперсии между двумя группами равны. Есть два способа проверить, верна ли эта гипотеза:

1. Используйте эмпирическое правило соотношения.

Как правило, если отношение наибольшей дисперсии к наименьшей дисперсии меньше 4, то мы можем предположить, что дисперсии примерно равны, и использовать двухвыборочный t-критерий.

Например, предположим, что дисперсия образца 1 составляет 24,5, а дисперсия образца 2 — 15,2. Отношение наибольшей выборочной дисперсии к наименьшей выборочной дисперсии будет рассчитываться как: 24,5 / 15,2 = 1,61.

Поскольку это соотношение меньше 4, можно предположить, что различия между двумя группами примерно равны.

2. Выполните F-тест.

F-тест проверяет нулевую гипотезу о том, что выборки имеют равные дисперсии, против альтернативной гипотезы о том, что выборки не имеют равных дисперсий.

Если значение p теста ниже определенного уровня значимости (например, 0,05), то у нас есть свидетельство того, что не все выборки имеют равные дисперсии.

Что произойдет, если предположение о равной дисперсии не будет выполнено?

Если это предположение нарушается, мы можем выполнить t-критерий Уэлча , который является непараметрической версией двухвыборочного t-критерия и не предполагает, что две выборки имеют равные дисперсии.

Допущение равной дисперсии в линейной регрессии

Линейная регрессия используется для количественной оценки взаимосвязи между одной или несколькими переменными-предикторами и переменной отклика.

Линейная регрессия предполагает, что остатки имеют постоянную дисперсию на каждом уровне предикторной переменной (переменных). Это называется гомоскедастичностью . В противном случае остатки страдают от гетероскедастичности и результаты регрессионного анализа становятся ненадежными.

Самый распространенный способ определить, выполняется ли это предположение, — построить график зависимости остатков от подобранных значений. Если остатки на этом графике случайно разбросаны вокруг нуля, то предположение о гомоскедастичности, вероятно, выполнено.

Однако если в остатках наблюдается систематическая тенденция, такая как форма «конуса» на следующем графике, то гетероскедастичность является проблемой:

Что произойдет, если предположение о равной дисперсии не будет выполнено?

Если это предположение нарушается, наиболее распространенным способом решения проблемы является преобразование переменной ответа с помощью одного из трех преобразований:

1. Преобразование журнала: преобразуйте переменную ответа из y в log(y) .

2. Преобразование квадратного корня: преобразуйте переменную ответа из y в √y .

3. Преобразование корня куба: преобразуйте переменную ответа из y в y 1/3 .

При выполнении этих преобразований проблема гетероскедастичности вообще исчезает.

Другой способ исправить гетероскедастичность — использовать взвешенную регрессию наименьших квадратов . Этот тип регрессии присваивает вес каждой точке данных на основе дисперсии ее подобранного значения.

По сути, это придает низкий вес точкам данных с более высокими дисперсиями, уменьшая их остаточные квадраты. Использование соответствующих весов позволяет устранить проблему гетероскедастичности.

Дополнительные ресурсы

Три гипотезы, сформулированные в ANOVA
Четыре гипотезы, сформулированные в Т-тесте
Четыре предположения линейной регрессии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *