Что такое предположение независимости в статистике?
Многие статистические тесты предполагают, что наблюдения независимы. Это означает, что никакие наблюдения в наборе данных не связаны друг с другом и не влияют друг на друга каким-либо образом.
Например, предположим, что мы хотим проверить, существует ли разница в среднем весе между двумя видами кошек. Если бы мы измерили вес 10 кошек вида А и 10 кошек вида Б, мы бы нарушили предположение о независимости, если бы каждая из групп кошек происходила из одного помета.
Возможно, что у кошки-матери вида А просто все котята были с низким весом, а у кошки-матери вида Б — тяжелые котята. В связи с этим наблюдения каждой выборки не являются независимыми друг от друга.
Существует три распространенных типа статистических тестов, которые делают предположение о независимости:
2. ANOVA (дисперсионный анализ)
В следующих разделах мы объясним, почему это предположение делается для каждого типа тестов, а также как определить, выполняется ли это предположение.
Допущение независимости в t-тестах
Двухвыборочный t-критерий используется для проверки того, равны ли средние значения двух совокупностей или нет.
Допущение: этот тип теста предполагает, что наблюдения внутри каждой выборки независимы друг от друга и что наблюдения между выборками также независимы друг от друга.
Проверьте эту гипотезу. Самый простой способ проверить эту гипотезу — убедиться, что каждое наблюдение встречается в каждой выборке только один раз и что наблюдения в каждой выборке были собраны методом случайной выборки.
Предположение независимости в ANOVA
ANOVA используется для определения того, существует ли значительная разница между средними значениями трех или более независимых групп.
Предположение: ANOVA предполагает, что наблюдения в каждой группе независимы друг от друга и что наблюдения внутри групп были получены с помощью случайной выборки.
Проверьте эту гипотезу. Как и в случае с t-тестом, самый простой способ проверить эту гипотезу — убедиться, что каждое наблюдение появляется в каждой выборке только один раз и что наблюдения в каждой выборке были собраны методом случайной выборки.
Независимость в предполагаемой регрессии
Линейная регрессия используется для понимания взаимосвязи между одной или несколькими переменными-предикторами и переменной отклика .
Предположение: Линейная регрессия предполагает, что остатки подобранной модели независимы.
Проверьте эту гипотезу. Самый простой способ проверить эту гипотезу — посмотреть на график временных рядов остатков, который представляет собой график зависимости остатков от времени. В идеале большинство остаточных автокорреляций должны находиться в пределах 95%-ного доверительного интервала около нуля, который находится примерно на +/- 2 от квадратного корня из n , где n — размер выборки. Вы также можете формально проверить, выполняется ли это предположение, с помощью теста Дурбина-Ватсона .
Общие источники отсутствия независимости
Существует три распространенных источника независимости наборов данных:
1. Наблюдения замкнуты во времени.
Например, исследователь может собрать данные о средней скорости автомобилей на определенной дороге. Если он решит отслеживать скорость вечером, он может обнаружить, что средняя скорость намного выше, чем он ожидал, просто потому, что все водители спешат домой с работы.
Эти данные нарушают предположение о независимости каждого наблюдения. Поскольку каждое наблюдение наблюдалось в одно и то же время суток, скорость каждого автомобиля, вероятно, будет одинаковой.
2. Наблюдения замкнуты в пространстве.
Например, исследователь может собрать данные о годовом доходе людей, живущих в одном и том же районе с высокими доходами, потому что это удобно.
В этом отношении все люди, включенные в выборку данных, скорее всего, будут иметь одинаковые доходы, поскольку все они живут в непосредственной близости друг от друга. Это нарушает предположение о независимости каждого наблюдения.
3. Наблюдения появляются несколько раз в одном и том же наборе данных.
Например, исследователю может потребоваться собрать данные о 50 людях, но вместо этого он решает собрать данные о 25 людях дважды, потому что это гораздо проще сделать.
Это нарушает предположение независимости, поскольку каждое наблюдение в наборе данных будет связано само с собой.
Как избежать нарушения предположения независимости
Самый простой способ избежать нарушения предположения о независимости — просто использовать простую случайную выборку при получении выборки из генеральной совокупности.
Используя этот метод, каждый человек в интересующей популяции имеет равные шансы быть включенным в выборку.
Например, если наша популяция, представляющая интерес, содержит 10 000 человек, мы можем случайным образом присвоить номер каждому человеку в популяции, а затем использовать генератор случайных чисел, чтобы выбрать 40 случайных чисел. Лица, соответствующие этим номерам, затем будут включены в выборку.
Используя этот метод, мы минимизируем вероятность выбора двух людей, которые могут быть очень близки друг другу или каким-то образом связаны.
Это прямо контрастирует с другими методами отбора проб, такими как:
- Удобная выборка: включение в выборку лиц, с которыми легко связаться.
- Добровольная выборка: включение в выборку лиц, которые добровольно согласились на ее включение.
Используя метод случайной выборки, мы можем минимизировать вероятность нарушения предположения о независимости.
Дополнительные ресурсы
Четыре гипотезы, сформулированные в Т-тесте
Четыре предположения линейной регрессии
Три гипотезы ANOVA
Что такое репрезентативная выборка и почему она важна?