Что такое предположение независимости в статистике?


Многие статистические тесты предполагают, что наблюдения независимы. Это означает, что никакие наблюдения в наборе данных не связаны друг с другом и не влияют друг на друга каким-либо образом.

Например, предположим, что мы хотим проверить, существует ли разница в среднем весе между двумя видами кошек. Если бы мы измерили вес 10 кошек вида А и 10 кошек вида Б, мы бы нарушили предположение о независимости, если бы каждая из групп кошек происходила из одного помета.

Возможно, что у кошки-матери вида А просто все котята были с низким весом, а у кошки-матери вида Б — тяжелые котята. В связи с этим наблюдения каждой выборки не являются независимыми друг от друга.

Существует три распространенных типа статистических тестов, которые делают предположение о независимости:

1. Двухвыборочный t-критерий

2. ANOVA (дисперсионный анализ)

3. Линейная регрессия

В следующих разделах мы объясним, почему это предположение делается для каждого типа тестов, а также как определить, выполняется ли это предположение.

Допущение независимости в t-тестах

Двухвыборочный t-критерий используется для проверки того, равны ли средние значения двух совокупностей или нет.

Допущение: этот тип теста предполагает, что наблюдения внутри каждой выборки независимы друг от друга и что наблюдения между выборками также независимы друг от друга.

Проверьте эту гипотезу. Самый простой способ проверить эту гипотезу — убедиться, что каждое наблюдение встречается в каждой выборке только один раз и что наблюдения в каждой выборке были собраны методом случайной выборки.

Предположение независимости в ANOVA

ANOVA используется для определения того, существует ли значительная разница между средними значениями трех или более независимых групп.

Предположение: ANOVA предполагает, что наблюдения в каждой группе независимы друг от друга и что наблюдения внутри групп были получены с помощью случайной выборки.

Проверьте эту гипотезу. Как и в случае с t-тестом, самый простой способ проверить эту гипотезу — убедиться, что каждое наблюдение появляется в каждой выборке только один раз и что наблюдения в каждой выборке были собраны методом случайной выборки.

Независимость в предполагаемой регрессии

Линейная регрессия используется для понимания взаимосвязи между одной или несколькими переменными-предикторами и переменной отклика .

Предположение: Линейная регрессия предполагает, что остатки подобранной модели независимы.

Проверьте эту гипотезу. Самый простой способ проверить эту гипотезу — посмотреть на график временных рядов остатков, который представляет собой график зависимости остатков от времени. В идеале большинство остаточных автокорреляций должны находиться в пределах 95%-ного доверительного интервала около нуля, который находится примерно на +/- 2 от квадратного корня из n , где n — размер выборки. Вы также можете формально проверить, выполняется ли это предположение, с помощью теста Дурбина-Ватсона .

Общие источники отсутствия независимости

Существует три распространенных источника независимости наборов данных:

1. Наблюдения замкнуты во времени.

Например, исследователь может собрать данные о средней скорости автомобилей на определенной дороге. Если он решит отслеживать скорость вечером, он может обнаружить, что средняя скорость намного выше, чем он ожидал, просто потому, что все водители спешат домой с работы.

Эти данные нарушают предположение о независимости каждого наблюдения. Поскольку каждое наблюдение наблюдалось в одно и то же время суток, скорость каждого автомобиля, вероятно, будет одинаковой.

2. Наблюдения замкнуты в пространстве.

Например, исследователь может собрать данные о годовом доходе людей, живущих в одном и том же районе с высокими доходами, потому что это удобно.

В этом отношении все люди, включенные в выборку данных, скорее всего, будут иметь одинаковые доходы, поскольку все они живут в непосредственной близости друг от друга. Это нарушает предположение о независимости каждого наблюдения.

3. Наблюдения появляются несколько раз в одном и том же наборе данных.

Например, исследователю может потребоваться собрать данные о 50 людях, но вместо этого он решает собрать данные о 25 людях дважды, потому что это гораздо проще сделать.

Это нарушает предположение независимости, поскольку каждое наблюдение в наборе данных будет связано само с собой.

Как избежать нарушения предположения независимости

Самый простой способ избежать нарушения предположения о независимости — просто использовать простую случайную выборку при получении выборки из генеральной совокупности.

Используя этот метод, каждый человек в интересующей популяции имеет равные шансы быть включенным в выборку.

Например, если наша популяция, представляющая интерес, содержит 10 000 человек, мы можем случайным образом присвоить номер каждому человеку в популяции, а затем использовать генератор случайных чисел, чтобы выбрать 40 случайных чисел. Лица, соответствующие этим номерам, затем будут включены в выборку.

Используя этот метод, мы минимизируем вероятность выбора двух людей, которые могут быть очень близки друг другу или каким-то образом связаны.

Это прямо контрастирует с другими методами отбора проб, такими как:

  • Удобная выборка: включение в выборку лиц, с которыми легко связаться.
  • Добровольная выборка: включение в выборку лиц, которые добровольно согласились на ее включение.

Используя метод случайной выборки, мы можем минимизировать вероятность нарушения предположения о независимости.

Дополнительные ресурсы

Четыре гипотезы, сформулированные в Т-тесте
Четыре предположения линейной регрессии
Три гипотезы ANOVA
Что такое репрезентативная выборка и почему она важна?

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *