Как выполнить тест независимости хи-квадрат в python


Критерий независимости по хи-квадрату   используется для определения того, существует ли значимая связь между двумя категориальными переменными.

В этом руководстве объясняется, как выполнить тест независимости хи-квадрат в Python.

Пример: тест независимости хи-квадрат в Python

Предположим, мы хотим знать, связан ли пол с предпочтением той или иной политической партии. Мы берем простую случайную выборку из 500 избирателей и спрашиваем их об их предпочтениях в отношении политических партий. В следующей таблице представлены результаты опроса:

республиканец Демократ Независимый Общий
Мужской 120 90 40 250
Женский 110 95 45 250
Общий 230 185 85 500

Используйте следующие шаги, чтобы выполнить тест независимости хи-квадрат в Python, чтобы определить, связан ли пол с предпочтениями политической партии.

Шаг 1: Создайте данные.

Сначала мы создадим таблицу для хранения наших данных:

 data = [[120, 90, 40],
        [110, 95, 45]]

Шаг 2: Выполните тест независимости хи-квадрат.

Далее мы можем выполнить тест независимости хи-квадрат, используя функцию chi2_contingency из библиотеки SciPy, которая использует следующий синтаксис:

chi2_contingency (наблюдается)

Золото:

  • наблюдаемое: таблица непредвиденных обстоятельств наблюдаемых значений.

Следующий код показывает, как использовать эту функцию в нашем конкретном примере:

 import scipy.stats as stats

#perform the Chi-Square Test of Independence
stats.chi2_contingency(data)

(0.864,
 0.649,
 2,
 array([[115. , 92.5, 42.5],
        [115. , 92.5, 42.5]]))

Интерпретация результата следующая:

  • Статистика теста хи-квадрат: 0,864
  • р-значение: 0,649
  • Степени свободы: 2 (рассчитывается как #rows-1 * #columns-1)
  • Таблица: В последней таблице отображаются ожидаемые значения для каждой ячейки таблицы непредвиденных обстоятельств.

Напомним, что критерий независимости хи-квадрат использует следующие нулевые и альтернативные гипотезы:

  • H 0 : (нулевая гипотеза) Обе переменные независимы.
  • H 1 : (альтернативная гипотеза) Эти две переменные не являются независимыми.

Поскольку значение p (0,649) теста не менее 0,05, мы не можем отвергнуть нулевую гипотезу. Это означает, что у нас нет достаточных доказательств, чтобы утверждать, что существует связь между полом и предпочтениями политических партий.

Другими словами, предпочтения пола и политических партий независимы.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *