Как выполнить тест независимости хи-квадрат в python
Критерий независимости по хи-квадрату используется для определения того, существует ли значимая связь между двумя категориальными переменными.
В этом руководстве объясняется, как выполнить тест независимости хи-квадрат в Python.
Пример: тест независимости хи-квадрат в Python
Предположим, мы хотим знать, связан ли пол с предпочтением той или иной политической партии. Мы берем простую случайную выборку из 500 избирателей и спрашиваем их об их предпочтениях в отношении политических партий. В следующей таблице представлены результаты опроса:
республиканец | Демократ | Независимый | Общий | |
Мужской | 120 | 90 | 40 | 250 |
Женский | 110 | 95 | 45 | 250 |
Общий | 230 | 185 | 85 | 500 |
Используйте следующие шаги, чтобы выполнить тест независимости хи-квадрат в Python, чтобы определить, связан ли пол с предпочтениями политической партии.
Шаг 1: Создайте данные.
Сначала мы создадим таблицу для хранения наших данных:
data = [[120, 90, 40], [110, 95, 45]]
Шаг 2: Выполните тест независимости хи-квадрат.
Далее мы можем выполнить тест независимости хи-квадрат, используя функцию chi2_contingency из библиотеки SciPy, которая использует следующий синтаксис:
chi2_contingency (наблюдается)
Золото:
- наблюдаемое: таблица непредвиденных обстоятельств наблюдаемых значений.
Следующий код показывает, как использовать эту функцию в нашем конкретном примере:
import scipy.stats as stats #perform the Chi-Square Test of Independence stats.chi2_contingency(data) (0.864, 0.649, 2, array([[115. , 92.5, 42.5], [115. , 92.5, 42.5]]))
Интерпретация результата следующая:
- Статистика теста хи-квадрат: 0,864
- р-значение: 0,649
- Степени свободы: 2 (рассчитывается как #rows-1 * #columns-1)
- Таблица: В последней таблице отображаются ожидаемые значения для каждой ячейки таблицы непредвиденных обстоятельств.
Напомним, что критерий независимости хи-квадрат использует следующие нулевые и альтернативные гипотезы:
- H 0 : (нулевая гипотеза) Обе переменные независимы.
- H 1 : (альтернативная гипотеза) Эти две переменные не являются независимыми.
Поскольку значение p (0,649) теста не менее 0,05, мы не можем отвергнуть нулевую гипотезу. Это означает, что у нас нет достаточных доказательств, чтобы утверждать, что существует связь между полом и предпочтениями политических партий.
Другими словами, предпочтения пола и политических партий независимы.