Критерий независимости хи-квадрат: определение, формула и пример


Критерий независимости хи-квадрат используется для определения наличия значимой связи между двумя категориальными переменными.

В этом руководстве объясняется следующее:

  • Мотивация выполнить тест независимости по хи-квадрату.
  • Формула для проведения теста независимости хи-квадрат.
  • Пример того, как выполнить тест независимости хи-квадрат.

Тест независимости хи-квадрат: мотивация

Критерий независимости Хи-квадрат можно использовать, чтобы определить, существует ли связь между двумя категориальными переменными во многих различных контекстах. Вот некоторые примеры:

  • Мы хотим знать, связан ли пол с предпочтением той или иной политической партии. Итак, мы опрашиваем 500 избирателей и записываем их пол и предпочтения в отношении политических партий.
  • Мы хотим знать, связан ли любимый цвет человека с его любимым видом спорта. Итак, мы опрашиваем 100 человек и спрашиваем их, каковы их предпочтения в отношении обоих.
  • Мы хотим знать, связаны ли уровень образования и семейное положение. Поэтому мы собираем данные по этим двум переменным на простой случайной выборке из 50 человек.

В каждом из этих сценариев мы хотим знать, связаны ли друг с другом две категориальные переменные. В каждом сценарии мы можем использовать критерий независимости Хи-квадрат, чтобы определить, существует ли статистически значимая связь между переменными.

Критерий независимости хи-квадрат: формула

Критерий независимости хи-квадрат использует следующие нулевые и альтернативные гипотезы:

  • H 0 : (нулевая гипотеза) Обе переменные независимы.
  • H 1 : (альтернативная гипотеза) Эти две переменные не являются независимыми. (т.е. они связаны)

Мы используем следующую формулу для расчета статистики теста Хи-квадрат x 2 :

Х 2 = Σ(ОЭ) 2 / Е

Золото:

  • Σ: причудливый символ, означающий «сумма».
  • O: наблюдаемое значение
  • E: ожидаемое значение

Если значение p, соответствующее тестовой статистике X 2 со степенями свободы (#rows-1)*(#columns-1), меньше выбранного уровня значимости, то нулевую гипотезу можно отклонить.

Тест независимости хи-квадрат: пример

Предположим, мы хотим знать, связан ли пол с предпочтением той или иной политической партии. Мы берем простую случайную выборку из 500 избирателей и спрашиваем их об их предпочтениях в отношении политических партий. В следующей таблице представлены результаты опроса:

республиканец Демократ Независимый Общий
Мужской 120 90 40 250
Женский 110 95 45 250
Общий 230 185 85 500

Используйте следующие шаги, чтобы выполнить критерий независимости хи-квадрат, чтобы определить, связан ли пол с предпочтениями политической партии.

Шаг 1: Определите предположения.

Мы выполним критерий независимости Хи-квадрат, используя следующие предположения:

  • H 0 : Гендерные предпочтения и предпочтения политических партий независимы.
  • H 1 : Гендерные предпочтения и предпочтения политических партий не являются независимыми.

Шаг 2: Рассчитайте ожидаемые значения.

Далее мы рассчитаем ожидаемые значения для каждой ячейки таблицы сопряженности по следующей формуле:

Ожидаемое значение = (сумма строк * сумма столбцов) / сумма таблицы.

Например, ожидаемое значение для мужчин-республиканцев составляет: (230*250)/500 = 115 .

Мы можем повторить эту формулу, чтобы получить ожидаемое значение для каждой ячейки таблицы:

республиканец Демократ Независимый Общий
Мужской 115 92,5 42,5 250
Женский 115 92,5 42,5 250
Общий 230 185 85 500

Шаг 3: Рассчитайте (OE) 2 /E для каждой ячейки таблицы.

Далее посчитаем (OE) 2 /E для каждой ячейки таблицы, где:

  • O: наблюдаемое значение
  • E: ожидаемое значение

Например, мужчины-республиканцы будут иметь значение: (120-115) 2/115 = 0,2174 .

Мы можем повторить эту формулу для каждой ячейки таблицы:

республиканец Демократ Независимый
Мужской 0,2174 0,0676 0,1471
Женский 0,2174 0,0676 0,1471

Шаг 4: Рассчитайте тестовую статистику X2 и соответствующее значение p.

Х 2 = σ (ОЭ) 2 / Е = 0,2174 + 0,2174 + 0,0676 + 0,0676 + 0,1471 + 0,1471 = 0,8642

Согласно калькулятору оценки хи-квадрат для значения P , значение p, связанное с X 2 = 0,8642 и (2-1)*(3-1) = 2 степенями свободы, составляет 0,649198 .

Шаг 5: Сделайте вывод.

Поскольку это значение p не меньше 0,05, мы не можем отвергнуть нулевую гипотезу. Это означает, что у нас нет достаточных доказательств, чтобы утверждать, что существует связь между полом и предпочтениями политических партий.

Примечание. Вы также можете выполнить весь этот тест, просто используя Калькулятор теста независимости хи-квадрата .

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнить критерий независимости хи-квадрат с использованием различных статистических программ:

Как выполнить тест независимости хи-квадрат в Stata
Как выполнить тест независимости хи-квадрат в Excel
Как выполнить тест независимости хи-квадрат в SPSS
Как выполнить тест независимости хи-квадрат в Python
Как выполнить тест независимости хи-квадрат в R
Тест независимости хи-квадрат на калькуляторе TI-84
Калькулятор критерия независимости хи-квадрат

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *