Критерий независимости хи-квадрат: определение, формула и пример
Критерий независимости хи-квадрат используется для определения наличия значимой связи между двумя категориальными переменными.
В этом руководстве объясняется следующее:
- Мотивация выполнить тест независимости по хи-квадрату.
- Формула для проведения теста независимости хи-квадрат.
- Пример того, как выполнить тест независимости хи-квадрат.
Тест независимости хи-квадрат: мотивация
Критерий независимости Хи-квадрат можно использовать, чтобы определить, существует ли связь между двумя категориальными переменными во многих различных контекстах. Вот некоторые примеры:
- Мы хотим знать, связан ли пол с предпочтением той или иной политической партии. Итак, мы опрашиваем 500 избирателей и записываем их пол и предпочтения в отношении политических партий.
- Мы хотим знать, связан ли любимый цвет человека с его любимым видом спорта. Итак, мы опрашиваем 100 человек и спрашиваем их, каковы их предпочтения в отношении обоих.
- Мы хотим знать, связаны ли уровень образования и семейное положение. Поэтому мы собираем данные по этим двум переменным на простой случайной выборке из 50 человек.
В каждом из этих сценариев мы хотим знать, связаны ли друг с другом две категориальные переменные. В каждом сценарии мы можем использовать критерий независимости Хи-квадрат, чтобы определить, существует ли статистически значимая связь между переменными.
Критерий независимости хи-квадрат: формула
Критерий независимости хи-квадрат использует следующие нулевые и альтернативные гипотезы:
- H 0 : (нулевая гипотеза) Обе переменные независимы.
- H 1 : (альтернативная гипотеза) Эти две переменные не являются независимыми. (т.е. они связаны)
Мы используем следующую формулу для расчета статистики теста Хи-квадрат x 2 :
Х 2 = Σ(ОЭ) 2 / Е
Золото:
- Σ: причудливый символ, означающий «сумма».
- O: наблюдаемое значение
- E: ожидаемое значение
Если значение p, соответствующее тестовой статистике X 2 со степенями свободы (#rows-1)*(#columns-1), меньше выбранного уровня значимости, то нулевую гипотезу можно отклонить.
Тест независимости хи-квадрат: пример
Предположим, мы хотим знать, связан ли пол с предпочтением той или иной политической партии. Мы берем простую случайную выборку из 500 избирателей и спрашиваем их об их предпочтениях в отношении политических партий. В следующей таблице представлены результаты опроса:
республиканец | Демократ | Независимый | Общий | |
Мужской | 120 | 90 | 40 | 250 |
Женский | 110 | 95 | 45 | 250 |
Общий | 230 | 185 | 85 | 500 |
Используйте следующие шаги, чтобы выполнить критерий независимости хи-квадрат, чтобы определить, связан ли пол с предпочтениями политической партии.
Шаг 1: Определите предположения.
Мы выполним критерий независимости Хи-квадрат, используя следующие предположения:
- H 0 : Гендерные предпочтения и предпочтения политических партий независимы.
- H 1 : Гендерные предпочтения и предпочтения политических партий не являются независимыми.
Шаг 2: Рассчитайте ожидаемые значения.
Далее мы рассчитаем ожидаемые значения для каждой ячейки таблицы сопряженности по следующей формуле:
Ожидаемое значение = (сумма строк * сумма столбцов) / сумма таблицы.
Например, ожидаемое значение для мужчин-республиканцев составляет: (230*250)/500 = 115 .
Мы можем повторить эту формулу, чтобы получить ожидаемое значение для каждой ячейки таблицы:
республиканец | Демократ | Независимый | Общий | |
Мужской | 115 | 92,5 | 42,5 | 250 |
Женский | 115 | 92,5 | 42,5 | 250 |
Общий | 230 | 185 | 85 | 500 |
Шаг 3: Рассчитайте (OE) 2 /E для каждой ячейки таблицы.
Далее посчитаем (OE) 2 /E для каждой ячейки таблицы, где:
- O: наблюдаемое значение
- E: ожидаемое значение
Например, мужчины-республиканцы будут иметь значение: (120-115) 2/115 = 0,2174 .
Мы можем повторить эту формулу для каждой ячейки таблицы:
республиканец | Демократ | Независимый | |
Мужской | 0,2174 | 0,0676 | 0,1471 |
Женский | 0,2174 | 0,0676 | 0,1471 |
Шаг 4: Рассчитайте тестовую статистику X2 и соответствующее значение p.
Х 2 = σ (ОЭ) 2 / Е = 0,2174 + 0,2174 + 0,0676 + 0,0676 + 0,1471 + 0,1471 = 0,8642
Согласно калькулятору оценки хи-квадрат для значения P , значение p, связанное с X 2 = 0,8642 и (2-1)*(3-1) = 2 степенями свободы, составляет 0,649198 .
Шаг 5: Сделайте вывод.
Поскольку это значение p не меньше 0,05, мы не можем отвергнуть нулевую гипотезу. Это означает, что у нас нет достаточных доказательств, чтобы утверждать, что существует связь между полом и предпочтениями политических партий.
Примечание. Вы также можете выполнить весь этот тест, просто используя Калькулятор теста независимости хи-квадрата .
Дополнительные ресурсы
В следующих руководствах объясняется, как выполнить критерий независимости хи-квадрат с использованием различных статистических программ:
Как выполнить тест независимости хи-квадрат в Stata
Как выполнить тест независимости хи-квадрат в Excel
Как выполнить тест независимости хи-квадрат в SPSS
Как выполнить тест независимости хи-квадрат в Python
Как выполнить тест независимости хи-квадрат в R
Тест независимости хи-квадрат на калькуляторе TI-84
Калькулятор критерия независимости хи-квадрат