Как выполнить тест соответствия хи-квадрат в stata
Критерий согласия хи-квадрат используется для определения того, соответствует ли категориальная переменная гипотетическому распределению.
В этом руководстве объясняется, как выполнить тест согласия хи-квадрат в Stata.
Пример: критерий согласия хи-квадрат в Stata
Чтобы проиллюстрировать, как выполнить этот тест, мы будем использовать набор данных под названием nlsw88 , который содержит информацию о статистике женского труда в США в 1988 году.
Выполните следующие шаги, чтобы выполнить критерий согласия хи-квадрат, чтобы определить, является ли истинное распределение рас в этом наборе данных: 70% белых, 20% черных, 10% других.
Шаг 1. Загрузите и отобразите необработанные данные.
Сначала мы загрузим данные, введя следующую команду:
система nlsw88
Мы можем просмотреть необработанные данные, введя следующую команду:
бр
В каждой строке отображается информация о человеке, включая его возраст, расу, семейное положение, уровень образования и другие факторы.
Шаг 2. Загрузите пакет корректировок.
Чтобы выполнить тест на пригодность, нам нужно будет установить пакет csgof . Мы можем сделать это, введя следующую команду:
найти csgof
Появится новое окно. Нажмите на ссылку csgof из https://stats.idre.ucla.edu/stat/stata/ado/anaанализ .
Появится другое окно. Нажмите на ссылку с надписью « Нажмите здесь, чтобы установить» .
Установка пакета займет всего несколько секунд.
Шаг 3: Проведите тест на посадку.
После установки пакета мы можем выполнить тест на соответствие данных, чтобы определить, является ли истинная расовая разбивка следующей: 70 % белые, 20 % черные, 10 % другие.
Для выполнения теста мы будем использовать следующий синтаксис:
csgof переменная_of_interest, expperc(list_of_expected_percentages)
Вот точный синтаксис, который мы будем использовать в нашем случае:
запустить csgof, expperc(70, 20, 10)
Вот как интерпретировать результат:
Поле сводки: в этом поле показаны ожидаемый процент, ожидаемая частота и наблюдаемая частота для каждой расы. Например:
- Ожидаемый процент белых особей составил 70%. Это тот процент, который мы указали.
- Ожидаемая частота белых особей составила 1572,2. Это рассчитано с учетом того факта, что в наборе данных было 2246 человек, поэтому 70% от этого числа составляют 1572,2.
- Наблюдаемая частота белых особей составила 1637 человек. Это фактическое количество белых людей в наборе данных.
Chisq(2): это статистика критерия Хи-квадрат для теста согласия. Получается 218,13.
p: это значение p, связанное со статистикой теста хи-квадрат. Оно оказывается равным 0. Поскольку оно меньше 0,05, мы не можем отвергнуть нулевую гипотезу о том, что истинное расовое распределение составляет 70% белых, 20% черных и 10% других. У нас достаточно доказательств, чтобы заключить, что истинное расовое распределение отличается от этого гипотетического распределения.