Тест хи-квадрат
В этой статье объясняется, что такое критерий хи-квадрат в статистике и для чего он используется. Вы также узнаете, как выполнить тест хи-квадрат, а также пошаговое решение упражнения.
Что такое тест хи-квадрат?
Критерий хи-квадрат — это статистический тест, используемый для определения наличия статистически значимой разницы между ожидаемой частотой и наблюдаемой частотой.
Логично, что статистика теста хи-квадрат следует распределению хи-квадрат . Поэтому значение тестовой статистики необходимо сравнивать с конкретным значением распределения хи-квадрат. Ниже мы увидим, как выполняется тест хи-квадрат.
Этот тип статистического теста также известен как критерий хи-квадрат Пирсона и иногда обозначается символом распределения хи-квадрат: тест χ² .
Формула теста хи-квадрат
Статистика теста хи-квадрат равна сумме квадратов разностей между наблюдаемыми значениями и ожидаемыми значениями, разделенными на ожидаемые значения.
Итак, формула теста хи-квадрат :
Золото:
-
— это статистика теста хи-квадрат, которая соответствует распределению хи-квадрат с
степени свободы.
-
— размер выборки данных.
-
— наблюдаемое значение для данных i.
-
ожидаемое значение для данных i.
Нулевая гипотеза проверки гипотезы с помощью теста хи-квадрат заключается в том, что наблюдаемые значения эквивалентны ожидаемым значениям. С другой стороны, альтернативная гипотеза теста состоит в том, что одно из наблюдаемых значений отличается от ожидаемого значения.
Итак, учитывая уровень значимости
, вычисленную статистику теста следует сравнить с критическим значением теста, чтобы определить, следует ли отклонить нулевую гипотезу или альтернативную гипотезу:
- Если статистика теста меньше критического значения
альтернативная гипотеза отклоняется (и принимается нулевая гипотеза).
- Если статистика теста превышает критическое значение
, нулевая гипотеза отклоняется (и принимается альтернативная гипотеза).
Пример теста хи-квадрат
После того, как мы увидели определение теста хи-квадрат и его формулу, ниже представлен пошаговый пример решения, чтобы вы могли увидеть, как выполняется этот тип статистического теста.
- Владелец магазина говорит, что 50 % его продаж приходится на товар А, 35 % его продаж приходится на товар Б и 15 % его продаж приходится на товар С. Однако проданные единицы каждого товара — это те, которые ему представлены. в следующей таблице непредвиденных обстоятельств . Проанализируйте, отличаются ли теоретические данные владельца статистически от фактически собранных данных.
Продукт | Наблюдаемые продажи (O i ) |
---|---|
Продукт А | 453 |
Продукт Б | 268 |
Продукт С | 79 |
Общий | 800 |
Во-первых, нам нужно рассчитать значения, ожидаемые владельцем магазина. Для этого умножаем процент ожидаемых продаж каждого товара на количество достигнутых общих продаж:
Таким образом, таблица распределения частот задачи выглядит следующим образом:
Продукт | Наблюдаемые продажи (O i ) | Ожидаемые продажи (E i ) |
---|---|---|
Продукт А | 453 | 400 |
Продукт Б | 268 | 280 |
Продукт С | 79 | 120 |
Общий | 800 | 800 |
Теперь, когда мы рассчитали все значения, мы применим формулу теста хи-квадрат для расчета статистики теста:
После расчета значения статистики теста мы используем таблицу распределения хи-квадрат, чтобы найти критическое значение теста. Распределение хи-квадрат имеет
степеней свободы, поэтому, если мы выберем уровень значимости
критическая ценность теста следующая:
Таким образом, статистика теста (21,53) превышает критическое значение теста (5,991), поэтому нулевая гипотеза отклоняется и принимается альтернативная гипотеза. Это означает, что данные сильно различаются и поэтому владелец магазина ожидал других продаж, чем было на самом деле.
Интерпретация теста хи-квадрат
Интерпретация критерия Хи-квадрат не может выполняться исключительно на основе полученных результатов теста, ее необходимо сравнивать с критическим значением теста.
Логично, что чем меньше значение рассчитанной тестовой статистики, тем более похожи наблюдаемые данные на ожидаемые. Итак, если результат теста хи-квадрат равен 0, это означает, что наблюдаемые значения и ожидаемые значения абсолютно одинаковы. С другой стороны, чем больше результат теста, тем больше наблюдаемые значения отличаются от ожидаемых.
Однако, чтобы решить, являются ли два набора данных статистически разными или равными, необходимо сравнить рассчитанное значение теста с критическим значением теста, чтобы отвергнуть нулевую гипотезу или альтернативную гипотезу контраста. Если статистика теста меньше критического значения распределения, альтернативная гипотеза отклоняется. С другой стороны, если тестовая статистика превышает критическое значение распределения, нулевая гипотеза отклоняется.