Тест хі-квадрат
У цій статті пояснюється, що таке тест хі-квадрат у статистиці та для чого він використовується. Ви також дізнаєтесь, як виконати тест хі-квадрат, а також розв’яжете вправу крок за кроком.
Що таке тест хі-квадрат?
Критерій хі-квадрат — це статистичний тест, який використовується для визначення наявності статистично значущої різниці між очікуваною та спостережуваною частотами.
Логічно, статистика хі-квадрат відповідає розподілу хі-квадрат . Тому значення тестової статистики необхідно порівнювати з певним значенням розподілу хі-квадрат. Нижче ми побачимо, як виконується тест хі-квадрат.
Цей тип статистичного тесту також відомий як тест Пірсона хі-квадрат і іноді позначається символом розподілу хі-квадрат: критерій χ² .
Формула хі-квадрат
Статистика тесту хі-квадрат дорівнює сумі квадратів різниць між спостережуваними значеннями та очікуваними значеннями, поділеним на очікувані значення.
Отже, формула тесту хі-квадрат така:
золото:
-
це статистика тесту хі-квадрат, яка відповідає розподілу хі-квадрат з
ступенів свободи.
-
це розмір вибірки даних.
-
спостережене значення для даних i.
-
це очікуване значення для даних i.
Нульова гіпотеза перевірки гіпотези за допомогою тесту хі-квадрат полягає в тому, що спостережувані значення еквівалентні очікуваним значенням. З іншого боку, альтернативна гіпотеза тесту полягає в тому, що одне з спостережуваних значень відрізняється від його очікуваного значення.
Отже, враховуючи рівень значущості
, розраховану тестову статистику слід порівняти з критичним тестовим значенням, щоб визначити, чи відхиляти нульову гіпотезу чи альтернативну гіпотезу:
- Якщо тестова статистика менше критичного значення
, альтернативна гіпотеза відхиляється (а нульова гіпотеза приймається).
- Якщо тестова статистика перевищує критичне значення
, нульова гіпотеза відхиляється (а альтернативна гіпотеза приймається).
Приклад тесту хі-квадрат
Після того, як ми побачили визначення тесту хі-квадрат і його формулу, нижче наведено покроковий приклад, щоб ви могли побачити, як виконується цей тип статистичного тесту.
- Власник магазину каже, що 50% його продажів припадає на продукт A, 35% його продажів припадає на продукт B, а 15% його продажів припадає на продукт C. Проте продані одиниці кожного продукту — це ті, які вони представлені у наступній таблиці непередбачених обставин . Проаналізуйте, чи теоретичні дані власника статистично відрізняються від фактично зібраних даних.
Продукт | Спостережувані продажі (O i ) |
---|---|
Продукт А | 453 |
Продукт Б | 268 |
Продукт C | 79 |
Всього | 800 |
Спочатку нам потрібно розрахувати значення, очікувані власником магазину. Для цього ми множимо відсоток очікуваних продажів кожного продукту на кількість досягнутих загальних продажів:
Отже, частотна таблиця розподілу задачі має такий вигляд:
Продукт | Спостережувані продажі (O i ) | Очікувані продажі (E i ) |
---|---|---|
Продукт А | 453 | 400 |
Продукт Б | 268 | 280 |
Продукт C | 79 | 120 |
Всього | 800 | 800 |
Тепер, коли ми обчислили всі значення, ми застосовуємо формулу хі-квадрат для обчислення тестової статистики:
Коли значення тестової статистики обчислено, ми використовуємо таблицю розподілу хі-квадрат, щоб знайти критичне значення тесту. Розподіл хі-квадрат має
ступенів свободи, тому якщо ми виберемо рівень значущості
критичне значення тесту таке:
Таким чином, тестова статистика (21,53) більша за критичне тестове значення (5,991), отже, нульова гіпотеза відхиляється, а альтернативна гіпотеза приймається. Це означає, що дані дуже відрізняються, і тому власник магазину очікував інших продажів, ніж насправді.
Інтерпретація тесту хі-квадрат
Інтерпретація тесту Хі-квадрат не може бути виконана виключно на основі отриманого результату тесту, його необхідно порівняти з критичним значенням тесту.
Логічно, чим менше значення обчисленої тестової статистики, тим більше подібні спостережувані дані до очікуваних даних. Отже, якщо результат тесту хі-квадрат дорівнює 0, це означає, що спостережувані значення та очікувані значення абсолютно однакові. З іншого боку, чим вищий результат тесту, це означає, що більше спостережувані значення відрізняються від очікуваних.
Однак, щоб вирішити, чи є два набори даних статистично різними чи рівними, необхідно порівняти обчислене тестове значення з критичним тестовим значенням, щоб відхилити нульову гіпотезу або альтернативну гіпотезу контрасту. Якщо тестова статистика менша за критичне значення розподілу, альтернативна гіпотеза відхиляється. З іншого боку, якщо тестова статистика перевищує критичне значення розподілу, нульову гіпотезу відхиляють.