Як виконати тест на відповідність хі-квадрат у python
Тест відповідності хі-квадрат використовується для визначення того, чи відповідає категоріальна змінна гіпотетичному розподілу.
Цей підручник пояснює, як виконати тест відповідності хі-квадрат у Python.
Приклад: тест відповідності хі-квадрат у Python
Власник магазину каже, що кожен день тижня до його магазину приходить однакова кількість покупців. Щоб перевірити цю гіпотезу, дослідник записує кількість покупців, які прийшли в магазин за певний тиждень, і знаходить наступне:
- Понеділок: 50 клієнтів
- Вівторок: 60 клієнтів
- Середа: 40 клієнтів
- Четвер: 47 клієнтів
- П’ятниця: 53 клієнтів
Виконайте наступні кроки, щоб виконати тест на відповідність хі-квадрат у Python, щоб визначити, чи дані відповідають твердженням власника магазину.
Крок 1: Створіть дані.
По-перше, ми створимо дві таблиці, щоб містити спостережувану та очікувану кількість клієнтів для кожного дня:
expected = [50, 50, 50, 50, 50] observed = [50, 60, 40, 47, 53]
Крок 2. Виконайте тест на відповідність хі-квадрат.
Далі ми можемо виконати перевірку відповідності хі-квадрат за допомогою функції хі-квадрат із бібліотеки SciPy, яка використовує такий синтаксис:
хі-квадрат (f_obs, f_exp)
золото:
- f_obs: масив спостережуваних підрахунків.
- f_exp: масив очікуваних підрахунків. За замовчуванням кожна категорія вважається однаково ймовірною.
Наступний код показує, як використовувати цю функцію в нашому прикладі:
import scipy.stats as stats #perform Chi-Square Goodness of Fit Test stats.chisquare(f_obs=observed, f_exp=expected) (statistic=4.36, pvalue=0.35947)
Статистичний показник хі-квадрат становить 4,36 , а відповідне значення p — 0,35947 .
Зауважте, що p-значення відповідає значенню хі-квадрат із n-1 ступенями свободи (dof), де n – кількість різних категорій. У цьому випадку dof = 5-1 = 4. Ви можете використовувати калькулятор хі-квадрат до P-value, щоб підтвердити, що p-value, яке відповідає X 2 = 4,36 з dof = 4, дорівнює 0,35947 .
Нагадаємо, що тест відповідності хі-квадрат використовує такі нульові та альтернативні гіпотези:
- H 0 : (нульова гіпотеза) Змінна відповідає гіпотетичному розподілу.
- H 1 : (альтернативна гіпотеза) Змінна не відповідає гіпотетичному розподілу.
Оскільки p-значення (0,35947) не менше 0,05, ми не можемо відхилити нульову гіпотезу. Це означає, що ми не маємо достатньо доказів, щоб стверджувати, що справжній розподіл клієнтів відрізняється від того, про який повідомляє власник магазину.