Hoe u een chikwadraat-goodness-of-fit-test uitvoert in python
Een chikwadraat-goodness-of-fit-test wordt gebruikt om te bepalen of een categorische variabele al dan niet een hypothetische verdeling volgt.
In deze tutorial wordt uitgelegd hoe u een chikwadraat-goodness-of-fit-test uitvoert in Python.
Voorbeeld: Chi-kwadraat goodness-of-fit-test in Python
Een winkeleigenaar vertelt dat er elke dag van de week evenveel klanten naar zijn winkel komen. Om deze hypothese te testen, registreert een onderzoeker het aantal klanten dat in een bepaalde week de winkel binnenkomt en ontdekt het volgende:
- Maandag: 50 klanten
- Dinsdag: 60 klanten
- Woensdag: 40 klanten
- Donderdag: 47 klanten
- Vrijdag: 53 klanten
Gebruik de volgende stappen om een chi-kwadraat-goodness-of-fit-test uit te voeren in Python om te bepalen of de gegevens consistent zijn met de claim van de winkeleigenaar.
Stap 1: Creëer de gegevens.
Eerst maken we twee tabellen met ons waargenomen en verwachte aantal klanten voor elke dag:
expected = [50, 50, 50, 50, 50] observed = [50, 60, 40, 47, 53]
Stap 2: Voer de chikwadraat-goodness-of-fit-test uit.
Vervolgens kunnen we de chi-kwadraat-goodness-of-fit-test uitvoeren met behulp van de chi-kwadraatfunctie uit de SciPy-bibliotheek, die de volgende syntaxis gebruikt:
chi kwadraat (f_obs, f_exp)
Goud:
- f_obs: een reeks waargenomen tellingen.
- f_exp: een reeks verwachte tellingen. Standaard wordt aangenomen dat elke categorie even waarschijnlijk is.
De volgende code laat zien hoe u deze functie kunt gebruiken in ons specifieke voorbeeld:
import scipy.stats as stats #perform Chi-Square Goodness of Fit Test stats.chisquare(f_obs=observed, f_exp=expected) (statistic=4.36, pvalue=0.35947)
De Chi-kwadraat-teststatistiek is 4,36 en de overeenkomstige p-waarde is 0,35947 .
Merk op dat de p-waarde overeenkomt met een Chi-kwadraatwaarde met n-1 vrijheidsgraden (dof), waarbij n het aantal verschillende categorieën is. In dit geval is dof = 5-1 = 4. U kunt dechikwadraat-naar-P-waardecalculator gebruiken om te bevestigen dat de p-waarde die overeenkomt met X 2 = 4,36 met dof = 4 0,35947 is.
Bedenk dat een chikwadraat-goodness-of-fit-test de volgende nul- en alternatieve hypothesen gebruikt:
- H 0 : (nulhypothese) Een variabele volgt een hypothetische verdeling.
- H 1 : (alternatieve hypothese) Een variabele volgt geen hypothetische verdeling.
Omdat de p-waarde (0,35947) niet kleiner is dan 0,05, slagen we er niet in de nulhypothese te verwerpen. Dit betekent dat we niet genoeg bewijs hebben om te zeggen dat de werkelijke distributie van klanten verschilt van die gerapporteerd door de winkeleigenaar.