Comment effectuer un test d’ajustement du chi carré en Python
Un test d’ajustement du chi carré est utilisé pour déterminer si une variable catégorielle suit ou non une distribution hypothétique.
Ce didacticiel explique comment effectuer un test d’ajustement du chi carré en Python.
Exemple : test d’adéquation du chi carré en Python
Un propriétaire de magasin affirme qu’un nombre égal de clients viennent dans son magasin chaque jour de la semaine. Pour tester cette hypothèse, un chercheur enregistre le nombre de clients qui viennent dans le magasin au cours d’une semaine donnée et trouve ce qui suit :
- Lundi : 50 clients
- Mardi : 60 clients
- Mercredi : 40 clients
- Jeudi : 47 clients
- Vendredi : 53 clients
Utilisez les étapes suivantes pour effectuer un test d’ajustement du chi carré en Python afin de déterminer si les données sont cohérentes avec l’affirmation du propriétaire de la boutique.
Étape 1 : Créez les données.
Tout d’abord, nous allons créer deux tableaux pour contenir notre nombre de clients observé et attendu pour chaque jour :
expected = [50, 50, 50, 50, 50] observed = [50, 60, 40, 47, 53]
Étape 2 : Effectuez le test d’adéquation du chi carré.
Ensuite, nous pouvons effectuer le test d’adéquation du chi carré à l’aide de la fonction chi carré de la bibliothèque SciPy, qui utilise la syntaxe suivante :
chi carré (f_obs, f_exp)
où:
- f_obs : un tableau de décomptes observés.
- f_exp : un tableau de comptes attendus. Par défaut, chaque catégorie est supposée équiprobable.
Le code suivant montre comment utiliser cette fonction dans notre exemple spécifique :
import scipy.stats as stats #perform Chi-Square Goodness of Fit Test stats.chisquare(f_obs=observed, f_exp=expected) (statistic=4.36, pvalue=0.35947)
La statistique du test du Chi carré est de 4,36 et la valeur p correspondante est de 0,35947 .
Notez que la valeur p correspond à une valeur du Chi carré avec n-1 degrés de liberté (dof), où n est le nombre de catégories différentes. Dans ce cas, dof = 5-1 = 4. Vous pouvez utiliser le calculateur du chi carré vers la valeur P pour confirmer que la valeur p qui correspond à X 2 = 4,36 avec dof = 4 est 0,35947 .
Rappelons qu’un test d’adéquation du chi carré utilise les hypothèses nulles et alternatives suivantes :
- H 0 : (hypothèse nulle) Une variable suit une distribution hypothétique.
- H 1 : (hypothèse alternative) Une variable ne suit pas une distribution hypothétique.
Puisque la valeur p (0,35947) n’est pas inférieure à 0,05, nous ne parvenons pas à rejeter l’hypothèse nulle. Cela signifie que nous n’avons pas suffisamment de preuves pour affirmer que la véritable répartition des clients est différente de celle déclarée par le propriétaire du magasin.