Comment effectuer un test d’indépendance du chi carré en Python



Un test d’indépendance du chi carré   est utilisé pour déterminer s’il existe ou non une association significative entre deux variables catégorielles.

Ce didacticiel explique comment effectuer un test d’indépendance du chi carré en Python.

Exemple : test d’indépendance du chi carré en Python

Supposons que nous voulions savoir si le genre est associé ou non à la préférence pour un parti politique. Nous prenons un échantillon aléatoire simple de 500 électeurs et les interrogeons sur leur préférence en matière de parti politique. Le tableau suivant présente les résultats de l’enquête :

Républicain Démocrate Indépendant Total
Mâle 120 90 40 250
Femelle 110 95 45 250
Total 230 185 85 500

Utilisez les étapes suivantes pour effectuer un test d’indépendance du chi carré en Python afin de déterminer si le sexe est associé à la préférence du parti politique.

Étape 1 : Créez les données.

Tout d’abord, nous allons créer un tableau pour contenir nos données :

data = [[120, 90, 40],
        [110, 95, 45]]

Étape 2 : Effectuez le test d’indépendance du chi carré.

Ensuite, nous pouvons effectuer le test d’indépendance du chi carré à l’aide de la fonction chi2_contingency de la bibliothèque SciPy, qui utilise la syntaxe suivante :

chi2_contingency (observé)

où:

  • observé : un tableau de contingence des valeurs observées.

Le code suivant montre comment utiliser cette fonction dans notre exemple spécifique :

import scipy.stats as stats

#perform the Chi-Square Test of Independence
stats.chi2_contingency(data)

(0.864,
 0.649,
 2,
 array([[115. ,  92.5,  42.5],
        [115. ,  92.5,  42.5]]))

La façon d’interpréter le résultat est la suivante :

  • Statistique du test du chi carré : 0,864
  • Valeur p : 0,649
  • Degrés de liberté : 2 (calculé comme #rows-1 * #columns-1)
  • Tableau : Le dernier tableau affiche les valeurs attendues pour chaque cellule du tableau de contingence.

Rappelons que le test d’indépendance du chi carré utilise les hypothèses nulles et alternatives suivantes :

  • H 0 : (hypothèse nulle) Les deux variables sont indépendantes.
  • H 1 : (hypothèse alternative) Les deux variables ne sont pas indépendantes.

Puisque la valeur p (0,649) du test n’est pas inférieure à 0,05, nous ne parvenons pas à rejeter l’hypothèse nulle. Cela signifie que nous ne disposons pas de preuves suffisantes pour affirmer qu’il existe une association entre le sexe et les préférences en matière de parti politique.

En d’autres termes, le sexe et les préférences en matière de parti politique sont indépendants.

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *