Comment effectuer un test d’ajustement du chi carré dans Stata
Un test d’ajustement du chi carré est utilisé pour déterminer si une variable catégorielle suit ou non une distribution hypothétique.
Ce didacticiel explique comment effectuer un test d’ajustement du chi carré dans Stata.
Exemple : test d’adéquation du chi carré dans Stata
Pour illustrer comment réaliser ce test, nous utiliserons un ensemble de données appelé nlsw88 , qui contient des informations sur les statistiques du travail des femmes aux États-Unis en 1988.
Suivez les étapes suivantes pour effectuer un test d’adéquation du chi carré afin de déterminer si la véritable répartition de la race dans cet ensemble de données est la suivante : 70 % de Blancs, 20 % de Noirs, 10 % d’Autres.
Étape 1 : Chargez et affichez les données brutes.
Tout d’abord, nous allons charger les données en tapant la commande suivante :
système nlsw88
Nous pouvons visualiser les données brutes en tapant la commande suivante :
br
Chaque ligne affiche des informations sur un individu, notamment son âge, sa race, son état civil, son niveau d’éducation et divers autres facteurs.
Étape 2 : Chargez le package d’ajustement.
Pour effectuer un test d’adéquation, nous devrons installer le package csgof . Nous pouvons le faire en tapant la commande suivante :
trouver csgof
Une nouvelle fenêtre apparaîtra. Cliquez sur le lien qui dit csgof depuis https://stats.idre.ucla.edu/stat/stata/ado/analysis .
Une autre fenêtre apparaîtra. Cliquez sur le lien qui dit cliquez ici pour installer .
L’installation du package ne devrait prendre que quelques secondes.
Étape 3 : Effectuez le test d’adéquation.
Une fois le package installé, nous pouvons effectuer le test d’adéquation sur les données pour déterminer si la véritable répartition de la race est la suivante : 70 % de Blancs, 20 % de Noirs, 10 % d’Autres.
Nous utiliserons la syntaxe suivante pour effectuer le test :
csgof variable_of_interest, expperc(list_of_expected_percentages)
Voici la syntaxe exacte que nous utiliserons dans notre cas :
course csgof, expperc(70, 20, 10)
Voici comment interpréter le résultat :
Encadré récapitulatif : cet encadré nous montre le pourcentage attendu, la fréquence attendue et la fréquence observée pour chaque course. Par exemple:
- Le pourcentage attendu d’individus blancs était de 70 %. C’est le pourcentage que nous avons précisé.
- La fréquence attendue d’individus blancs était de 1 572,2. Ceci est calculé en utilisant le fait qu’il y avait 2 246 individus dans l’ensemble de données, donc 70 % de ce nombre est de 1 572,2.
- La fréquence observée d’individus blancs était de 1 637. Il s’agit du nombre réel d’individus blancs dans l’ensemble de données.
Chisq(2) : Il s’agit de la statistique du test du Chi carré pour le test d’adéquation de l’ajustement. Il s’avère que c’est 218,13.
p : Il s’agit de la valeur p associée à la statistique du test du Chi carré. Il s’avère que c’est 0. Puisque c’est inférieur à 0,05, nous ne parvenons pas à rejeter l’hypothèse nulle selon laquelle la véritable répartition des races est de 70 % de Blancs, 20 % de Noirs et 10 % d’Autres. Nous disposons de suffisamment de preuves pour conclure que la véritable répartition raciale est différente de cette répartition hypothétique.