Hoe u een chi-square-onafhankelijkheidstest uitvoert in python


Een chi-kwadraattest van onafhankelijkheid   wordt gebruikt om te bepalen of er al dan niet een significant verband bestaat tussen twee categorische variabelen.

In deze tutorial wordt uitgelegd hoe u een chikwadraat-onafhankelijkheidstest uitvoert in Python.

Voorbeeld: Chi-kwadraat-onafhankelijkheidstest in Python

Stel dat we willen weten of gender wel of niet geassocieerd is met de voorkeur voor een politieke partij. We nemen een eenvoudige willekeurige steekproef van 500 kiezers en vragen hen naar hun politieke partijvoorkeur. De volgende tabel geeft de resultaten van het onderzoek weer:

Republikeins Democraat Onafhankelijk Totaal
Mannelijk 120 90 40 250
Vrouwelijk 110 95 45 250
Totaal 230 185 85 500

Gebruik de volgende stappen om een chikwadraat-onafhankelijkheidstest uit te voeren in Python om te bepalen of geslacht verband houdt met de voorkeur voor politieke partijen.

Stap 1: Creëer de gegevens.

Eerst maken we een tabel waarin we onze gegevens bewaren:

 data = [[120, 90, 40],
        [110, 95, 45]]

Stap 2: Voer de chikwadraattest van onafhankelijkheid uit.

Vervolgens kunnen we de chikwadraat-onafhankelijkheidstest uitvoeren met behulp van de chi2_contingency-functie uit de SciPy-bibliotheek, die de volgende syntaxis gebruikt:

chi2_contingentie (waargenomen)

Goud:

  • waargenomen: een kruistabel met waargenomen waarden.

De volgende code laat zien hoe u deze functie kunt gebruiken in ons specifieke voorbeeld:

 import scipy.stats as stats

#perform the Chi-Square Test of Independence
stats.chi2_contingency(data)

(0.864,
 0.649,
 2,
 array([[115. , 92.5, 42.5],
        [115. , 92.5, 42.5]]))

De manier om het resultaat te interpreteren is als volgt:

  • Chikwadraatteststatistiek: 0,864
  • p-waarde: 0,649
  • Vrijheidsgraden: 2 (berekend als #rijen-1 * #kolommen-1)
  • Tabel: De laatste tabel toont de verwachte waarden voor elke cel in de kruistabel.

Bedenk dat de chikwadraattoets voor onafhankelijkheid gebruik maakt van de volgende nul- en alternatieve hypothesen:

  • H 0 : (nulhypothese) De twee variabelen zijn onafhankelijk.
  • H 1 : (alternatieve hypothese) De twee variabelen zijn niet onafhankelijk.

Omdat de p-waarde (0,649) van de test niet minder dan 0,05 bedraagt, slagen we er niet in de nulhypothese te verwerpen. Dit betekent dat we niet voldoende bewijs hebben om te zeggen dat er een verband bestaat tussen geslacht en politieke partijvoorkeuren.

Met andere woorden: voorkeuren voor geslacht en politieke partijen zijn onafhankelijk.

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert