Hoe een kruskal-wallis-test uit te voeren in stata
Een Kruskal-Wallis-test wordt gebruikt om te bepalen of er al dan niet een statistisch significant verschil bestaat tussen de medianen van drie of meer onafhankelijke groepen. Het wordt beschouwd als het niet-parametrische equivalent van eenrichtings-ANOVA .
In deze tutorial wordt uitgelegd hoe u een Kruskal-Wallis-test uitvoert in Stata.
Hoe een Kruskal-Wallis-test uit te voeren in Stata
Voor dit voorbeeld gebruiken we de Census- gegevensset, die censusgegevens uit 1980 bevat voor alle vijftig staten in de Verenigde Staten. In de dataset zijn staten onderverdeeld in vier verschillende regio’s:
- Noord Est
- Noord Centraal
- zuiden
- Westen
We zullen een Kruskal-Wallis-test uitvoeren om te bepalen of de mediane leeftijd in deze vier regio’s gelijk is.
Stap 1: Gegevens laden en weergeven.
Laad eerst de gegevensset door de volgende opdracht in het vak Opdracht te typen:
gebruik https://www.stata-press.com/data/r13/census
Krijg een snel overzicht van de dataset met behulp van de volgende opdracht:
samenvatten
We kunnen zien dat er 13 verschillende variabelen in deze dataset zitten, maar de enige twee waarmee we zullen werken zijn medage (mediane leeftijd) en region .
Stap 2: Visualiseer de gegevens.
Voordat we de Kruskal-Wallis-test uitvoeren, maken we eerst enkele boxplots om de mediane leeftijdsverdeling voor elk van de vier regio’s te visualiseren:
medage grafische doos, aan (regio)
Als u alleen al naar de boxplots kijkt, ziet u dat de verdelingen van regio tot regio lijken te variëren. Vervolgens zullen we een Kruskal-Wallis-test uitvoeren om te zien of deze verschillen statistisch significant zijn.
Stap 3: Voer een Kruskal-Wallis-test uit.
Gebruik de volgende syntaxis om een Kruskal-Wallis-test uit te voeren:
kwallis meetvariabele, door (groeperingsvariabele)
In ons geval gebruiken we de volgende syntaxis:
kwallis medage, door (regio)
Zo interpreteert u het resultaat:
Overzichtstabel: Deze tabel toont het aantal waarnemingen per regio en de rangschikkingssommen per regio.
Chi-kwadraat met gelijkspel: Dit is de waarde van de teststatistiek, die 17,062 blijkt te zijn.
waarschijnlijkheid: Dit is de p-waarde die overeenkomt met de teststatistiek, die 0,0007 blijkt te zijn. Omdat deze waarde kleiner is dan 0,05 kunnen we de nulhypothese verwerpen en concluderen dat de mediane leeftijd niet gelijk is in de vier regio’s.
Stap 4: Rapporteer de resultaten.
Tenslotte willen we graag de resultaten van de Kruskal-Wallis-test melden. Hier is een voorbeeld van hoe u dit kunt doen:
Er werd een Kruskal-Wallist-test uitgevoerd om te bepalen of de gemiddelde leeftijd van individuen hetzelfde was in de volgende vier regio’s van de Verenigde Staten:
- Noordoost (n=9)
- Noord-Centraal (n=12)
- Zuid (n=16)
- Westen (n=13)
Uit de test bleek dat de gemiddelde leeftijd van individuen niet hetzelfde was (X 2 = 17,062, p = 0,0007) in de vier regio’s. Dat wil zeggen dat er een statistisch significant verschil in mediane leeftijd was tussen twee of meer regio’s.