Hoe aangepaste z-scores in excel te berekenen
In de statistieken wordt een aangepaste z-score als volgt berekend:
Gemodificeerde z-score = 0,6745 (x i – x̃) / MAD
Goud:
- x i : een enkele gegevenswaarde
- x̃: de mediaan van de dataset
- MAD: de mediaan absolute afwijking van de dataset
Een aangepaste z-score is robuuster dan een gewone z-score, omdat in de formule de mediaan wordt gebruikt, in tegenstelling tot het gemiddelde, waarvan bekend is dat het wordt beïnvloed door uitbijters .
Iglewicz en Hoaglin adviseren om waarden met gewijzigde z-scores kleiner dan -3,5 of groter dan 3,5 als potentiële uitschieters te bestempelen.
Het volgende stapsgewijze voorbeeld laat zien hoe u gewijzigde z-scores voor een bepaalde gegevensset in Excel kunt berekenen.
Stap 1: Creëer de gegevens
Eerst zullen we de volgende dataset maken met 16 waarden:
Stap 2: Bereken de mediaan
Vervolgens berekenen we de mediaan van de dataset:
De mediaan blijkt 16 te zijn.
Stap 3: Bereken het absolute verschil tussen elke waarde en de mediaan
Vervolgens berekenen we het absolute verschil tussen elke waarde en de mediaan:
Het absolute verschil tussen de eerste gegevenswaarde en de mediaan blijkt 16 te zijn.
Klik vervolgens op cel B2. Beweeg vervolgens over de rechteronderhoek van de cel totdat een klein kruisje ( + ) verschijnt.
Dubbelklik op het kruis om deze formule te kopiëren en in alle resterende cellen in de kolom te plakken:
Stap 4: Bereken de absolute mediaanafwijking
Vervolgens zullen we de volgende formule gebruiken om de mediaan absolute afwijking van de dataset te berekenen:
De absolute mediaanafwijking blijkt 8 te zijn.
Stap 5: Zoek de gewijzigde Z-score voor elke gegevenswaarde
Ten slotte kunnen we de gewijzigde z-score voor elke gegevenswaarde berekenen met behulp van de volgende formule:
Gemodificeerde z-score = 0,6745 (x i – x̃) / MAD
De gewijzigde z-score voor de eerste gegevenswaarde wordt bijvoorbeeld als volgt berekend:
Klik vervolgens op cel C2. Beweeg vervolgens over de rechteronderhoek van de cel totdat een klein kruisje ( + ) verschijnt.
Dubbelklik op het kruis om deze formule te kopiëren en in alle resterende cellen in de kolom te plakken:
We kunnen zien dat geen enkele waarde in de dataset een gewijzigde z-score heeft van minder dan -3,5 of groter dan 3,5, dus we bestempelen geen enkele waarde in deze dataset als een potentiële uitbijter.
Hoe om te gaan met uitschieters
Als er een uitschieter aanwezig is in uw dataset, heeft u verschillende opties:
- Zorg ervoor dat de uitschieter niet het gevolg is van een gegevensinvoerfout. Soms voert een individu eenvoudigweg de verkeerde gegevenswaarde in terwijl hij de gegevens opslaat. Als er een uitbijter aanwezig is, controleer dan eerst of de waarde correct is ingevoerd en dat er geen sprake is van een fout.
- Wijs een nieuwe waarde toe aan de uitschieter . Als de uitbijter het resultaat blijkt te zijn van een gegevensinvoerfout, kunt u besluiten om er een nieuwe waarde aan toe te kennen, zoals het gemiddelde of de mediaan van de dataset.
- Verwijder de uitschieter. Als de waarde echt een uitschieter is, kunt u ervoor kiezen deze te verwijderen als deze een aanzienlijke impact heeft op uw algehele analyse. Zorg ervoor dat u in uw eindrapport of analyse vermeldt dat u een uitbijter hebt verwijderd.
Aanvullende bronnen
Hoe Z-scores in Excel te berekenen
Hoe het interkwartielbereik (IQR) in Excel te berekenen
Hoe u het middenbereik in Excel kunt berekenen