Wat is een aangepaste z-score? (definitie & #038; voorbeeld)
In de statistiek vertelt een z-score ons hoeveel standaarddeviaties een waarde afwijkt van het gemiddelde . We gebruiken de volgende formule om een z-score te berekenen:
Z-score = (x i – μ) / σ
Goud:
- x i : een enkele gegevenswaarde
- μ: het gemiddelde van de dataset
- σ: de standaardafwijking van de dataset
Z-scores worden vaak gebruikt om uitbijters in een dataset te detecteren. Waarnemingen met een z-score kleiner dan -3 of groter dan 3 worden bijvoorbeeld vaak als uitschieters beschouwd.
Z-scores kunnen echter worden beïnvloed door ongewoon grote of kleine gegevenswaarden. Daarom is een robuustere manier om uitschieters te detecteren het gebruik van een aangepaste z-score , die als volgt wordt berekend:
Gemodificeerde z-score = 0,6745 (x i – x̃) / MAD
Goud:
- x i : een enkele gegevenswaarde
- x̃: de mediaan van de dataset
- MAD: de mediaan absolute afwijking van de dataset
Een aangepaste z-score is robuuster omdat deze de mediaan gebruikt om z-scores te berekenen, in tegenstelling tot het gemiddelde, waarvan bekend is dat het wordt beïnvloed door uitbijters .
Iglewicz en Hoaglin adviseren om waarden met gewijzigde z-scores kleiner dan -3,5 of groter dan 3,5 als potentiële uitschieters te bestempelen.
Het volgende stapsgewijze voorbeeld laat zien hoe u gewijzigde z-scores voor een bepaalde gegevensset kunt berekenen.
Stap 1: Creëer de gegevens
Stel dat we de volgende dataset hebben met 16 waarden:
Stap 2: Zoek de mediaan
Vervolgens vinden we de mediaan. Dit vertegenwoordigt het middelpunt van de dataset, wat 16 blijkt te zijn.
Stap 3: Zoek het absolute verschil tussen elke waarde en de mediaan
Vervolgens zullen we het absolute verschil vinden tussen elke individuele gegevenswaarde en de mediaan. Het absolute verschil tussen de eerste gegevenswaarde en de mediaan wordt bijvoorbeeld als volgt berekend:
Absoluut verschil = |6 – 16| = 10
We kunnen dezelfde formule gebruiken om het absolute verschil tussen elke individuele gegevenswaarde en de mediaan te berekenen:
Stap 4: Vind de absolute mediaanafwijking
Vervolgens zullen we de absolute mediaanafwijking vinden. Dit is de mediaan van de tweede kolom, die 8 blijkt te zijn.
Stap 5: Zoek de gewijzigde Z-score voor elke gegevenswaarde
Ten slotte kunnen we de gewijzigde z-score voor elke gegevenswaarde berekenen met behulp van de volgende formule:
Gemodificeerde z-score = 0,6745 (x i – x̃) / MAD
De gewijzigde z-score voor de eerste gegevenswaarde wordt bijvoorbeeld als volgt berekend:
Gemodificeerde z-score = 0,6745*(6-16) / 8 = -0,843
We kunnen deze formule herhalen voor elke waarde in de dataset:
We kunnen zien dat geen enkele waarde in de dataset een gewijzigde z-score heeft van minder dan -3,5 of groter dan 3,5, dus we bestempelen geen enkele waarde in deze dataset als een potentiële uitbijter.
Hoe om te gaan met uitschieters
Als er een uitschieter aanwezig is in uw dataset, heeft u verschillende opties:
- Zorg ervoor dat de uitschieter niet het gevolg is van een gegevensinvoerfout. Soms voert een individu eenvoudigweg de verkeerde gegevenswaarde in terwijl hij de gegevens opslaat. Als er een uitbijter aanwezig is, controleer dan eerst of de waarde correct is ingevoerd en dat er geen sprake is van een fout.
- Wijs een nieuwe waarde toe aan de uitschieter . Als de uitbijter het resultaat blijkt te zijn van een gegevensinvoerfout, kunt u besluiten om er een nieuwe waarde aan toe te kennen, zoals het gemiddelde of de mediaan van de dataset.
- Verwijder de uitschieter. Als de waarde echt een uitschieter is, kunt u ervoor kiezen deze te verwijderen als deze een aanzienlijke impact heeft op uw algehele analyse. Zorg ervoor dat u in uw eindrapport of analyse vermeldt dat u een uitbijter hebt verwijderd.