Hoe u eenvoudig uitschieters kunt vinden in excel
Een uitschieter is een waarneming die abnormaal ver verwijderd is van andere waarden in een dataset.
Uitschieters kunnen problematisch zijn omdat ze de resultaten van een analyse kunnen beïnvloeden.
We gebruiken de volgende gegevensset in Excel om twee methoden te demonstreren voor het vinden van uitschieters:
Gerelateerd: Hoe u het gemiddelde kunt berekenen, exclusief uitschieters in Excel
Methode 1: Gebruik het interkwartielbereik
De interkwartielafstand (IQR) is het verschil tussen het 75e percentiel (Q3) en het 25e percentiel (Q1) in een dataset. Het meet de verdeling van de gemiddelde 50% van de waarden.
We kunnen een waarneming als een uitbijter definiëren als deze 1,5 keer de interkwartielafstand boven het derde kwartiel (Q3) of 1,5 keer de interkwartielafstand onder het eerste kwartiel (Q1) ligt.
De volgende afbeelding laat zien hoe u het interkwartielbereik in Excel kunt berekenen:
Vervolgens kunnen we de hierboven genoemde formule gebruiken om een “1” toe te wijzen aan eventuele uitschieters in de dataset:
We zien dat slechts één waarde – 164 – een uitbijter blijkt te zijn in deze dataset.
Methode 2: Gebruik z-scores
Een z-score vertelt u hoeveel standaarddeviaties een bepaalde waarde afwijkt van het gemiddelde. We gebruiken de volgende formule om een z-score te berekenen:
z = (X – μ) / σ
Goud:
- X is een enkele onbewerkte gegevenswaarde
- μ is het populatiegemiddelde
- σ is de standaarddeviatie van de populatie
We kunnen een waarneming als een uitbijter definiëren als deze een z-score kleiner dan -3 of groter dan 3 heeft.
De volgende afbeelding laat zien hoe u het gemiddelde en de standaardafwijking van een gegevensset in Excel kunt berekenen:
We kunnen vervolgens het gemiddelde en de standaardafwijking gebruiken om de z-score voor elke individuele waarde in de dataset te vinden:
We kunnen dan een “1” toekennen aan elke waarde waarvan de z-score kleiner is dan -3 of groter dan 3:
Met deze methode zien we dat er geen uitbijters in de dataset voorkomen.
Opmerking: Soms wordt een z-score van 2,5 gebruikt in plaats van 3. In dit geval wordt de individuele waarde van 164 als een uitschieter beschouwd omdat deze een z-score heeft die groter is dan 2,5.
Wanneer u de z-score-methode gebruikt, gebruik dan uw oordeel om te bepalen welke z-score-waarde u als een uitbijter beschouwt.
Hoe om te gaan met uitschieters
Als er een uitbijter in uw gegevens aanwezig is, heeft u verschillende opties:
1. Zorg ervoor dat de uitschieter niet het gevolg is van een gegevensinvoerfout.
Soms voert een individu eenvoudigweg de verkeerde gegevenswaarde in terwijl hij de gegevens opslaat. Als er een uitbijter aanwezig is, controleer dan eerst of de waarde correct is ingevoerd en dat er geen sprake is van een fout.
2. Verwijder de uitbijter.
Als de waarde echt een uitschieter is, kunt u ervoor kiezen deze te verwijderen als deze een aanzienlijke impact heeft op uw algehele analyse. Zorg ervoor dat u in uw eindrapport of analyse vermeldt dat u een uitbijter hebt verwijderd.
3. Wijs een nieuwe waarde toe aan de uitschieter .
Als de uitschieter het gevolg is van een fout bij het invoeren van de gegevens, kunt u besluiten er een nieuwe waarde aan toe te kennen, zoals het gemiddelde of de mediaan van de gegevensset.