Uitschieters identificeren in spss
Een uitschieter is een waarneming die abnormaal ver verwijderd is van andere waarden in een dataset. Uitschieters kunnen problematisch zijn omdat ze de resultaten van een analyse kunnen beïnvloeden.
In deze tutorial wordt uitgelegd hoe u uitschieters in SPSS kunt identificeren en afhandelen.
Uitschieters identificeren in SPSS
Stel dat we de volgende dataset hebben die het jaarinkomen (in duizenden) van 15 mensen weergeeft:
Eén manier om te bepalen of er uitbijters aanwezig zijn, is door een boxplot voor de dataset te maken. Om dit te doen, klikt u op het tabblad Analyseren , vervolgens op Beschrijvende statistieken en vervolgens op Verkennen :
In het nieuwe venster dat verschijnt, sleept u het variabele inkomen naar het vak met de naam Lijst van afhankelijke personen. Klik vervolgens op Statistieken en zorg ervoor dat het vakje naast Percentielen is aangevinkt. Klik vervolgens op Doorgaan . Klik vervolgens op OK .
Zodra u op OK klikt, verschijnt er een boxplot:
Als er aan beide uiteinden van de boxplot geen cirkels of sterretjes staan, betekent dit dat er geen uitschieters aanwezig zijn.
SPSS beschouwt elke gegevenswaarde als een uitbijter als deze buiten de volgende bereiken valt:
- 3e kwartiel + 1,5*interkwartielbereik
- 1e kwartiel – 1,5*interkwartielbereik
We kunnen het interkwartielbereik berekenen door het verschil te nemen tussen het 75e en 25e percentiel in de rij met de naam Tukey Hinges in het resultaat:
Voor deze dataset is het interkwartielbereik 82 – 36 = 46 . Alle waarden buiten de volgende bereiken worden dus als uitschieters beschouwd:
- 82 + 1,5*46 = 151
- 36 – 1,5*46 = -33
Het inkomen kan uiteraard niet negatief zijn, dus de ondergrens in dit voorbeeld is niet bruikbaar. Elk inkomen boven de 151 wordt echter als een uitbijter beschouwd.
Laten we bijvoorbeeld zeggen dat de grootste waarde in onze dataset in plaats daarvan 152 is. Hier is de boxplot voor die dataset:
De cirkel geeft aan dat er een uitbijter in de gegevens aanwezig is. Het getal 15 geeft aan welke waarneming in de dataset de uitbijter is.
SPSS beschouwt elke gegevenswaarde ook als een extreme uitschieter als deze buiten de volgende bereiken valt:
- 3e kwartiel + 3*interkwartielbereik
- 1e kwartiel – 3*interkwartielbereik
Alle waarden buiten de volgende bereiken worden in dit voorbeeld als extreme uitschieters beschouwd:
- 82 + 3*46 = 220
- 36 – 3*46 = -102
Stel bijvoorbeeld dat de grootste waarde in onze dataset 221 is. Hier is de boxplot van deze dataset:
Het sterretje (*) geeft aan dat er een extreme uitschieter in de gegevens aanwezig is. Het getal 15 geeft aan welke waarneming in de dataset de extreme uitbijter is.
Hoe om te gaan met uitschieters
Als er een uitbijter in uw gegevens aanwezig is, heeft u verschillende opties:
1. Zorg ervoor dat de uitbijter niet het gevolg is van een gegevensinvoerfout.
Soms voert een individu eenvoudigweg de verkeerde gegevenswaarde in terwijl hij de gegevens opslaat. Als er een uitbijter aanwezig is, controleer dan eerst of de waarde correct is ingevoerd en dat er geen sprake is van een fout.
2. Verwijder de uitbijter.
Als de waarde echt een uitschieter is, kunt u ervoor kiezen deze te verwijderen als deze een aanzienlijke impact heeft op uw algehele analyse. Zorg ervoor dat u in uw eindrapport of analyse vermeldt dat u een uitbijter hebt verwijderd.
3. Wijs een nieuwe waarde toe aan de uitschieter .
Als de uitbijter het resultaat blijkt te zijn van een gegevensinvoerfout, kunt u besluiten om er een nieuwe waarde aan toe te kennen, zoals het gemiddelde of de mediaan van de dataset.
Aanvullende bronnen
Als u met meerdere variabelen tegelijk werkt, wilt u wellicht de Mahalanobis-afstand gebruiken om uitschieters te detecteren.