De complete gids: wanneer u uitschieters in gegevens moet verwijderen
Een uitschieter is een waarneming die abnormaal ver verwijderd is van andere waarden in een dataset.
Uitschieters kunnen problematisch zijn omdat ze de resultaten van een analyse kunnen beïnvloeden.
Ze kunnen echter ook inzicht geven in de gegevens die u bestudeert, omdat ze abnormale gevallen of personen met zeldzame kenmerken aan het licht kunnen brengen.
Bij elke analyse moet u beslissen of u uitbijters verwijdert of behoudt.
Gelukkig kunt u het volgende stroomschema gebruiken om u te helpen een beslissing te nemen:
Laten we elke vraag in het stroomdiagram eens nader bekijken.
Is de uitbijter het gevolg van een fout bij het invoeren van de gegevens?
Soms zijn uitschieters in een dataset eenvoudigweg het gevolg van een gegevensinvoerfout.
Stel bijvoorbeeld dat een bioloog gegevens verzamelt over de hoogte van een bepaalde plantensoort en de volgende gegevens vastlegt:
- 6,83 inch
- 7,51 inch
- 5,21 inch
- 5,84 inch
- 7,83 inch
- 755 inch
- 6,53 inch
- 6,31 inch
- 5,91 inch
Het is duidelijk dat de invoer voor 755 inch een uitschieter is en waarschijnlijk het resultaat is van een gegevensinvoerfout. Hoogstwaarschijnlijk had de hoogte 7,55 inch moeten zijn, maar deze was eenvoudigweg verkeerd ingevoerd.
Als de bioloog deze observatie zou bijhouden en een beschrijvende statistiek zou berekenen, zoals de gemiddelde hoogte van de planten in het monster, zou deze observatie de resultaten enorm vertekenen en een onnauwkeurig beeld geven van de werkelijke gemiddelde planthoogte.
In dit scenario (en vergelijkbare scenario’s) is het zinvol om deze uitbijter uit de dataset te verwijderen, omdat het een fout is en geen legitiem datapunt om in de analyse op te nemen.
Heeft de uitbijter een significante invloed op de analyseresultaten?
Als een waarneming een echte uitschieter is en niet eenvoudigweg het resultaat is van een fout bij het invoeren van de gegevens, moeten we onderzoeken of de uitbijter de resultaten van de analyse al dan niet beïnvloedt.
Stel bijvoorbeeld dat een bioloog de relatie tussen kunstmest en planthoogte bestudeert. Ze wil een eenvoudig lineair regressiemodel toepassen met kunstmest als voorspellende variabele en planthoogte alsresponsvariabele .
Het verzamelt de volgende gegevens voor 12 verschillende fabrieken:
Het is duidelijk dat de laatste waarneming afwijkend is.
Als we echter een spreidingsdiagram maken om deze dataset te visualiseren, kunnen we zien dat de regressielijn niet veel zou veranderen, ongeacht of we de uitbijter wel of niet meenemen:
In dit scenario schendt de uitbijter feitelijk geen van de aannames van een lineair regressiemodel , dus we kunnen deze in de dataset behouden.
Stel echter dat we de volgende uitschieter in de gegevens hebben:
Het is duidelijk dat deze uitbijter een aanzienlijke invloed heeft op de regressielijn, dus we kunnen één regressiemodel met de uitbijter en één zonder regressiemodel passen, en vervolgens de resultaten van beide regressiemodellen rapporteren.
Heeft de uitschieter invloed op de aannames in de analyse?
Als een uitbijter niet het resultaat is van een fout bij het invoeren van gegevens en de resultaten van een analyse niet significant beïnvloedt, moeten we ons afvragen of de uitbijter al dan niet de hypothesen in een analyse beïnvloedt. analyse.
Als het de aannames niet beïnvloedt, kunnen we het gewoon in de gegevens laten staan.
Als dit echter van invloed is op de aannames, hebben we verschillende opties:
1. Verwijder het. We kunnen het eenvoudig uit de gegevens verwijderen en er een notitie van maken bij het rapporteren van de resultaten.
2. Voer een transformatie uit op de gegevens. In plaats van de uitbijter te verwijderen, zouden we kunnen proberen een transformatie op de gegevens uit te voeren, bijvoorbeeld door de vierkantswortel of log te nemen van alle waarden in de gegevens. Er is aangetoond dat dit de uitschieters vermindert en de gegevens vaak normaler verdeeld maakt.
Ongeacht hoe u besluit om te gaan met uitschieters in uw gegevens, u moet uw beslissing samen met uw redenering in de uitkomst van uw analyse vermelden.
Aanvullende bronnen
In de volgende tutorials wordt uitgelegd hoe u uitbijters kunt vinden en verwijderen in verschillende statistische software:
Hoe u uitschieters kunt vinden in Excel
Uitschieters vinden in Google Spreadsheets
Hoe uitschieters in R te vinden
Hoe vind je uitschieters in Python?
Hoe vind je uitschieters in SPSS?