Hoe u eenvoudig uitschieters kunt vinden in google spreadsheets
Een uitschieter is een waarneming die abnormaal ver verwijderd is van andere waarden in een dataset.
We definiëren een waarneming vaak als een uitschieter als deze 1,5 maal de interkwartielafstand boven het derde kwartiel of 1,5 maal de interkwartielafstand onder het eerste kwartiel ligt.
Opmerking: Het interkwartielbereik is het verschil tussen het derde kwartiel (75e percentiel) en het eerste kwartiel (25e percentiel) van een dataset. Het meet de verdeling van de gemiddelde 50% van de waarden.
In het volgende stapsgewijze voorbeeld ziet u hoe u deze formule kunt gebruiken om uitschieters in een dataset in Google Spreadsheets te vinden.
Stap 1: Voer de gegevens in
Laten we eerst de waarden uit de volgende dataset invoeren in Google Spreadsheets:
Stap 2: Bereken het interkwartielbereik
Laten we vervolgens het eerste kwartiel, het derde kwartiel en het interkwartielbereik van de dataset berekenen:
Stap 3: Identificeer uitschieters
Vervolgens kunnen we de volgende formule gebruiken om een „1“ toe te wijzen aan eventuele uitschieters in de gegevensset:
= IF ( A2 < $B$18 - $B$20 * 1.5 , 1 , IF ( A2 > $B$19 + $B$20 * 1.5 , 1 , 0 ) )
Deze formule controleert of een waarneming 1,5 keer de interkwartielafstand boven het derde kwartiel ligt, of 1,5 keer de interkwartielafstand onder het eerste kwartiel.
Als een van beide waar is, krijgt de waarneming een “1” om aan te geven dat deze een uitbijter is.
De volgende schermafbeelding laat zien hoe u deze formule in de praktijk kunt gebruiken:
We zien dat slechts één waarde in onze dataset een uitbijter blijkt te zijn: 164 .
Hoe om te gaan met uitschieters
Als er een uitbijter in uw gegevens aanwezig is, heeft u verschillende opties:
1. Zorg ervoor dat de uitbijter niet het gevolg is van een gegevensinvoerfout.
Soms worden eenvoudige gegevens verkeerd opgeslagen. Als er een uitbijter aanwezig is, controleer dan eerst of de waarde correct is ingevoerd en dat er geen sprake is van een fout.
2. Wijs een nieuwe waarde toe aan de uitschieter .
Als de uitschieter het gevolg is van een fout bij het invoeren van gegevens, kunt u besluiten er een nieuwe waarde aan toe te kennen, zoals het gemiddelde of de mediaan van de dataset.
3. Verwijder de uitbijter.
Als de waarde echt een uitbijter is, kunt u ervoor kiezen deze te verwijderen als deze een aanzienlijke impact heeft op uw algehele analyse. Zorg ervoor dat u in uw eindrapport vermeldt dat u een uitbijter hebt verwijderd.
Aanvullende bronnen
In de volgende tutorials wordt uitgelegd hoe u uitbijters in andere statistische software kunt verwijderen:
Hoe uitschieters in R te verwijderen
Hoe uitschieters in Python te verwijderen
Uitschieters verwijderen in SPSS