Hoe beïnvloeden uitbijters het gemiddelde?
In de statistiek is het gemiddelde van een reeks gegevens de gemiddelde waarde. Dit is handig om te weten omdat het ons een idee geeft waar het ‘centrum’ van de dataset zich bevindt. Het wordt berekend met behulp van de eenvoudige formule:
gemiddelde = (som van waarnemingen) / (aantal waarnemingen)
Stel dat we bijvoorbeeld de volgende gegevensset hebben:
[1, 4, 5, 6, 7]
Het gemiddelde van de dataset is (1+4+5+6+7) / (5) = 4,6
Maar ook al is het gemiddelde nuttig en gemakkelijk te berekenen, het heeft een nadeel: het kan worden beïnvloed door uitschieters . Hoe kleiner de dataset, hoe meer een uitschieter het gemiddelde kan beïnvloeden.
Om dit te illustreren, bekijken we het volgende klassieke voorbeeld:
Tien mannen zitten in een bar. Het gemiddelde inkomen van tien mannen bedraagt $50.000. Plotseling komt er een man naar buiten en Bill Gates komt binnen. Tegenwoordig bedraagt het gemiddelde inkomen van de tien mannen in de bar $40 miljoen.
Dit voorbeeld laat zien hoe een uitbijter (Bill Gates) het gemiddelde aanzienlijk kan beïnvloeden.
Kleine en grote uitschieters
Een uitschieter kan het gemiddelde beïnvloeden doordat hij ongewoon klein of ongewoon groot is. In het vorige voorbeeld had Bill Gates een ongewoon hoog inkomen, waardoor het gemiddelde misleidend was.
Een ongebruikelijk lage waarde kan echter ook van invloed zijn op het gemiddelde. Om dit te illustreren, bekijken we het volgende voorbeeld:
Tien studenten doen examen en behalen de volgende cijfers:
[0, 88, 90, 92, 94, 95, 95, 96, 97, 99]
De gemiddelde score bedraagt 84,6 .
Als we echter score “0” uit de dataset verwijderen, wordt de gemiddelde score 94 .
De ongewoon lage score van een leerling verlaagt het gemiddelde van de gehele dataset.
Steekproefomvang en uitschieters
Hoe kleiner de steekproefomvang van de dataset, hoe waarschijnlijker het is dat een uitbijter het gemiddelde beïnvloedt.
Stel dat we bijvoorbeeld een dataset hebben van 100 examenscores waarin alle studenten minimaal 90 of hoger scoorden, behalve één student die een nul scoorde:
[ 0 , 90, 90, 92, 94, 95, 95, 96, 97, 99, 94, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94 , 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99 , 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94 , 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99 ]
Het gemiddelde blijkt 93,18 te zijn. Als we de “0” uit de dataset zouden verwijderen, zou het gemiddelde 94,12 zijn. Dit is een relatief klein verschil. Hieruit blijkt dat zelfs een extreme uitbijter slechts een minimaal effect heeft als de dataset groot genoeg is.
Hoe om te gaan met uitschieters
Als u zich zorgen maakt dat er mogelijk een uitbijter in uw dataset zit, heeft u verschillende opties:
- Zorg ervoor dat de uitschieter niet het gevolg is van een gegevensinvoerfout. Soms voert een individu eenvoudigweg de verkeerde gegevenswaarde in terwijl hij de gegevens opslaat. Als er een uitbijter aanwezig is, controleer dan eerst of de waarde correct is ingevoerd en dat er geen sprake is van een fout.
- Wijs een nieuwe waarde toe aan de uitschieter . Als de uitbijter het resultaat blijkt te zijn van een gegevensinvoerfout, kunt u besluiten om er een nieuwe waarde aan toe te kennen, zoals het gemiddelde of de mediaan van de dataset.
- Verwijder de uitschieter. Als de waarde echt een uitschieter is, kunt u ervoor kiezen deze te verwijderen als deze een aanzienlijke impact heeft op uw algehele analyse. Zorg ervoor dat u in uw eindrapport of analyse vermeldt dat u een uitbijter hebt verwijderd.
Gebruik de mediaan
Een andere manier om het „centrum“ van een dataset te vinden is door de mediaan te gebruiken, verkregen door alle individuele waarden in een dataset te ordenen van klein naar groot en de mediaanwaarde te vinden.
Vanwege de manier waarop deze wordt berekend, wordt de mediaan minder beïnvloed door uitschieters en geeft deze beter de centrale locatie van een verdeling weer als er uitbijters zijn.
Bekijk bijvoorbeeld de volgende grafiek die de vierkante meters van huizen in een bepaalde buurt laat zien:
Het gemiddelde wordt sterk beïnvloed door enkele extreem grote huizen, terwijl de mediaan dat niet is. De mediaan kan dus beter de ‘typische’ vierkante meters van een huis in die buurt vastleggen dan het gemiddelde.
Verder lezen:
Maatregelen voor de centrale tendens – gemiddelde, mediaan en modus
Dixon’s Q-test om uitschieters te detecteren
Uitschieter rekenmachine