Gegevens winnen: definitie en voorbeelden
Winsoriseren van gegevens houdt in dat extreme uitschieters gelijk worden gesteld aan een bepaald percentiel van de gegevens.
Een winsorisatie van 90% stelt bijvoorbeeld alle waarnemingen boven het 95e percentiel gelijk aan de waarde op het 95e percentiel en alle waarnemingen onder het 5e percentiel gelijk aan de waarde op het 5e percentiel.
Het winsoriseren van data betekent namelijk het veranderen van de extreme waarden van een dataset naar minder extreme waarden.
Voorbeeld: gegevens winnen
Stel dat we de volgende dataset hebben:
3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98
Om een winsorisatie van 90% op deze dataset uit te voeren, zouden we eerst het 5e percentiel en het 95e percentiel vinden, wat als volgt blijkt te zijn:
- 5e percentiel: 12,35
- 95e percentiel: 92,05
We zouden dan alle waarden kleiner dan 12,35 gelijk stellen aan 12,35 en alle waarden groter dan 92,05 gelijk aan 92,05:
12.35, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 92.05
In dit geval werd de waarde 3 12,35 en de waarde 98 werd 92,05 .
Waarom Winsorize-gegevens?
Gemiddelde en standaardafwijking zijn twee veelgebruikte methoden voor het meten van respectievelijk de locatie van het midden van een dataset en de verdeling van waarnemingen in een dataset.
Deze twee maatstaven kunnen echter beide worden beïnvloed door extreme uitschieters. Door de gegevens te winnen kunnen we dus extreme uitschieters definiëren die gelijk zijn aan minder extreme waarden.
Hierdoor kunnen we vaak een nauwkeuriger beeld krijgen van het gemiddelde en de standaardafwijking van de dataset.
Pruim goud winsorize
Een andere veel voorkomende manier om met uitbijters om te gaan, is door ze uit de dataset te verwijderen , wat betekent dat ze volledig worden verwijderd.
Neem bijvoorbeeld de vorige dataset:
3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98
Als we waarden onder het 5e percentiel of boven het 95e percentiel zouden willen verlagen, zouden we eenvoudigweg de waarden 3 en 98 verwijderen.
Hier volgen enkele vuistregels voor het gebruik van slicen of winsorisatie:
Trimmen: Het is zinvol om gegevenswaarden bij te snijden wanneer sommige waarden volkomen onredelijk lijken, dat wil zeggen dat ze het resultaat zijn van een gegevensinvoerfout.
Winsorisatie: Het is zinvol om gegevens te winnen als we waarnemingen willen behouden die zich in de extremen bevinden, maar ze niet te letterlijk willen nemen.
Voorzorgsmaatregelen met betrekking tot het winnen van gegevens
Hier volgen enkele zaken waarmee u rekening moet houden als u besluit gegevens te verzamelen:
1. Als er geen extreme uitschieters zijn, zal het winsoriseren van de gegevens de kleinste en grootste waarden slechts lichtjes veranderen. Dit is over het algemeen geen goed idee, omdat het betekent dat we simpelweg gegevenswaarden veranderen met als enig doel ze te veranderen.
2. Uitschieters kunnen interessante randgevallen in de gegevens vertegenwoordigen. Voordat u de uitschieters bewerkt, is het dus een goed idee om ze nader te bekijken om te zien wat de oorzaak ervan zou kunnen zijn.
3. U moet beslissen of u de gegevens wel of niet wilt winnen na het verzamelen van de gegevens, en niet eerder. Voordat u besluit om te winnen, moet u eerst kijken of er daadwerkelijk sprake is van extreme uitschieters. Als er geen extreme uitschieters aanwezig zijn, kan winsorisatie onnodig zijn.
Tutorial: Gegevens winsoriseren in Excel
Raadpleeg deze tutorial voor een stapsgewijs voorbeeld van hoe u een gegevensset in Excel kunt winnen.