Afgeknotte en gecensureerde gegevens: definitie + voorbeelden
Vaak kunnen onderzoekers bij het verzamelen van gegevens besluiten bepaalde waarden te censureren of in te korten .
Het censureren van datawaarden betekent het verzamelen van slechts gedeeltelijke informatie over waarden onder of boven een bepaalde waarde.
We weten bijvoorbeeld misschien dat iemand minder dan $ 25.000 per jaar verdient, maar misschien weten we niet wat zijn exacte jaarinkomen is.
Het afkappen van datawaarden betekent het verwijderen van waarden uit een dataset die onder of boven een bepaalde waarde liggen.
Een onderzoeker kan bijvoorbeeld alleen geïnteresseerd zijn in personen die meer dan €25.000 per jaar verdienen. Dus iedereen die minder dan $ 25.000 verdient, wordt eenvoudigweg uit de dataset verwijderd.
Deze zelfstudie biedt verschillende voorbeelden van gevallen waarin gegevens kunnen worden gecensureerd of ingekort.
Gegevenscensuur
Het censureren van datawaarden betekent het verzamelen van slechts gedeeltelijke informatie over waarden onder of boven een bepaalde waarde.
De volgende voorbeelden illustreren scenario’s waarin we kunnen besluiten gegevenswaarden te censureren.
Voorbeeld 1: Jaarinkomen
Stel dat een onderzoeker enquêtegegevens verzamelt over het jaarinkomen. Als iemand minder dan $25.000 per jaar verdient, besluit hij dit inkomen als „<$25.000“ in een database te rapporteren in plaats van zijn exacte jaarinkomen op te geven.
Dit is een voorbeeld van gegevenscensuur omdat we weten dat een individu minder dan een bepaald bedrag verdient, maar we weten niet wat zijn exacte jaarinkomen is.
Voorbeeld 2: vervuilingsniveaus
Stel dat een bioloog een bepaald instrument gebruikt om de vervuilingsniveaus in verschillende watermassa’s te meten. Het instrument is niet in staat de vervuiling onder de 0,002 delen per miljoen te meten. Daarom wordt elk waterlichaam met een verontreinigingsniveau onder deze drempel eenvoudigweg gerapporteerd als „<0,002“ in plaats van de exacte hoeveelheid.
Dit is een voorbeeld van datacensuur omdat we weten dat sommige waterlichamen een vervuilingsniveau van minder dan 0,002 delen per miljoen hebben, maar we kennen hun exacte vervuilingsniveaus niet.
Gegevens afkappen
Het afkappen van datawaarden betekent het verwijderen van waarden uit een dataset die onder of boven een bepaalde waarde liggen.
De volgende voorbeelden illustreren scenario’s waarin we kunnen besluiten gegevenswaarden af te kappen.
Voorbeeld 1: Aantal misdaden
Stel dat een wetshandhavingsfunctionaris onderzoek doet naar de soorten misdaden die door individuen in een bepaald gebied worden gepleegd. Standaard wordt iedereen die 0 misdaden heeft gepleegd niet opgenomen in de dataset, omdat hij geen enkele misdaad heeft begaan.
Dit is een voorbeeld van ingekorte gegevens, aangezien iedereen die geen misdaad heeft gepleegd eenvoudigweg volledig van de dataset wordt uitgesloten.
Voorbeeld 2: Opleidingsniveau
Stel dat een hoogleraar de relatie wil onderzoeken tussen een bepaald curriculum en de leerresultaten van studenten.
Vanwege de intensiteit van het curriculum wil de hoogleraar alleen studenten volgen die momenteel een GPA boven de 3,5 hebben. Daarom wordt elke student die zich aanmeldt voor het programma maar een GPA van minder dan 3,5 heeft, eenvoudigweg niet opgenomen in het programma.
Dit is een voorbeeld van ingekorte gegevens, aangezien iedereen wiens GPA onder een bepaalde drempel ligt, eenvoudigweg wordt uitgesloten van de dataset.
Samenvatting
Het censureren van gegevens betekent het verzamelen van slechts gedeeltelijke informatie over gegevenswaarden en het afkappen van gegevens betekent het volledig verwijderen van gegevenswaarden uit een dataset.
Zowel censureren als afkappen resulteert in een verlies van informatie in een dataset, maar afkappen resulteert in een groter verlies aan informatie omdat het de volledige uitsluiting van bepaalde gegevenswaarden met zich meebrengt.