Tronqué & Données censurées : définition + exemples
Souvent, lors de la collecte de données, les chercheurs peuvent décider de censurer ou de tronquer certaines valeurs.
Censurer les valeurs des données signifie collecter uniquement des informations partielles sur les valeurs inférieures ou supérieures à une certaine valeur.
Par exemple, nous pouvons savoir qu’une personne gagne moins de 25 000 $ par année, mais nous ne connaissons peut-être pas son revenu annuel exact.
Tronquer les valeurs des données signifie supprimer les valeurs d’un ensemble de données qui sont inférieures ou supérieures à une certaine valeur.
Par exemple, un chercheur peut s’intéresser uniquement aux individus qui gagnent plus de 25 000 $ par an. Ainsi, toute personne gagnant moins de 25 000 $ est simplement supprimée de l’ensemble de données.
Ce didacticiel fournit plusieurs exemples de cas où les données peuvent être censurées ou tronquées.
Censure des données
Censurer les valeurs des données signifie collecter uniquement des informations partielles sur les valeurs inférieures ou supérieures à une certaine valeur.
Les exemples suivants illustrent des scénarios dans lesquels nous pouvons décider de censurer les valeurs des données.
Exemple 1 : Revenu annuel
Supposons qu’un chercheur collecte des données d’enquête sur le revenu annuel. Si un individu gagne moins de 25 000 $ par an, il décide de déclarer ce revenu comme « < 25 000 $ » dans une base de données plutôt que de préciser son revenu annuel exact.
Cela représente un exemple de censure des données car nous savons qu’un individu gagne moins qu’un certain montant mais nous ne connaissons pas son revenu annuel exact .
Exemple 2 : niveaux de pollution
Supposons qu’un biologiste utilise un certain outil pour mesurer les niveaux de pollution dans différentes masses d’eau. Son outil est incapable de mesurer une pollution inférieure à 0,002 partie par million. Ainsi, toute masse d’eau dont les niveaux de pollution sont inférieurs à ce seuil sera simplement signalée comme « < 0,002 » plutôt que comme quantité exacte.
Cela représente un exemple de censure des données car nous savons que certaines masses d’eau ont des niveaux de pollution inférieurs à 0,002 parties par million, mais nous ne connaissons pas leurs niveaux de pollution exacts .
Tronquer les données
Tronquer les valeurs des données signifie supprimer les valeurs d’un ensemble de données qui sont inférieures ou supérieures à une certaine valeur.
Les exemples suivants illustrent des scénarios dans lesquels nous pouvons décider de tronquer les valeurs des données.
Exemple 1 : Nombre de crimes
Supposons qu’un agent des forces de l’ordre recherche les types de crimes commis par des individus dans une certaine zone. Par défaut, toute personne ayant commis 0 crime ne sera pas incluse dans l’ensemble de données car elle n’a commis aucun type de crime.
Cela représente un exemple de données tronquées, car toute personne qui n’a commis aucun crime est simplement entièrement exclue de l’ensemble de données.
Exemple 2 : Niveau d’éducation
Supposons qu’un professeur souhaite étudier la relation entre un certain programme d’études et les résultats des étudiants.
En raison de l’intensité du programme d’études, le professeur souhaite suivre uniquement les étudiants qui ont actuellement une moyenne cumulative supérieure à 3,5. Ainsi, tout étudiant postulant au programme mais ayant une moyenne cumulative inférieure à 3,5 ne sera tout simplement pas inclus dans le programme.
Cela représente un exemple de données tronquées, car toute personne dont la moyenne cumulative est inférieure à un certain seuil est simplement exclue de l’ensemble de données.
Résumé
Censurer les données signifie collecter uniquement des informations partielles sur les valeurs des données et tronquer les données signifie supprimer entièrement les valeurs des données d’un ensemble de données.
La censure et la troncature entraînent toutes deux une perte d’informations dans un ensemble de données, mais la troncature entraîne une perte d’informations plus importante car elle implique l’exclusion complète de certaines valeurs de données.