Tronqué & Données censurées : définition + exemples



Souvent, lors de la collecte de données, les chercheurs peuvent décider de censurer ou de tronquer certaines valeurs.

Censurer les valeurs des données signifie collecter uniquement des informations partielles sur les valeurs inférieures ou supérieures à une certaine valeur.

Par exemple, nous pouvons savoir qu’une personne gagne moins de 25 000 $ par année, mais nous ne connaissons peut-être pas son revenu annuel exact.

Exemple de données censurées

Tronquer les valeurs des données signifie supprimer les valeurs d’un ensemble de données qui sont inférieures ou supérieures à une certaine valeur.

Par exemple, un chercheur peut s’intéresser uniquement aux individus qui gagnent plus de 25 000 $ par an. Ainsi, toute personne gagnant moins de 25 000 $ est simplement supprimée de l’ensemble de données.

Exemple de données tronquées

Ce didacticiel fournit plusieurs exemples de cas où les données peuvent être censurées ou tronquées.

Censure des données

Censurer les valeurs des données signifie collecter uniquement des informations partielles sur les valeurs inférieures ou supérieures à une certaine valeur.

Les exemples suivants illustrent des scénarios dans lesquels nous pouvons décider de censurer les valeurs des données.

Exemple 1 : Revenu annuel

Supposons qu’un chercheur collecte des données d’enquête sur le revenu annuel. Si un individu gagne moins de 25 000 $ par an, il décide de déclarer ce revenu comme « < 25 000 $ » dans une base de données plutôt que de préciser son revenu annuel exact.

Cela représente un exemple de censure des données car nous savons qu’un individu gagne moins qu’un certain montant mais nous ne connaissons pas son revenu annuel exact .

Exemple 2 : niveaux de pollution

Supposons qu’un biologiste utilise un certain outil pour mesurer les niveaux de pollution dans différentes masses d’eau. Son outil est incapable de mesurer une pollution inférieure à 0,002 partie par million. Ainsi, toute masse d’eau dont les niveaux de pollution sont inférieurs à ce seuil sera simplement signalée comme « < 0,002 » plutôt que comme quantité exacte.

Cela représente un exemple de censure des données car nous savons que certaines masses d’eau ont des niveaux de pollution inférieurs à 0,002 parties par million, mais nous ne connaissons pas leurs niveaux de pollution exacts .

Tronquer les données

Tronquer les valeurs des données signifie supprimer les valeurs d’un ensemble de données qui sont inférieures ou supérieures à une certaine valeur.

Les exemples suivants illustrent des scénarios dans lesquels nous pouvons décider de tronquer les valeurs des données.

Exemple 1 : Nombre de crimes

Supposons qu’un agent des forces de l’ordre recherche les types de crimes commis par des individus dans une certaine zone. Par défaut, toute personne ayant commis 0 crime ne sera pas incluse dans l’ensemble de données car elle n’a commis aucun type de crime.

Cela représente un exemple de données tronquées, car toute personne qui n’a commis aucun crime est simplement entièrement exclue de l’ensemble de données.

Exemple 2 : Niveau d’éducation

Supposons qu’un professeur souhaite étudier la relation entre un certain programme d’études et les résultats des étudiants.

En raison de l’intensité du programme d’études, le professeur souhaite suivre uniquement les étudiants qui ont actuellement une moyenne cumulative supérieure à 3,5. Ainsi, tout étudiant postulant au programme mais ayant une moyenne cumulative inférieure à 3,5 ne sera tout simplement pas inclus dans le programme.

Cela représente un exemple de données tronquées, car toute personne dont la moyenne cumulative est inférieure à un certain seuil est simplement exclue de l’ensemble de données.

Résumé

Censurer les données signifie collecter uniquement des informations partielles sur les valeurs des données et tronquer les données signifie supprimer entièrement les valeurs des données d’un ensemble de données.

La censure et la troncature entraînent toutes deux une perte d’informations dans un ensemble de données, mais la troncature entraîne une perte d’informations plus importante car elle implique l’exclusion complète de certaines valeurs de données.

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *