Dati troncati e censurati: definizione + esempi


Spesso, durante la raccolta dei dati, i ricercatori possono decidere di censurare o troncare determinati valori.

Censurare i valori dei dati significa raccogliere solo informazioni parziali sui valori inferiori o superiori a un determinato valore.

Ad esempio, potremmo sapere che una persona guadagna meno di $ 25.000 all’anno, ma potremmo non conoscere il suo reddito annuo esatto.

Esempio di dati censurati

Troncare i valori dei dati significa rimuovere da un set di dati i valori che sono inferiori o superiori a un determinato valore.

Ad esempio, un ricercatore potrebbe essere interessato solo a individui che guadagnano più di 25.000 dollari all’anno. Quindi chiunque guadagni meno di $ 25.000 viene semplicemente rimosso dal set di dati.

Esempio di dati troncati

Questo tutorial fornisce diversi esempi di quando i dati possono essere censurati o troncati.

Censura dei dati

Censurare i valori dei dati significa raccogliere solo informazioni parziali sui valori inferiori o superiori a un determinato valore.

Gli esempi seguenti illustrano scenari in cui potremmo decidere di censurare i valori dei dati.

Esempio 1: reddito annuo

Supponiamo che un ricercatore raccolga dati di un’indagine sul reddito annuo. Se un individuo guadagna meno di $ 25.000 all’anno, decide di segnalare questo reddito come “<$ 25.000” in un database anziché specificare il proprio reddito annuale esatto.

Questo rappresenta un esempio di censura dei dati perché sappiamo che un individuo guadagna meno di una certa cifra ma non conosciamo il suo esatto reddito annuo.

Esempio 2: livelli di inquinamento

Supponiamo che un biologo utilizzi un determinato strumento per misurare i livelli di inquinamento in diversi corpi idrici. Il suo strumento non è in grado di misurare l’inquinamento inferiore a 0,002 parti per milione. Pertanto, qualsiasi corpo idrico con livelli di inquinamento inferiori a questa soglia verrà semplicemente segnalato come “<0,002” anziché con la quantità esatta.

Questo rappresenta un esempio di censura dei dati perché sappiamo che alcuni corpi idrici hanno livelli di inquinamento inferiori a 0,002 parti per milione, ma non conosciamo i loro esatti livelli di inquinamento.

Troncare i dati

Troncare i valori dei dati significa rimuovere da un set di dati i valori che sono inferiori o superiori a un determinato valore.

Gli esempi seguenti illustrano scenari in cui potremmo decidere di troncare i valori dei dati.

Esempio 1: numero di reati

Supponiamo che un agente delle forze dell’ordine stia ricercando i tipi di crimini commessi da individui in una determinata area. Per impostazione predefinita, chiunque abbia commesso 0 reati non verrà incluso nel set di dati perché non ha commesso alcun tipo di reato.

Questo rappresenta un esempio di dati troncati, poiché chiunque non abbia commesso alcun reato viene semplicemente escluso completamente dal set di dati.

Esempio 2: livello di istruzione

Supponiamo che un professore voglia studiare la relazione tra un determinato curriculum e i risultati degli studenti.

A causa dell’intensità del curriculum, il professore desidera seguire solo gli studenti che attualmente hanno un GPA superiore a 3,5. Pertanto, qualsiasi studente che si iscrive al programma ma ha un GPA inferiore a 3,5 semplicemente non sarà incluso nel programma.

Questo rappresenta un esempio di dati troncati, poiché chiunque il cui GPA sia inferiore a una determinata soglia viene semplicemente escluso dal set di dati.

Riepilogo

Censurare i dati significa raccogliere solo informazioni parziali sui valori dei dati e troncare i dati significa rimuovere completamente i valori dei dati da un set di dati.

Sia la censura che il troncamento comportano una perdita di informazioni in un set di dati, ma il troncamento comporta una maggiore perdita di informazioni perché comporta la completa esclusione di determinati valori di dati.

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *