Dados truncados e censurados: definição + exemplos


Muitas vezes, ao coletar dados, os pesquisadores podem decidir censurar ou truncar determinados valores.

Censurar valores de dados significa coletar apenas informações parciais sobre valores abaixo ou acima de um determinado valor.

Por exemplo, podemos saber que uma pessoa ganha menos de 25.000 dólares por ano, mas podemos não saber o seu rendimento anual exato.

Exemplo de dados censurados

Truncar valores de dados significa remover valores de um conjunto de dados que estão abaixo ou acima de um determinado valor.

Por exemplo, um pesquisador pode estar interessado apenas em indivíduos que ganham mais de US$ 25.000 por ano. Portanto, qualquer pessoa que ganhe menos de US$ 25 mil é simplesmente removida do conjunto de dados.

Exemplo de dados truncados

Este tutorial fornece vários exemplos de quando os dados podem ser censurados ou truncados.

Censura de dados

Censurar valores de dados significa coletar apenas informações parciais sobre valores abaixo ou acima de um determinado valor.

Os exemplos a seguir ilustram cenários em que podemos decidir censurar valores de dados.

Exemplo 1: Renda anual

Suponha que um pesquisador colete dados de uma pesquisa sobre a renda anual. Se um indivíduo ganha menos de US$ 25.000 por ano, ele decide relatar essa renda como “<US$ 25.000” em um banco de dados, em vez de especificar sua renda anual exata.

Isto representa um exemplo de censura de dados porque sabemos que um indivíduo ganha menos de uma determinada quantia, mas não sabemos o seu rendimento anual exato .

Exemplo 2: níveis de poluição

Suponha que um biólogo use uma determinada ferramenta para medir os níveis de poluição em diferentes corpos d’água. A sua ferramenta é incapaz de medir a poluição abaixo de 0,002 partes por milhão. Portanto, qualquer massa de água com níveis de poluição abaixo deste limite será simplesmente reportada como “<0,002” em vez da quantidade exata.

Isto representa um exemplo de censura de dados porque sabemos que algumas massas de água têm níveis de poluição inferiores a 0,002 partes por milhão, mas não sabemos os seus níveis exactos de poluição.

Truncar dados

Truncar valores de dados significa remover valores de um conjunto de dados que estão abaixo ou acima de um determinado valor.

Os exemplos a seguir ilustram cenários nos quais podemos decidir truncar valores de dados.

Exemplo 1: Número de crimes

Suponha que um policial esteja pesquisando os tipos de crimes cometidos por indivíduos em uma determinada área. Por padrão, qualquer pessoa que tenha cometido 0 crimes não será incluída no conjunto de dados porque não cometeu nenhum tipo de crime.

Isto representa um exemplo de dados truncados, uma vez que qualquer pessoa que não tenha cometido nenhum crime é simplesmente excluída por completo do conjunto de dados.

Exemplo 2: Nível de escolaridade

Suponha que um professor queira estudar a relação entre um determinado currículo e os resultados dos alunos.

Devido à intensidade do currículo, o professor deseja acompanhar apenas os alunos que atualmente possuem GPA acima de 3,5. Portanto, qualquer aluno que se inscreva no programa, mas tenha um GPA inferior a 3,5, simplesmente não será incluído no programa.

Isto representa um exemplo de dados truncados, pois qualquer pessoa cujo GPA esteja abaixo de um determinado limite é simplesmente excluído do conjunto de dados.

Resumo

Censurar dados significa coletar apenas informações parciais sobre os valores dos dados e truncar dados significa remover totalmente os valores dos dados de um conjunto de dados.

Tanto a censura quanto o truncamento resultam na perda de informações em um conjunto de dados, mas o truncamento resulta em uma perda maior de informações porque envolve a exclusão completa de determinados valores de dados.

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *