截断和审查数据:定义 + 示例


通常,在收集数据时,研究人员可能会决定审查截断某些值。

审查数据值意味着仅收集低于或高于某个值的部分信息。

例如,我们可能知道一个人的年收入低于 25,000 美元,但我们可能不知道他们的确切年收入。

审查数据示例

截断数据值意味着从数据集中删除低于或高于某个值的值。

例如,研究人员可能只对年收入超过 25,000 美元的个人感兴趣。因此,任何收入低于 25,000 美元的人都会被从数据集中删除。

截断数据的示例

本教程提供了几个何时可以审查或截断数据的示例。

数据审查

审查数据值意味着仅收集低于或高于某个值的部分信息。

以下示例说明了我们可能决定审查数据值的场景。

示例1:年收入

假设研究人员收集有关年收入的调查数据。如果个人年收入低于 25,000 美元,他们决定在数据库中将此收入报告为“<25,000 美元”,而不是指定其确切的年收入。

这是数据审查的一个例子,因为我们知道一个人的收入低于一定数额,但我们不知道他们的确切年收入。

示例 2:污染水平

假设生物学家使用某种工具来测量不同水体的污染水平。其工具无法测量低于百万分之 0.002 的污染。因此,任何污染水平低于此阈值的水体将简单地报告为“<0.002”,而不是确切的数量。

这是数据审查的一个例子,因为我们知道某些水体的污染水平低于百万分之 0.002,但我们不知道它们的确切污染水平。

截断数据

截断数据值意味着从数据集中删除低于或高于某个值的值。

以下示例说明了我们可能决定截断数据值的场景。

示例 1:犯罪数量

假设一名执法人员正在研究某个地区的个人所犯罪行的类型。默认情况下,犯罪次数为 0 的任何人都不会包含在数据集中,因为他们没有犯下任何类型的犯罪。

这是一个截断数据的例子,因为任何没有犯罪的人都被完全排除在数据集中之外。

示例2:教育水平

假设一位教授想要研究某门课程与学生成绩之间的关系。

由于课程强度大,教授希望只关注目前 GPA 在 3.5 以上的学生。因此,任何申请该项目但 GPA 低于 3.5 的学生将不会被纳入该项目。

这代表了截断数据的示例,因为任何 GPA 低于特定阈值的人都会被简单地排除在数据集中之外。

概括

审查数据意味着仅收集有关数据值的部分信息,截断数据意味着从数据集中完全删除数据值。

审查和截断都会导致数据集中的信息丢失,但截断会导致更大的信息丢失,因为它涉及完全排除某些数据值。

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注