截断和审查数据:定义 + 示例
通常,在收集数据时,研究人员可能会决定审查或截断某些值。
审查数据值意味着仅收集低于或高于某个值的部分信息。
例如,我们可能知道一个人的年收入低于 25,000 美元,但我们可能不知道他们的确切年收入。
截断数据值意味着从数据集中删除低于或高于某个值的值。
例如,研究人员可能只对年收入超过 25,000 美元的个人感兴趣。因此,任何收入低于 25,000 美元的人都会被从数据集中删除。
本教程提供了几个何时可以审查或截断数据的示例。
数据审查
审查数据值意味着仅收集低于或高于某个值的部分信息。
以下示例说明了我们可能决定审查数据值的场景。
示例1:年收入
假设研究人员收集有关年收入的调查数据。如果个人年收入低于 25,000 美元,他们决定在数据库中将此收入报告为“<25,000 美元”,而不是指定其确切的年收入。
这是数据审查的一个例子,因为我们知道一个人的收入低于一定数额,但我们不知道他们的确切年收入。
示例 2:污染水平
假设生物学家使用某种工具来测量不同水体的污染水平。其工具无法测量低于百万分之 0.002 的污染。因此,任何污染水平低于此阈值的水体将简单地报告为“<0.002”,而不是确切的数量。
这是数据审查的一个例子,因为我们知道某些水体的污染水平低于百万分之 0.002,但我们不知道它们的确切污染水平。
截断数据
截断数据值意味着从数据集中删除低于或高于某个值的值。
以下示例说明了我们可能决定截断数据值的场景。
示例 1:犯罪数量
假设一名执法人员正在研究某个地区的个人所犯罪行的类型。默认情况下,犯罪次数为 0 的任何人都不会包含在数据集中,因为他们没有犯下任何类型的犯罪。
这是一个截断数据的例子,因为任何没有犯罪的人都被完全排除在数据集中之外。
示例2:教育水平
假设一位教授想要研究某门课程与学生成绩之间的关系。
由于课程强度大,教授希望只关注目前 GPA 在 3.5 以上的学生。因此,任何申请该项目但 GPA 低于 3.5 的学生将不会被纳入该项目。
这代表了截断数据的示例,因为任何 GPA 低于特定阈值的人都会被简单地排除在数据集中之外。
概括
审查数据意味着仅收集有关数据值的部分信息,截断数据意味着从数据集中完全删除数据值。
审查和截断都会导致数据集中的信息丢失,但截断会导致更大的信息丢失,因为它涉及完全排除某些数据值。