如何对数据进行缩尾:定义和示例


对数据进行缩尾意味着将极端异常值设置为等于数据的指定百分位。

例如,90% 缩尾化将高于第 95 个百分位的所有观测值设置为等于第 95 个百分位处的值,将低于第 5 个百分位的所有观测值设置为等于第 5 个百分位处的值。

事实上,对数据进行缩尾处理意味着将数据集的极值更改为不太极值。

示例:如何对数据进行缩尾处理

假设我们有以下数据集:

 3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98

要对此数据集执行 90% 缩尾化,我们首先要找到第 5 个百分位数和第 95 个百分位数,结果是:

  • 第 5 个百分位数: 12.35
  • 第 95 个百分位数: 92.05

然后,我们将所有小于 12.35 的值设置为 12.35,所有大于 92.05 的值设置为 92.05:

 12.35, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 92.05

在这种情况下,值3变为12.35 ,值98变为92.05

为什么对数据进行缩尾处理?

均值和标准差是分别测量数据集中心位置和数据集中观测值分布的两种常用方法。

然而,这两项指标都可能受到极端异常值的影响。因此,对数据进行缩尾处理使我们能够将极端异常值定义为等于不太极端的值。

这通常使我们能够更准确地了解数据集的平均值和标准差。

梅花金纹饰

处理异常值的另一种常见方法是将它们从数据集中删除,这意味着将它们完全删除。

例如,考虑之前的数据集:

 3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98

如果我们想减少第 5 个百分位数以下或第 95 个百分位数以上的值,我们只需删除值398即可。

以下是何时使用切片或缩缩的一些经验规则:

修剪:当某些值看起来完全不合理时,即它们是数据输入错误的结果时,修剪数据值是有意义的。

缩尾化:当我们想要保留极端的观察结果,但又不想太从字面上理解它们时,对数据进行缩尾化是有意义的。

数据缩尾处理的注意事项

决定获取数据时需要记住以下几点:

1.如果没有极端异常值,对数据进行缩尾处理只会稍微改变最小值和最大值。这通常不是一个好主意,因为这意味着我们只是为了改变数据值而改变它们。

2.异常值可以代表数据中有趣的边缘情况。因此,在编辑异常值之前,最好仔细查看它们以了解可能导致它们的原因。

3.您应该在数据收集之后而不是之前决定是否对数据进行缩排序。在决定进行缩尾处理之前,您应该看看是否确实存在任何极端异常值。如果不存在极端异常值,则可能不需要缩尾化。

教程:在 Excel 中对数据进行缩尾处理

请参阅本教程,了解如何在 Excel 中对数据集进行缩尾处理的分步示例。

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注