如何轻松查找 google 表格中的异常值


异常值是与数据集中的其他值异常远离的观察值。

如果某个观测值是第三个四分位数上方四分位距的 1.5 倍或第一个四分位数下方四分位距的 1.5 倍,我们通常将其定义为异常值。

注意:四分位数范围是数据集的第三个四分位数(第 75 个百分位数)和第一个四分位数(第 25 个百分位数)之间的差值。它测量平均 50% 值的分布。

以下分步示例演示了如何使用此公式查找 Google 表格数据集中的异常值。

第 1 步:输入数据

首先,我们将以下数据集中的值输入到 Google 表格中:

步骤 2:计算四分位距

接下来,我们计算数据集的第一四分位数、第三四分位数和四分位数范围:

第 3 步:识别异常值

然后我们可以使用以下公式为数据集中的任何异常值分配“1”:

 = IF ( A2 < $B$18 - $B$20 * 1.5 , 1 , IF ( A2 > $B$19 + $B$20 * 1.5 , 1 , 0 ) )

此公式检查观测值是否是第三个四分位数以上四分位距的 1.5 倍或第一四分位数以下四分位距的 1.5 倍。

如果任一为真,则为观察值分配“1”以将其指定为异常值。

以下屏幕截图显示了如何在实践中使用该公式:

在 Google 表格中查找异常值

我们看到数据集中只有一个值是异常值: 164

如何处理异常值

如果您的数据中存在异常值,您有多种选择:

1. 确保异常值不是数据输入错误造成的。

有时简单的数据保存不正确。如果存在异常值,请首先验证输入的值是否正确并且没有错误。

2.为离群值指定一个新值

如果异常值是数据输入错误的结果,您可以决定为其分配一个新值,例如数据集的平均值或中位数。

3. 删除异常值。

如果该值确实是异常值,并且会对您的整体分析产生重大影响,则您可以选择将其删除。请务必在最终报告中提及您删除了异常值。

其他资源

以下教程解释了如何在其他统计软件中删除异常值:

如何去除R中的异常值
如何在 Python 中删除异常值
SPSS中如何去除异常值

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注