如何轻松查找 google 表格中的异常值
异常值是与数据集中的其他值异常远离的观察值。
如果某个观测值是第三个四分位数上方四分位距的 1.5 倍或第一个四分位数下方四分位距的 1.5 倍,我们通常将其定义为异常值。
注意:四分位数范围是数据集的第三个四分位数(第 75 个百分位数)和第一个四分位数(第 25 个百分位数)之间的差值。它测量平均 50% 值的分布。
以下分步示例演示了如何使用此公式查找 Google 表格数据集中的异常值。
第 1 步:输入数据
首先,我们将以下数据集中的值输入到 Google 表格中:
步骤 2:计算四分位距
接下来,我们计算数据集的第一四分位数、第三四分位数和四分位数范围:
第 3 步:识别异常值
然后我们可以使用以下公式为数据集中的任何异常值分配“1”:
= IF ( A2 < $B$18 - $B$20 * 1.5 , 1 , IF ( A2 > $B$19 + $B$20 * 1.5 , 1 , 0 ) )
此公式检查观测值是否是第三个四分位数以上四分位距的 1.5 倍或第一四分位数以下四分位距的 1.5 倍。
如果任一为真,则为观察值分配“1”以将其指定为异常值。
以下屏幕截图显示了如何在实践中使用该公式:
我们看到数据集中只有一个值是异常值: 164 。
如何处理异常值
如果您的数据中存在异常值,您有多种选择:
1. 确保异常值不是数据输入错误造成的。
有时简单的数据保存不正确。如果存在异常值,请首先验证输入的值是否正确并且没有错误。
2.为离群值指定一个新值。
如果异常值是数据输入错误的结果,您可以决定为其分配一个新值,例如数据集的平均值或中位数。
3. 删除异常值。
如果该值确实是异常值,并且会对您的整体分析产生重大影响,则您可以选择将其删除。请务必在最终报告中提及您删除了异常值。
其他资源
以下教程解释了如何在其他统计软件中删除异常值: