如何在 excel 中轻松查找异常值


异常值是与数据集中的其他值异常远离的观察值。

异常值可能会产生问题,因为它们会影响分析结果。

我们将在 Excel 中使用以下数据集来演示查找异常值的两种方法:

相关: 如何在 Excel 中计算排除异常值的平均值

方法 1:使用四分位距

四分位距(IQR) 是数据集中第 75 个百分位数 (Q3) 和第 25 个百分位数 (Q1) 之间的差值。它测量平均 50% 值的分布。

如果某个观测值是第三个四分位 (Q3) 上方四分位距的 1.5 倍或第一个四分位 (Q1) 下方四分位距的 1.5 倍,我们可以将其定义为异常值。

下图显示了如何在 Excel 中计算四分位数范围:

然后我们可以使用上面提到的公式为数据集中的任何异常值分配“1”:

在 Excel 中查找异常值

我们发现只有一个值——164——在这个数据集中被证明是异常值。

方法 2:使用 z 分数

z 分数告诉您给定值与平均值的标准差有多少。我们使用以下公式来计算 z 分数:

z = (X – μ) / σ

金子:

  • X 是单个原始数据值
  • μ 是总体平均值
  • σ 是总体标准差

如果某个观测值的 z 分数小于 -3 或大于 3,我们可以将其定义为异常值。

下图显示了如何在 Excel 中计算数据集的平均值和标准差:

然后,我们可以使用平均值和标准差来查找数据集中每个单独值的 z 分数:

然后我们可以将“1”分配给 z 分数小于 -3 或大于 3 的任何值:

使用 Z 分数在 Excel 中查找异常值

使用此方法,我们发现数据集中没有异常值。

注意:有时使用 z 分数 2.5 而不是 3。在这种情况下,单个值164将被视为异常值,因为它的 z 分数大于 2.5。

使用 z 分数方法时,请根据您的判断来确定您认为哪个 z 分数值是异常值。

如何处理异常值

如果您的数据中存在异常值,您有多种选择:

1. 确保异常值不是数据输入错误造成的。

有时,个人在保存数据时只是输入了错误的数据值。如果存在异常值,请首先验证输入的值是否正确并且没有错误。

2. 删除异常值。

如果该值确实是异常值,并且会对您的整体分析产生重大影响,则您可以选择将其删除。请务必在最终报告或分析中提及您删除了异常值。

3.为异常值指定一个新值

如果异常值是数据输入错误的结果,您可以决定为其分配一个新值,例如数据集的平均值或中位数

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注