异常值如何影响均值?


在统计学中,一组数据的平均数就是平均值。了解这一点很有用,因为它让我们了解数据集的“中心”在哪里。它是使用简单的公式计算的:

平均值=(观测值总和)/(观测值数量)

例如,假设我们有以下数据集:

[1,4,5,6,7]

数据集的平均值为 (1+4+5+6+7) / (5) = 4.6

但尽管平均值很有用且易于计算,但它有一个缺点:它可能会受到异常值的影响。特别是,数据集越小,异常值对均值的影响就越大。

为了说明这一点,请考虑以下经典示例:

酒吧里坐着十个人。十个人的平均收入是五万美元。突然,一个男人走了出来,比尔·盖茨走了进来。如今,酒吧里十个人的平均收入为 4000 万美元。

此示例显示异常值(比尔·盖茨)如何显着影响平均值。

小异常值和大异常值

异常值可能会因异常小或异常大而影响均值。在前面的例子中,比尔·盖茨的收入异常高,导致平均值具有误导性。

然而,异常低的值也会影响平均值。为了说明这一点,请考虑以下示例:

十名学生参加考试并获得以下成绩:

[0, 88, 90, 92, 94, 95, 95, 96, 97, 99]

平均分是84.6分

但是,如果我们从数据集中删除分数“0”,则平均分数变为94

学生异常低的分数会降低整个数据集的平均值。

样本量和异常值

数据集的样本量越小,异常值影响均值的可能性就越大。

例如,假设我们有一个包含 100 份考试成绩的数据集,其中所有学生的得分至少为 90 分或更高,除了一名学生得分为零:

[ 0 , 90, 90, 92, 94, 95, 95, 96, 97, 99, 94, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94 , 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99 , 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94 , 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99 ]

平均值为93.18 。如果我们从数据集中删除“0”,平均值将为94.12 。这是一个相对较小的差异。这表明,如果数据集足够大,即使极端异常值也只会产生最小的影响。

如何处理异常值

如果您担心数据集中可能存在异常值,您有多种选择:

  • 确保异常值不是数据输入错误的结果。有时,个人在保存数据时只是输入了错误的数据值。如果存在异常值,请首先验证输入的值是否正确并且没有错误。
  • 为异常值指定一个新值。如果异常值是数据输入错误的结果,您可以决定为其分配一个新值,例如数据集的平均值或中位数
  • 删除异常值。如果该值确实是异常值,并且会对您的整体分析产生重大影响,则您可以选择将其删除。请务必在最终报告或分析中提及您删除了异常值。

使用中位数

找到数据集“中心”的另一种方法是使用中位数,通过将数据集中的所有单个值从小到大排序并找到中值来获得。

由于其计算方式,中位数受异常值的影响较小,并且在存在异常值时可以更好地捕获分布的中心位置。

例如,请考虑下图,该图显示了特定社区中房屋的平方英尺:

平均值很大程度上受到一些非常大的房屋的影响,而中位数则不然。因此,中位数比平均值更能捕捉该社区房屋的“典型”平方英尺。

进一步阅读:

集中趋势的测量——均值、中位数和众数
Dixon 的 Q 检验检测异常值
异常值计算器

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注