非典型值(异常值)
本文解释了什么是异常值以及如何计算异常值。此外,您可以使用在线计算器计算任何数据样本的异常值。
什么是异常值?
在统计学中,异常值也称为异常值或离群值,是与数据集的其余部分显着不同的值。换句话说,异常值是与样本中其余值极其不同的异常值。
识别样本中的异常值非常重要,因为它们会显着影响统计度量的计算。
例如,如果我们有数据系列 [1, 3, 5, 2, 79, 4, 8, 6],则数字 79 显然是异常值。因为它的价值远高于其他数据。在本例中,包含离群值的平均值为 13.5,而不含离群值的平均值为 4.14。正如您所看到的,单个异常值已经显着影响统计测量的结果。
通常,异常值在散点图中很容易区分,因为它们与其余数据隔离。看下面的散点图,异常值与其余值非常分离:
👉您可以使用下面的计算器查找任何数据集的异常值。
如何计算异常值
要计算数据样本中的异常值,必须遵循以下步骤:
- 计算数据集的四分位数。
- 计算数据的四分位距。
- 非典型值(异常值)将被视为满足以下条件之一的值:
- 该值小于第一个四分位数减去四分位距的 1.5 倍。
➤请参阅:如何计算四分位数
➤请参阅:如何计算四分位数范围
在下面的箱线图中,您可以看到根据此标准以图形方式表示的两个异常值:
注意:请记住,有几个标准可以确定数据被视为异常值的限制。本文参考了Tukey检验准则,因为它是最常用的。
异常值示例
考虑到异常值的定义,在本节中,我们将看到一个如何识别数据系列中的异常值的实际示例。
- 从以下统计数据集中计算离群值或离群值。
首先,我们计算数据集的三个四分位数:
一旦我们找到了三个四分位数,我们就可以通过减去四分位数 3 减去四分位数 1 来找到四分位数间距:
现在我们计算异常值设置的限制。为此,我们使用上一节中解释的公式:
因此,如果任何一个值小于 3.16,则为异常值。同样,如果某个值大于 5.56,它也是异常值。
总之,在这种情况下,我们有两个极值,因为 3.02 小于 3.16,而 5.71 大于 5.56。
异常值计算器
在以下计算器中输入统计数据集以计算其异常值(如果有)。数据必须用空格分隔,并使用句点作为小数点分隔符输入。
异常值的原因
异常值的可能原因有多种,其中最常见的是:
- 用于测量的设备发生故障或发生事故。
- 由于异常原因,被测部件出现缺陷。
- 数据传输或转录时发生错误。
- 存在人为错误。无论采取何种预防措施,人为错误并非完全不可避免,因此异常值可能仍然存在。
这些是最常见的原因,但显然原因可能是任何原因。同样,必须考虑到,当进行大量观察的统计研究时,出现一些异常值是正常的。
处理异常值该怎么办
当我们遇到异常值时,一个常见的问题是我们应该如何处理它。是否应该从样本中删除异常值?
人们认为,应该始终消除异常值,因为它们是与集合中的其他数据不相似的数据。然而,尽管异常值极大地影响了某些统计测量的结果,但这并不意味着它们应该总是被消除。
一般来说,只有当我们知道异常原因确实合理时,才应删除异常值,因此,这些异常值是与正在研究的内容不匹配的观察结果。
这在小样本量中尤其重要,因为极值对统计指标的影响更大。
例如,如果测量产品的某个部分的长度来进行质量控制,那么逻辑上如果突然出现另一种类型的产品并且测量相同的部分,则测量值将与之前的测量值有很大不同,并且很可能是成为一个异常值。在这种情况下,可以排除异常值,因为其原因已知,并且已知测量数据不属于要分析的总体的一部分。