非典型值(异常值)

本文解释了什么是异常值以及如何计算异常值。此外,您可以使用在线计算器计算任何数据样本的异常值。

什么是异常值?

在统计学中,异常值也称为异常值离群值,是与数据集的其余部分显着不同的值。换句话说,异常值是与样本中其余值极其不同的异常值。

识别样本中的异常值非常重要,因为它们会显着影响统计度量的计算。

例如,如果我们有数据系列 [1, 3, 5, 2, 79, 4, 8, 6],则数字 79 显然是异常值。因为它的价值远高于其他数据。在本例中,包含离群值的平均值为 13.5,而不含离群值的平均值为 4.14。正如您所看到的,单个异常值已经显着影响统计测量的结果。

 1, \ 3, \ 5, \ 2, \ 79, \ 4, \ 8, \ 6 \quad \color{orange}\bm{\longrightarrow}\color{black}\quad \text{Valor at\'ipico: } 79

通常,异常值在散点图中很容易区分,因为它们与其余数据隔离。看下面的散点图,异常值与其余值非常分离:

异常值或其他值的散点图

👉您可以使用下面的计算器查找任何数据集的异常值。

如何计算异常值

要计算数据样本中的异常值,必须遵循以下步骤:

  1. 计算数据集的四分位数。
  2. 计算数据的四分位距。
  3. 非典型值(异常值)将被视为满足以下条件之一的值:

在下面的箱线图中,您可以看到根据此标准以图形方式表示的两个异常值:

箱线图异常值

注意:请记住,有几个标准可以确定数据被视为异常值的限制。本文参考了Tukey检验准则,因为它是最常用的。

异常值示例

考虑到异常值的定义,在本节中,我们将看到一个如何识别数据系列中的异常值的实际示例。

  • 从以下统计数据集中计算离群值或离群值。

首先,我们计算数据集的三个四分位数:

Q_1=4,06

Q_2=4,38

Q_3=4,66

一旦我们找到了三个四分位数,我们就可以通过减去四分位数 3 减去四分位数 1 来找到四分位数间距:

IQR=Q_3-Q_1=4,66-4,06=0,6

现在我们计算异常值设置的限制。为此,我们使用上一节中解释的公式:

Q_1-1,5\cdot IQR=4,06-1,5\cdot 0,6=3,16

Q_3+1,5\cdot IQR=4,66+1,5\cdot 0,6=5,56

因此,如果任何一个值小于 3.16,则为异常值。同样,如果某个值大于 5.56,它也是异常值。

总之,在这种情况下,我们有两个极值,因为 3.02 小于 3.16,而 5.71 大于 5.56。

\text{Valores at\'ipicos} =\Bigl\{3,02 \ ; \ 5,71\Bigr\}

异常值计算器

在以下计算器中输入统计数据集以计算其异常值(如果有)。数据必须用空格分隔,并使用句点作为小数点分隔符输入。

异常值的原因

异常值的可能原因有多种,其中最常见的是:

  • 用于测量的设备发生故障或发生事故。
  • 由于异常原因,被测部件出现缺陷。
  • 数据传输或转录时发生错误。
  • 存在人为错误。无论采取何种预防措施,人为错误并非完全不可避免,因此异常值可能仍然存在。

这些是最常见的原因,但显然原因可能是任何原因。同样,必须考虑到,当进行大量观察的统计研究时,出现一些异常值是正常的。

处理异常值该怎么办

当我们遇到异常值时,一个常见的问题是我们应该如何处理它。是否应该从样本中删除异常值?

人们认为,应该始终消除异常值,因为它们是与集合中的其他数据不相似的数据。然而,尽管异常值极大地影响了某些统计测量的结果,但这并不意味着它们应该总是被消除。

一般来说,只有当我们知道异常原因确实合理时,才应删除异常值,因此,这些异常值是与正在研究的内容不匹配的观察结果。

这在小样本量中尤其重要,因为极值对统计指标的影响更大。

例如,如果测量产品的某个部分的长度来进行质量控制,那么逻辑上如果突然出现另一种类型的产品并且测量相同的部分,则测量值将与之前的测量值有很大不同,并且很可能是成为一个异常值。在这种情况下,可以排除异常值,因为其原因已知,并且已知测量数据不属于要分析的总体的一部分。

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注