现实生活中异常值的 5 个例子


异常值是与数据集中的其他值异常远离的数据点。

如果某个数据点是数据集第三个四分位数以上四分位距的 1.5 倍或第一个四分位数以下四分位距的 1.5 倍,我们通常将其定义为异常值。

:四分位数间距是数据集的第三个四分位数(第 75 个百分位数)和第一个四分位数(第 25 个百分位数)之间的差值。

以下场景显示了现实情况中异常值的示例。

示例 1:收入异常值

异常值经常出现的一个具体场景是收入分配。

例如,某个国家年收入的第 25 个百分位 (Q1) 可能是每年 15,000 美元,第 75 个百分位 (Q3) 可能是每年 120,000 美元。

四分位距 (IQR) 计算如下:$120,000 – $15,000 = $105,000。

这意味着任何收入超出以下限制的人都将被视为异常值:

  • 下限:Q1 – 1.5*IQR = $15,000 – 1.5*$105,000 = -$142,500
  • 上限:Q3 + 1.5*IQR = $120,000 + 1.5*$105,000 = $277,500

像埃隆·马斯克这样的净资产达数万亿美元的人,在年收入方面会被视为异常值。

:超出下限的异常值并不总是有意义,例如,不可能获得负年收入。

示例 2:呼吸暂停异常值

经常出现异常值的另一个现实场景是呼吸暂停。

例如,个人屏住呼吸时间的第 25 个百分位 (Q1) 约为 15 秒,而第 75 个百分位 (Q3) 约为 75 秒。

四分位距 (IQR) 计算如下:75 – 15 = 60。

这意味着任何能够在以下限制之外屏住呼吸的人都将被视为异常值:

  • 下限:Q1 – 1.5*IQR = 15 – 1.5*60 = -75 秒
  • 上限:Q3 + 1.5*IQR = 75 + 1.5*60 = 165 秒

所有能够屏住呼吸 10 分钟或更长时间的自由潜水员都将被视为异常值,因为他们屏住呼吸的时间远远超过 165 秒。

示例 3:动物体型的异常值

另一个经常出现异常值的现实场景是动物的大小。

例如,马身高的第 25 个百分位 (Q1) 约为 5 英尺,第 75 个百分位 (Q3) 约为 5.5 英尺。

四分位距 (IQR) 计算如下:5.5 – 5 = 0.5 英尺。

这意味着任何尺寸超出以下限制的马都将被视为异常值:

  • 下限:Q1 – 1.5*IQR = 5 – 1.5*0.5 = 4.25 英尺
  • 上限:Q3 + 1.5*IQR = 5 + 1.5*0.5 = 5.75 英尺

根据吉尼斯世界纪录,有史以来最高的马的纪录为 7 英尺多一点。由于这高于 5.75 英尺的上限,因此这匹马显然会被视为异常值。

示例 4:电影票销售中的异常值

另一个经常出现异常值的现实场景是电影票销售。

例如,电影门票总销售额的第 25 个百分位数 (Q1) 约为 200 万美元,第 75 个百分位数 (Q3) 约为 1500 万美元。

四分位距 (IQR) 计算如下:1500 万美元 – 200 万美元 = 1300 万美元。

这意味着任何总销售额超出以下限制的电影都将被视为异常值:

  • 下限:T1 – 1.5*IQR = 200 万美元 – 1.5*1300 万美元 = -1750 万美元
  • 上限:T3 + 1.5*IQR = 1500万美元 + 1.5*1300万美元 = 3450万美元

大多数《星球大战》电影的票房收入远超过 3,450 万美元,这使得它们在票房收入方面处于异类。

示例 5:每场比赛得分异常值

另一个经常出现异常值的现实领域是职业体育。

例如,NBA 球员得分的第 25 个百分位数 (Q1) 约为每场 5 分,第 75 个百分位数 (Q3) 约为每场 15 分。

四分位距 (IQR) 计算如下:15 – 5 = 10 分。

这意味着任何平均水平超出以下限制的球员都将被视为异常值:

  • 下限:Q1 – 1.5*IQR = 5 – 1.5*10 = -10 点
  • 上限:Q3 + 1.5*IQR = 15 + 1.5*10 = 30 点

许多 NBA 赛季中,得分最高的球员通常每场得分略高于 30 分,这使他成为一个异常值。

其他资源

以下教程解释了如何使用各种统计软件查找数据集中的异常值:

如何在 Excel 中查找异常值
如何在R中查找异常值
如何在Python中查找异常值
SPSS中如何找出异常值

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注