现实生活中异常值的 5 个例子
异常值是与数据集中的其他值异常远离的数据点。
如果某个数据点是数据集第三个四分位数以上四分位距的 1.5 倍或第一个四分位数以下四分位距的 1.5 倍,我们通常将其定义为异常值。
注:四分位数间距是数据集的第三个四分位数(第 75 个百分位数)和第一个四分位数(第 25 个百分位数)之间的差值。
以下场景显示了现实情况中异常值的示例。
示例 1:收入异常值
异常值经常出现的一个具体场景是收入分配。
例如,某个国家年收入的第 25 个百分位 (Q1) 可能是每年 15,000 美元,第 75 个百分位 (Q3) 可能是每年 120,000 美元。
四分位距 (IQR) 计算如下:$120,000 – $15,000 = $105,000。
这意味着任何收入超出以下限制的人都将被视为异常值:
- 下限:Q1 – 1.5*IQR = $15,000 – 1.5*$105,000 = -$142,500
- 上限:Q3 + 1.5*IQR = $120,000 + 1.5*$105,000 = $277,500
像埃隆·马斯克这样的净资产达数万亿美元的人,在年收入方面会被视为异常值。
注:超出下限的异常值并不总是有意义,例如,不可能获得负年收入。
示例 2:呼吸暂停异常值
经常出现异常值的另一个现实场景是呼吸暂停。
例如,个人屏住呼吸时间的第 25 个百分位 (Q1) 约为 15 秒,而第 75 个百分位 (Q3) 约为 75 秒。
四分位距 (IQR) 计算如下:75 – 15 = 60。
这意味着任何能够在以下限制之外屏住呼吸的人都将被视为异常值:
- 下限:Q1 – 1.5*IQR = 15 – 1.5*60 = -75 秒
- 上限:Q3 + 1.5*IQR = 75 + 1.5*60 = 165 秒
所有能够屏住呼吸 10 分钟或更长时间的自由潜水员都将被视为异常值,因为他们屏住呼吸的时间远远超过 165 秒。
示例 3:动物体型的异常值
另一个经常出现异常值的现实场景是动物的大小。
例如,马身高的第 25 个百分位 (Q1) 约为 5 英尺,第 75 个百分位 (Q3) 约为 5.5 英尺。
四分位距 (IQR) 计算如下:5.5 – 5 = 0.5 英尺。
这意味着任何尺寸超出以下限制的马都将被视为异常值:
- 下限:Q1 – 1.5*IQR = 5 – 1.5*0.5 = 4.25 英尺
- 上限:Q3 + 1.5*IQR = 5 + 1.5*0.5 = 5.75 英尺
根据吉尼斯世界纪录,有史以来最高的马的纪录为 7 英尺多一点。由于这高于 5.75 英尺的上限,因此这匹马显然会被视为异常值。
示例 4:电影票销售中的异常值
另一个经常出现异常值的现实场景是电影票销售。
例如,电影门票总销售额的第 25 个百分位数 (Q1) 约为 200 万美元,第 75 个百分位数 (Q3) 约为 1500 万美元。
四分位距 (IQR) 计算如下:1500 万美元 – 200 万美元 = 1300 万美元。
这意味着任何总销售额超出以下限制的电影都将被视为异常值:
- 下限:T1 – 1.5*IQR = 200 万美元 – 1.5*1300 万美元 = -1750 万美元
- 上限:T3 + 1.5*IQR = 1500万美元 + 1.5*1300万美元 = 3450万美元
大多数《星球大战》电影的票房收入远超过 3,450 万美元,这使得它们在票房收入方面处于异类。
示例 5:每场比赛得分异常值
另一个经常出现异常值的现实领域是职业体育。
例如,NBA 球员得分的第 25 个百分位数 (Q1) 约为每场 5 分,第 75 个百分位数 (Q3) 约为每场 15 分。
四分位距 (IQR) 计算如下:15 – 5 = 10 分。
这意味着任何平均水平超出以下限制的球员都将被视为异常值:
- 下限:Q1 – 1.5*IQR = 5 – 1.5*10 = -10 点
- 上限:Q3 + 1.5*IQR = 15 + 1.5*10 = 30 点
在许多 NBA 赛季中,得分最高的球员通常每场得分略高于 30 分,这使他成为一个异常值。
其他资源
以下教程解释了如何使用各种统计软件查找数据集中的异常值: