如何使用四分位距查找异常值
异常值是与数据集中的其他值异常远离的观察值。异常值可能会产生问题,因为它们会影响分析结果。
检测数据集中异常值的常用方法是使用四分位距。
四分位距(通常缩写为 IQR)是数据集中第 25 个百分位数 (Q1) 和第 75 个百分位数 (Q3) 之间的差值。它测量平均 50% 值的分布。
一种流行的方法是,如果某个观测值的值比 IQR 高 1.5 倍或比 IQR 低 1.5 倍,则将其声明为异常值。
本教程提供了如何使用此方法在数据集中查找异常值的分步示例。
第 1 步:创建数据
假设我们有以下数据集:
步骤 2:确定第一和第三四分位数
第一个四分位数结果为5 ,第三个四分位数结果为20.75 。
因此,四分位距为 20.75 -5 = 15.75 。
第 3 步:找到下限和上限
下限计算如下:
下限 = Q1 – 1.5*IQR = 5 – 1.5*15.75 = -18.625
上限计算如下:
上限=Q3+1.5*IQR=20.75+1.5*15.75= 44.375
第 4 步:识别异常值
数据集中唯一值低于下限或高于上限的观测值是46 。所以这是该数据集中唯一的异常值。
注意:您可以使用此异常值界限计算器自动查找给定数据集中异常值的上限和下限。
实践中如何发现异常值
以下教程解释了如何在不同的统计软件中使用四分位数范围查找异常值: