如何解释四分位距:举例
数据集的四分位数范围(通常缩写为 IQR)是数据集的第一个四分位数(第 25 个百分位数)和第三个四分位数(第 75 个百分位数)之间的差。
简单来说,它测量中间 50% 值之间的偏差。
IQR = Q3 – Q1
例如,假设我们有以下数据集,显示实验室中 17 种不同植物的高度(以英寸为单位):
数据集: 1、4、8、11、13、17、19、19、20、23、24、24、25、28、29、31、32
根据四分位距计算器,该数据集的四分位距 (IQR) 计算如下:
- 第一航站: 12
- T3: 26.5
- IQR = Q3 – Q1 = 14.5
这告诉我们数据集中中间 50% 的值的分布范围为14.5英寸。
为什么四分位距很有用
四分位距是衡量数据集中值分布的一种方法,但还有其他分布度量,例如:
- 范围:测量数据集中的最小值和最大值之间的差异。
- 标准差:测量数据集中单个值与平均值的典型偏差。
使用四分位距(IQR)来衡量数据集中值的分布的优点是不受极端异常值的影响。
例如,数据集中的极小或极大值不会影响 IQR 计算,因为 IQR 仅使用数据集的第 25 个百分位和第 75 个百分位值。
为了说明这一点,请考虑以下数据集:
数据集: 1、4、8、11、13、17、19、19、20、23、24、24、25、28、29、31、32
该数据集具有以下传播测量值
- 四分位数: 14.5
- 标准差: 9.25
- 范围: 31
但是,请考虑数据集是否存在极端异常值:
数据集: 1、4、8、11、13、17、19、19、20、23、24、24、25、28、29、31、32、378
我们可以使用计算器找到该数据集的以下分布测量值:
- 四分位数: 15
- 标准差: 85.02
- 范围: 377
请注意,当存在异常值时,四分位距几乎没有变化,而标准差和极差都发生巨大变化。
比较数据集之间的四分位数范围
四分位距还可以用于比较不同数据集之间的值的分布。
例如,假设我们有三个具有以下 IQR 值的数据集:
- 数据集 1 的 IQR: 13.5
- 数据集 2 的 IQR: 24.4
- 数据集 3 IQR: 8.7
这告诉我们,中间 50% 的值之间的差距对于数据集 2 来说最大,对于数据集 3 来说最小。