如何解释四分位距:举例


数据集的四分位数范围(通常缩写为 IQR)是数据集的第一个四分位数(第 25 个百分位数)和第三个四分位数(第 75 个百分位数)之间的差。

简单来说,它测量中间 50% 值之间的偏差。

IQR = Q3 – Q1

例如,假设我们有以下数据集,显示实验室中 17 种不同植物的高度(以英寸为单位):

数据集: 1、4、8、11、13、17、19、19、20、23、24、24、25、28、29、31、32

根据四分位距计算器,该数据集的四分位距 (IQR) 计算如下:

  • 第一航站: 12
  • T3: 26.5
  • IQR = Q3 – Q1 = 14.5

这告诉我们数据集中中间 50% 的值的分布范围为14.5英寸。

为什么四分位距很有用

四分位距是衡量数据集中值分布的一种方法,但还有其他分布度量,例如:

  • 范围:测量数据集中的最小值和最大值之间的差异。
  • 标准差:测量数据集中单个值与平均值的典型偏差。

使用四分位距(IQR)来衡量数据集中值的分布的优点是不受极端异常值的影响。

例如,数据集中的极小或极大值不会影响 IQR 计算,因为 IQR 仅使用数据集的第 25 个百分位和第 75 个百分位值。

为了说明这一点,请考虑以下数据集:

数据集: 1、4、8、11、13、17、19、19、20、23、24、24、25、28、29、31、32

该数据集具有以下传播测量值

  • 四分位数: 14.5
  • 标准差: 9.25
  • 范围: 31

但是,请考虑数据集是否存在极端异常值:

数据集: 1、4、8、11、13、17、19、19、20、23、24、24、25、28、29、31、32、378

我们可以使用计算器找到该数据集的以下分布测量值:

  • 四分位数: 15
  • 标准差: 85.02
  • 范围: 377

请注意,当存在异常值时,四分位距几乎没有变化,而标准差和极差都发生巨大变化。

比较数据集之间的四分位数范围

四分位距还可以用于比较不同数据集之间的值的分布。

例如,假设我们有三个具有以下 IQR 值的数据集:

  • 数据集 1 的 IQR: 13.5
  • 数据集 2 的 IQR: 24.4
  • 数据集 3 IQR: 8.7

这告诉我们,中间 50% 的值之间的差距对于数据集 2 来说最大,对于数据集 3 来说最小。

其他资源

如何在 Excel 中计算四分位距
如何在Python中计算四分位数范围
如何使用四分位距查找异常值
四分位距计算器

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注