四分位距和标准差:有什么区别?


四分位距标准差是衡量数据集中值分布的两种方法。

本教程简要说明了每个指标以及两者之间的异同。

四分位数范围

数据集的四分位数范围(IQR) 是第一个四分位数(第 25 个百分位数)和第三个四分位数(第 75 个百分位数)之间的差。它测量平均 50% 值的分布。

IQR = Q3 – Q1

例如,假设我们有以下数据集:

数据集: 1、4、8、11、13、17、19、19、20、23、24、24、25、28、29、31、32

根据四分位距计算器,该数据集的四分位距 (IQR) 计算如下:

  • 第一航站: 12
  • T3: 26.5
  • IQR = Q3 – Q1 = 14.5

这告诉我们数据集中中间 50% 的值的偏差为14.5

标准差

数据集的标准差是衡量单个值与平均值的典型偏差的一种方法。计算方法如下:

s = √(Σ(x ix ) 2 / (n-1))

例如,假设我们有以下数据集:

数据集: 1、4、8、11、13、17、19、19、20、23、24、24、25、28、29、31、32

我们可以用计算器算出这个数据集的标准差是9.25 。这让我们了解典型值与平均值的差距有多大。

共同点和不同点

四分位距和标准差具有以下相似之处:

  • 这两个指标都衡量数据集中值的分布。

然而,四分位距和标准差有以下主要区别:

  • 四分位距 (IQR) 不受极端异常值的影响。例如,数据集中的极小或极大值不会影响 IQR 计算,因为 IQR 仅使用数据集的第 25 个百分位和第 75 个百分位值。
  • 标准差极端异常值的影响。例如,数据集中的极大值将导致更大的标准差,因为标准差在其公式中使用数据集中的每个值。

何时使用每个

当存在极端异常值时,您应该使用四分位数范围来衡量数据集中值的分布。

相反,当不存在极端异常值时,应该使用标准差来衡量值的分布。

为了说明原因,请考虑以下数据集:

数据集: 1、4、8、11、13、17、19、19、20、23、24、24、25、28、29、31、32

在本文前面,我们计算了该数据集的以下指标:

  • 四分位数: 14.5
  • 标准差: 9.25

但是,请考虑数据集是否存在极端异常值:

数据集: 1、4、8、11、13、17、19、19、20、23、24、24、25、28、29、31、32、378

我们可以使用计算器找到该数据集的以下指标:

  • 四分位数: 15
  • 标准差: 85.02

请注意,当存在异常值时,四分位距几乎没有变化,而标准差从 9.25 增加到 85.02。

其他资源

集中趋势的度量:定义和示例
分散措施:定义和示例
如何使用四分位距查找异常值

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注