四分位距和标准差:有什么区别?
四分位距和标准差是衡量数据集中值分布的两种方法。
本教程简要说明了每个指标以及两者之间的异同。
四分位数范围
数据集的四分位数范围(IQR) 是第一个四分位数(第 25 个百分位数)和第三个四分位数(第 75 个百分位数)之间的差。它测量平均 50% 值的分布。
IQR = Q3 – Q1
例如,假设我们有以下数据集:
数据集: 1、4、8、11、13、17、19、19、20、23、24、24、25、28、29、31、32
根据四分位距计算器,该数据集的四分位距 (IQR) 计算如下:
- 第一航站: 12
- T3: 26.5
- IQR = Q3 – Q1 = 14.5
这告诉我们数据集中中间 50% 的值的偏差为14.5 。
标准差
数据集的标准差是衡量单个值与平均值的典型偏差的一种方法。计算方法如下:
s = √(Σ(x i – x ) 2 / (n-1))
例如,假设我们有以下数据集:
数据集: 1、4、8、11、13、17、19、19、20、23、24、24、25、28、29、31、32
我们可以用计算器算出这个数据集的标准差是9.25 。这让我们了解典型值与平均值的差距有多大。
共同点和不同点
四分位距和标准差具有以下相似之处:
- 这两个指标都衡量数据集中值的分布。
然而,四分位距和标准差有以下主要区别:
- 四分位距 (IQR) 不受极端异常值的影响。例如,数据集中的极小或极大值不会影响 IQR 计算,因为 IQR 仅使用数据集的第 25 个百分位和第 75 个百分位值。
- 标准差受极端异常值的影响。例如,数据集中的极大值将导致更大的标准差,因为标准差在其公式中使用数据集中的每个值。
何时使用每个
当存在极端异常值时,您应该使用四分位数范围来衡量数据集中值的分布。
相反,当不存在极端异常值时,应该使用标准差来衡量值的分布。
为了说明原因,请考虑以下数据集:
数据集: 1、4、8、11、13、17、19、19、20、23、24、24、25、28、29、31、32
在本文前面,我们计算了该数据集的以下指标:
- 四分位数: 14.5
- 标准差: 9.25
但是,请考虑数据集是否存在极端异常值:
数据集: 1、4、8、11、13、17、19、19、20、23、24、24、25、28、29、31、32、378
我们可以使用计算器找到该数据集的以下指标:
- 四分位数: 15
- 标准差: 85.02
请注意,当存在异常值时,四分位距几乎没有变化,而标准差从 9.25 增加到 85.02。
其他资源
集中趋势的度量:定义和示例
分散措施:定义和示例
如何使用四分位距查找异常值