使用标准差的优点和缺点
数据集的标准差是衡量单个值与平均值的典型偏差的一种方法。
计算样本标准差(表示为s )的公式为:
s = √ Σ( xi – x̄) 2 / (n – 1)
金子:
- Σ :表示“和”的符号
- x i :数据集中的第 i个值
- x̄ : 样本平均值
- n :样本量
使用标准差来描述数据集中值的分布有两个主要优点:
优点#1:标准差在计算中使用数据集中的所有观测值。在统计学中,我们通常说能够使用数据集中的所有观测值来执行计算是一件好事,因为我们正在使用数据集中所有可能可用的“信息”。
优点#2:标准差很容易解释。标准差是一个单一值,可以让我们很好地了解数据集中的“典型”观察值与平均值的差距有多大。
然而,使用标准差有一个主要缺点:
缺点#1:标准差可能会受到异常值的影响。当数据集中存在极端异常值时,它可能会夸大标准差值,从而对数据集中的值的分布产生误导性的想法。
以下示例提供了有关使用标准差的优点和缺点的更多信息。
优点#1:标准差使用所有观测值
假设我们有以下数据集,显示班级中学生的考试成绩分布:
评分:68、70、71、75、78、82、83、83、85、90、91、91、92
我们可以用计算器或者统计软件发现这个数据集的样本标准差是8.46。
在此示例中使用标准差的优点是,我们使用数据集中所有可能的观察值来查找值的典型“分布”。
相反,我们可以使用另一个指标(例如四分位数范围)来衡量该数据集中值的分布。
我们可以用计算器算出四分位数间距是 17.5 。这表示数据集中中间 50% 的值之间的差距。
现在假设我们将数据集中的最低值更改得更低:
评级:22、70、71、75、78、82、83、83、85、90、91、91、92
我们可以用计算器算出样本标准差是18.37 。
然而,四分位数间距仍然是 17.5 ,因为中间 50% 的值都没有受到影响。
这表明样本标准差在计算中考虑了数据集中的所有观测值,这与其他离散度度量不同。
优点#2:标准差很容易解释
回想一下以下数据集,该数据集显示了班级中学生的考试成绩分布:
评分:68、70、71、75、78、82、83、83、85、90、91、91、92
我们用计算器发现这个数据集的样本标准差是8.46 。
这很容易解释,因为它只是意味着“典型”考试分数与平均考试分数的偏差约为 8.46。
另一方面,其他分散度衡量标准并不那么容易解释。
例如,变异系数是分散度的另一种度量,表示标准差与样本均值的比率。
变异系数:s/x̄
在此示例中,平均考试成绩为 81.46,因此变异系数计算如下: 8.46 / 81.46 = 0.104 。
这表示样本标准差与样本均值的比率,这对于比较多个数据集上的值的分布很有用,但它本身解释为度量并不是很简单。
缺点#1:标准差可能会受到异常值的影响
假设我们有以下数据集,其中包含一家公司 10 名员工的薪资信息(以千美元为单位):
工资:44、48、57、68、70、71、73、79、84、94
工资的样本标准差约为15.57 。
现在假设我们有完全相同的数据集,但最高工资要高得多:
工资:44、48、57、68、70、71、73、79、84、895
该数据集中工资的样本标准差约为262.47 。
仅包含一个极端异常值,标准差就会受到很大影响,并且现在会对“典型”薪资分配产生误导性的想法。
注意:当数据集中存在异常值时,四分位数间距可以提供更好的离散度测量,因为它不受异常值的影响。
其他资源
以下教程提供了有关在统计中使用标准差的更多信息: