使用标准差的优点和缺点

经过本杰明·安德森博 4 7 月, 2023 指导 0 条评论

数据集的标准差是衡量单个值与平均值的典型偏差的一种方法。

计算样本标准差（表示为s ）的公式为：

s = √ Σ( _xi – x̄) ² / (n – 1)

金子：

Σ ：表示“和”的符号
x _i ：数据集中的第 i^个值
x̄ : 样本平均值
n ：样本量

使用标准差来描述数据集中值的分布有两个主要优点：

优点#1：标准差在计算中使用数据集中的所有观测值。在统计学中，我们通常说能够使用数据集中的所有观测值来执行计算是一件好事，因为我们正在使用数据集中所有可能可用的“信息”。

优点#2：标准差很容易解释。标准差是一个单一值，可以让我们很好地了解数据集中的“典型”观察值与平均值的差距有多大。

然而，使用标准差有一个主要缺点：

缺点#1：标准差可能会受到异常值的影响。当数据集中存在极端异常值时，它可能会夸大标准差值，从而对数据集中的值的分布产生误导性的想法。

以下示例提供了有关使用标准差的优点和缺点的更多信息。

优点#1：标准差使用所有观测值

假设我们有以下数据集，显示班级中学生的考试成绩分布：

评分：68、70、71、75、78、82、83、83、85、90、91、91、92

我们可以用计算器或者统计软件发现这个数据集的样本标准差是8.46。

在此示例中使用标准差的优点是，我们使用数据集中所有可能的观察值来查找值的典型“分布”。

相反，我们可以使用另一个指标（例如四分位数范围）来衡量该数据集中值的分布。

我们可以用计算器算出四分位数间距是 17.5 。这表示数据集中中间 50% 的值之间的差距。

现在假设我们将数据集中的最低值更改得更低：

评级：22、70、71、75、78、82、83、83、85、90、91、91、92

我们可以用计算器算出样本标准差是18.37 。

然而，四分位数间距仍然是 17.5 ，因为中间 50% 的值都没有受到影响。

这表明样本标准差在计算中考虑了数据集中的所有观测值，这与其他离散度度量不同。

优点#2：标准差很容易解释

回想一下以下数据集，该数据集显示了班级中学生的考试成绩分布：

评分：68、70、71、75、78、82、83、83、85、90、91、91、92

我们用计算器发现这个数据集的样本标准差是8.46 。

这很容易解释，因为它只是意味着“典型”考试分数与平均考试分数的偏差约为 8.46。

另一方面，其他分散度衡量标准并不那么容易解释。

例如，变异系数是分散度的另一种度量，表示标准差与样本均值的比率。

变异系数：s/x̄

在此示例中，平均考试成绩为 81.46，因此变异系数计算如下： 8.46 / 81.46 = 0.104 。

这表示样本标准差与样本均值的比率，这对于比较多个数据集上的值的分布很有用，但它本身解释为度量并不是很简单。

缺点#1：标准差可能会受到异常值的影响

假设我们有以下数据集，其中包含一家公司 10 名员工的薪资信息（以千美元为单位）：

工资：44、48、57、68、70、71、73、79、84、94

工资的样本标准差约为15.57 。

现在假设我们有完全相同的数据集，但最高工资要高得多：

工资：44、48、57、68、70、71、73、79、84、895

该数据集中工资的样本标准差约为262.47 。

仅包含一个极端异常值，标准差就会受到很大影响，并且现在会对“典型”薪资分配产生误导性的想法。

注意：当数据集中存在异常值时，四分位数间距可以提供更好的离散度测量，因为它不受异常值的影响。

其他资源

以下教程提供了有关在统计中使用标准差的更多信息：

四分位数间距和标准差：差异
 变异系数与标准差：差异
 人口对比样本标准差：何时使用每个标准差

关于作者

本杰明·安德森博

大家好，我是本杰明，一位退休的统计学教授，后来成为 Statorials 的热心教师。凭借在统计领域的丰富经验和专业知识，我渴望分享我的知识，通过 Statorials 增强学生的能力。了解更多