使用标准差的优点和缺点


数据集的标准差是衡量单个值与平均值的典型偏差的一种方法。

计算样本标准差(表示为s )的公式为:

s = √ Σ( xi – x̄) 2 / (n – 1)

金子:

  • Σ :表示“和”的符号
  • x i :数据集中的第 i
  • : 样本平均值
  • n :样本量

使用标准差来描述数据集中值的分布有两个主要优点:

优点#1:标准差在计算中使用数据集中的所有观测值。在统计学中,我们通常说能够使用数据集中的所有观测值来执行计算是一件好事,因为我们正在使用数据集中所有可能可用的“信息”。

优点#2:标准差很容易解释。标准差是一个单一值,可以让我们很好地了解数据集中的“典型”观察值与平均值的差距有多大。

然而,使用标准差有一个主要缺点:

缺点#1:标准差可能会受到异常值的影响。当数据集中存在极端异常值时,它可能会夸大标准差值,从而对数据集中的值的分布产生误导性的想法。

以下示例提供了有关使用标准差的优点和缺点的更多信息。

优点#1:标准差使用所有观测值

假设我们有以下数据集,显示班级中学生的考试成绩分布:

评分:68、70、71、75、78、82、83、83、85、90、91、91、92

我们可以用计算器或者统计软件发现这个数据集的样本标准差是8.46。

在此示例中使用标准差的优点是,我们使用数据集中所有可能的观察值来查找值的典型“分布”。

相反,我们可以使用另一个指标(例如四分位数范围)来衡量该数据集中值的分布。

我们可以用计算器算出四分位数间距是 17.5 。这表示数据集中中间 50% 的值之间的差距。

现在假设我们将数据集中的最低值更改得更低:

评级:22、70、71、75、78、82、83、83、85、90、91、91、92

我们可以用计算器算出样本标准差是18.37

然而,四分位数间距仍然是 17.5 ,因为中间 50% 的值都没有受到影响。

这表明样本标准差在计算中考虑了数据集中的所有观测值,这与其他离散度度量不同。

优点#2:标准差很容易解释

回想一下以下数据集,该数据集显示了班级中学生的考试成绩分布:

评分:68、70、71、75、78、82、83、83、85、90、91、91、92

我们用计算器发现这个数据集的样本标准差是8.46

这很容易解释,因为它只是意味着“典型”考试分数与平均考试分数的偏差约为 8.46。

另一方面,其他分散度衡量标准并不那么容易解释。

例如,变异系数是分散度的另一种度量,表示标准差与样本均值的比率。

变异系数:s/x̄

在此示例中,平均考试成绩为 81.46,因此变异系数计算如下: 8.46 / 81.46 = 0.104

这表示样本标准差与样本均值的比率,这对于比较多个数据集上的值的分布很有用,但它本身解释为度量并不是很简单。

缺点#1:标准差可能会受到异常值的影响

假设我们有以下数据集,其中包含一家公司 10 名员工的薪资信息(以千美元为单位):

工资:44、48、57、68、70、71、73、79、84、94

工资的样本标准差约为15.57

现在假设我们有完全相同的数据集,但最高工资要高得多

工资:44、48、57、68、70、71、73、79、84、895

该数据集中工资的样本标准差约为262.47

仅包含一个极端异常值,标准差就会受到很大影响,并且现在会对“典型”薪资分配产生误导性的想法。

注意:当数据集中存在异常值时,四分位数间距可以提供更好的离散度测量,因为它不受异常值的影响。

其他资源

以下教程提供了有关在统计中使用标准差的更多信息:

四分位数间距和标准差:差异
变异系数与标准差:差异
人口对比样本标准差:何时使用每个标准差

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注