什么被认为是低标准偏差?
标准差用于衡量样本中数值的分布情况。
我们可以使用以下公式来计算给定样本的标准差:
√ Σ( xi – x bar ) 2 / (n-1)
金子:
- Σ:表示“和”的符号
- x i :样本的第 i 个值
- x bar :样本平均值
- n:样本量
标准差值越高,样本中的值越分散。相反,标准差值越低,值的聚类越紧密。
学生经常问的一个问题是:什么被认为是标准差的低值?
答案: “低”标准差没有阈值,因为它取决于您正在处理的数据类型。
例如,考虑以下场景:
场景1:一位教授收集了他班上学生的考试成绩数据,发现考试成绩的标准差是7.8。
场景2 :一位经济学家测量了世界各地不同国家征收的所得税总额,发现征收的所得税总额的标准差为120万美元。
场景 2 中的标准差要高得多,但这只是因为场景 2 中测量的值远高于场景 1 中测量的值。
这意味着我们没有一个数字可以用来确定标准差是否“低”。这完全取决于具体情况。
使用变异系数
确定标准差是否“低”的一种方法是将其与数据集的平均值进行比较。
变异系数,通常缩写为CV ,是一种测量数据集中值相对于平均值的分布的方法。计算方法如下:
CV=s/ x
金子:
- s:数据集的标准差
- x :数据集的平均值
CV 越低,与平均值的标准差越小。
例如,假设一位教授收集了学生考试成绩的数据,发现平均分数为 80.3,分数的标准差为 7.8。 CV 计算如下:
- CV:7.8 / 80.3 = 0.097
假设另一所大学的另一位教授收集了他学生的考试成绩数据,发现平均分是 70.3,分数的标准差是 8.5。 CV 计算如下:
- CV:8.5 / 90.2 = 0.094
虽然第一位老师的学生的考试成绩标准差较低,但变异系数实际上高于第二位老师的学生的考试成绩。
这意味着第一位老师的学生的考试成绩相对于平均成绩的差异更大。
样本间标准差比较
我们通常只是简单地比较多个样本之间的标准差来确定哪个样本的标准差最低,而不是将标准差分类为“低”或“低”。
例如,假设一位教授在一个学期内给他的学生进行了三场考试。然后计算每次考试分数的标准差:
- 考试结果 1 的标准差示例: 4.9
- 考试结果 2 的标准差示例: 14.4
- 考试结果 3 的标准差示例: 2.5
教师可以看到,三项考试中,考试 3 的分数标准差最低,这意味着该考试的考试分数聚类最为紧密。
相反,他可以看到考试 2 的标准差最高,这意味着该考试的结果最分散。