什么被认为是好的标准差?
标准差用于衡量样本中数值的分布情况。
我们可以使用以下公式来计算给定样本的标准差:
√ Σ( xi – x bar ) 2 / (n-1)
金子:
- Σ:表示“和”的符号
- x i :样本的第 i 个值
- x bar :样本平均值
- n:样本量
标准差值越高,样本中的值越分散。相反,标准差值越低,值的聚类越紧密。
学生经常问的一个问题是:标准差的最佳值是多少?
答案:标准差不可能是“好”或“坏”,因为它只是告诉我们样本中值的分布。
也没有通用的数字来确定标准差是“高”还是“低”。例如,考虑以下场景:
场景 1:一位房地产经纪人收集了他所在城镇 100 套房屋的价格数据,发现价格的标准差为 12,000 美元。
场景 2 :一位经济学家测量了美国 50 个州征收的所得税总额,发现征收的所得税总额的标准差为 480,000 美元。
虽然情景 2 的标准差远高于情景 1 的标准差,但情景 2 中测量的单位要高得多,因为各州征收的总税收明显远高于房地产价格。
这意味着我们没有一个数字可以用来确定标准差是“好”还是“坏”,甚至是“高”还是“低”,因为它取决于具体情况。
使用变异系数
确定标准差是否较高的一种方法是将其与数据集的平均值进行比较。
变异系数,通常缩写为CV ,是一种测量数据集中值相对于平均值的分布的方法。计算方法如下:
CV=s/ x
金子:
- s:数据集的标准差
- x :数据集的平均值
简单来说,CV就是标准差与平均值的比值。
CV 越高,与平均值的标准差就越大。一般来说,CV 值大于 1 通常被认为是高的。
例如,假设一位房地产经纪人收集了她所在城镇 100 套房屋的价格数据,发现平均价格为 150,000 美元,价格的标准差为 12,000 美元。 CV 计算如下:
- 简历:12,000 美元/150,000 美元 = 0.08
由于该 CV 值远小于 1,这表明数据的标准偏差非常低。
相反,假设经济学家测量了美国 50 个州征收的所得税总额,发现样本平均值为 400,000 美元,标准差为 480,000 美元。 CV 计算如下:
- 简历:480,000 美元/400,000 美元 = 1.2
由于这个CV值大于1,这告诉我们数据值的标准偏差相当高。
比较数据集之间的标准差
我们经常使用标准差来衡量不同数据集上的值的分布。
例如,假设一位教授在一个学期内给他的学生进行了三场考试。然后计算每次考试分数的标准差:
- 考试结果标准差示例 1: 4.6
- 考试结果 2 的标准差示例: 12.4
- 考试结果标准差示例 3: 2.3
这告诉教授,考试 2 的考试结果最分散,而考试 3 的结果最密集。