什么被认为是好的标准差?


标准差用于衡量样本中数值的分布情况。

我们可以使用以下公式来计算给定样本的标准差:

Σ( xi – x bar ) 2 / (n-1)

金子:

  • Σ:表示“和”的符号
  • x i :样本的第 i 个
  • x bar :样本平均值
  • n:样本量

标准差值越高,样本中的值越分散。相反,标准差值越低,值的聚类越紧密。

学生经常问的一个问题是:标准差的最佳值是多少?

答案:标准差不可能是“好”或“坏”,因为它只是告诉我们样本中值的分布。

也没有通用的数字来确定标准差是“高”还是“低”。例如,考虑以下场景:

场景 1:一位房地产经纪人收集了他所在城镇 100 套房屋的价格数据,发现价格的标准差为 12,000 美元。

场景 2 :一位经济学家测量了美国 50 个州征收的所得税总额,发现征收的所得税总额的标准差为 480,000 美元。

虽然情景 2 的标准差远高于情景 1 的标准差,但情景 2 中测量的单位要高得多,因为各州征收的总税收明显远高于房地产价格。

这意味着我们没有一个数字可以用来确定标准差是“好”还是“坏”,甚至是“高”还是“低”,因为它取决于具体情况。

使用变异系数

确定标准差是否较高的一种方法是将其与数据集的平均值进行比较。

变异系数,通常缩写为CV ,是一种测量数据集中值相对于平均值的分布的方法。计算方法如下:

CV=s/ x

金子:

  • s:数据集的标准差
  • x数据集的平均值

简单来说,CV就是标准差与平均值的比值。

CV 越高,平均值的标准差就越大。一般来说,CV 值大于 1 通常被认为是高的。

例如,假设一位房地产经纪人收集了她所在城镇 100 套房屋的价格数据,发现平均价格为 150,000 美元,价格的标准差为 12,000 美元。 CV 计算如下:

  • 简历:12,000 美元/150,000 美元 = 0.08

由于该 CV 值远小于 1,这表明数据的标准偏差非常低。

相反,假设经济学家测量了美国 50 个州征收的所得税总额,发现样本平均值为 400,000 美元,标准差为 480,000 美元。 CV 计算如下:

  • 简历:480,000 美元/400,000 美元 = 1.2

由于这个CV值大于1,这告诉我们数据值的标准偏差相当高。

比较数据集之间的标准差

我们经常使用标准差来衡量不同数据集上的值的分布。

例如,假设一位教授在一个学期内给他的学生进行了三场考试。然后计算每次考试分数的标准差:

  • 考试结果标准差示例 1: 4.6
  • 考试结果 2 的标准差示例: 12.4
  • 考试结果标准差示例 3: 2.3

这告诉教授,考试 2 的考试结果最分散,而考试 3 的结果最密集。

其他资源

标准差和标准误差:有什么区别?
标准差与四分位距:有什么区别?

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注