关于如何解释方差的简单说明
在统计学中,我们经常想了解数据集中的值是如何“分散”的。为了衡量这一点,我们经常使用以下分散度量:
- 极差:数据集中最大和最小值之间的差值。
- 四分位距:数据集的第一个四分位数和第三个四分位数之间的差值(四分位数只是将数据集分为四个相等部分的值)。
- 标准差:衡量数值与平均值之间典型距离的一种方法。
- 方差:标准差的平方。
在这四种衡量标准中,方差往往是最难直观理解的。本文旨在提供方差的简单解释。
了解标准差
在我们了解方差之前,我们必须首先了解标准差,通常表示为σ 。
标准差的计算公式为:
σ = √(Σ ( xi – μ) 2 / N)
其中 μ 是总体平均值,xi 是总体的第 i个元素,N 是总体规模,Σ 只是一个奇特的符号,表示“总和”。
在实践中,您很少需要手动计算标准差;相反,您可以使用统计软件或计算器。
在最基本的层面上,标准差告诉我们数据集中数据值的分布。为了说明这一点,请考虑以下三个数据集及其相应的标准差:
[5, 5, 5] 标准差 = 0 (根本没有扩散)
[3,5,7] 标准差 = 1.63 (一些偏差)
[1, 5, 99] 标准差 = 45.28 (大量价差)
“标准差”一词可以通过查看组成它的两个词来理解:
- “偏差”——指与平均值的距离。
- “标准”——指的是值与平均值之间的“标准”或“典型”距离。
一旦理解了标准差,理解方差就容易多了。
了解差距
方差通常表示为σ2 ,只是标准差的平方。求数据集方差的公式为:
σ 2 = Σ ( xi – μ) 2 / N
其中 μ 是总体平均值,xi 是总体的第 i个元素,N 是总体规模,Σ 只是一个奇特的符号,表示“总和”。
因此,如果数据集的标准差为 8,则变异将为 8 2 = 64。
或者,如果数据集的标准差为 10,则变异将为 10 2 = 100。
或者,如果数据集的标准差为 3.7,则变异将为 3.7 2 = 13.69。
数据集中的值越分散,方差就越高。为了说明这一点,请考虑以下三个数据集及其相应的方差:
[5, 5, 5] 方差 = 0 (根本没有传播)
[3,5,7] 方差 = 2.67 (一些偏差)
[1, 5, 99] 方差 = 2,050.67 (大量分布)
什么时候会使用方差而不是标准差?
阅读了上述标准差和方差的解释后,您可能想知道什么时候会使用方差而不是标准差来描述数据集。
毕竟,标准差告诉我们一个值与平均值之间的平均距离,而方差告诉我们该值的平方。标准差似乎更容易理解和解释。
实际上,您几乎总是使用标准差来描述数据集中值的分布。
然而,当使用方差分析或回归等技术并尝试解释模型因特定因素而产生的总方差时,方差可能很有用。
例如,您可能想了解智商可以解释多少测试分数差异,以及学习时间可以解释多少差异。
如果 36% 的变化是由智商造成的,64% 是由学习时间造成的,那么这就很容易理解了。但如果我们使用 6 和 8 的标准差,它就不太直观,并且在问题的背景下没有多大意义。
使用方差而不是标准差可能更好的另一种情况是当您进行理论统计工作时。
在这种情况下,计算时使用方差要容易得多,因为不需要使用平方根符号。
其他资源
以下教程提供了有关方差的更多信息: