如何用 python 计算样本和总体方差
方差是衡量数据集中值分布的一种方法。
总体方差的计算公式为:
σ 2 = Σ ( xi – μ) 2 / N
金子:
- Σ :表示“和”的符号
- μ :人口平均值
- x i :总体中的第 i个元素
- N :人口规模
样本方差的计算公式为:
s 2 = Σ ( xi – x ) 2 / (n-1)
金子:
- x :样本均值
- x i :样本的第 i个元素
- n :样本量
我们可以使用Python统计库中的variance和pvariance函数来快速计算给定表的样本方差和总体方差(分别)。
from statistics import variance, pvariance #calculate sample variance variance(s) #calculate population variance pvariance(x)
以下示例展示了如何在实践中使用每个功能。
示例 1:用 Python 计算样本方差
以下代码展示了如何在Python中计算表的样本方差:
from statistics import variance #define data data = [4, 8, 12, 15, 9, 6, 14, 18, 12, 9, 16, 17, 17, 20, 14] #calculate sample variance variance(data) 22,067
样本方差结果为22.067 。
示例 2:用 Python 计算总体方差
以下代码展示了如何在Python中计算表的总体方差:
from statistics import pvariance #define data data = [4, 8, 12, 15, 9, 6, 14, 18, 12, 9, 16, 17, 17, 20, 14] #calculate sample variance pvariance(data) 20,596
总体方差为20,596 。
计算样本和总体方差的注意事项
计算样本和总体方差时请记住以下几点:
- 当您使用的数据集代表整个总体(即您感兴趣的每个值)时,您应该计算总体方差。
- 当您使用的数据集代表取自较大感兴趣总体的样本时,您应该计算样本方差。
- 给定数据表的样本方差总是会大于同一数据表的总体方差,因为计算样本方差时存在更多的不确定性,因此我们对方差的估计会更大。
其他资源
以下教程解释了如何在 Python 中计算其他价差指标: