如何在 python 中计算平均值的标准误差

经过本杰明·安德森博 27 7 月, 2023 指导 0 条评论

均值的标准误差是衡量数据集中值分布的一种方法。计算方法如下：

平均值的标准误差 = s / √n

金子：

s ：样本标准差
n ：样本量

本教程介绍了两种可用于在 Python 中计算数据集平均值的标准误差的方法。请注意，这两种方法产生完全相同的结果。

方法一：使用SciPy

计算平均值标准误差的第一种方法是使用 SciPy Stats 库中的sem()函数。

下面的代码展示了如何使用这个函数：

 from scipy. stats import week

#define dataset 
data = [3, 4, 4, 5, 7, 8, 12, 14, 14, 15, 17, 19, 22, 24, 24, 24, 25, 28, 28, 29]

#calculate standard error of the mean 
sem(data)

2.001447

平均值的标准误差为2.001447 。

方法 2：使用 NumPy

计算数据集平均值的标准误差的另一种方法是使用 NumPy 的std()函数。

请注意，我们需要在此函数的参数中指定ddof=1来计算样本标准差，而不是总体标准差。

以下代码展示了如何执行此操作：

 import numpy as np

#define dataset
data = np.array([3, 4, 4, 5, 7, 8, 12, 14, 14, 15, 17, 19, 22, 24, 24, 24, 25, 28, 28, 29])

#calculate standard error of the mean 
n.p. std (data, ddof= 1 ) / np. sqrt ( np.size (data))

2.001447

同样，平均值的标准误差为2.001447 。

如何解释平均值的标准误

均值的标准误差只是对均值周围值的分布的度量。解释平均值的标准误差时需要记住两件事：

1.均值的标准误差越大，数据集中的值在均值周围越分散。

为了说明这一点，考虑一下我们是否将前一个数据集的最后一个值更改了一个更大的数字：

 from scipy. stats import week

#define dataset 
data = [3, 4, 4, 5, 7, 8, 12, 14, 14, 15, 17, 19, 22, 24, 24, 24, 25, 28, 28, 150 ]

#calculate standard error of the mean 
sem(data)

6.978265

请注意标准误差如何从2.001447增加到6.978265 。这表明与之前的数据集相比，该数据集中的值更分布在平均值附近。

2.随着样本量的增加，平均值的标准误差趋于减小。

为了说明这一点，请考虑以下两组数据的平均值的标准误差：

 from scipy . stats import week 

#define first dataset and find SEM
data1 = [1, 2, 3, 4, 5]
sem(data1)

0.7071068

#define second dataset and find SEM
data2 = [1, 2, 3, 4, 5, 1, 2, 3, 4, 5]
sem(data2)

0.4714045

第二个数据集只是第一个数据集重复两次。因此，两个数据集具有相同的均值，但第二个数据集的样本量较大，因此标准误差较小。

其他资源

如何计算 R 中平均值的标准误差
 如何在 Excel 中计算平均值的标准误差
如何计算 Google 表格中平均值的标准误差

关于作者

本杰明·安德森博

大家好，我是本杰明，一位退休的统计学教授，后来成为 Statorials 的热心教师。凭借在统计领域的丰富经验和专业知识，我渴望分享我的知识，通过 Statorials 增强学生的能力。了解更多