如何在 excel 中引导(带有示例)
Bootstrapping是一种当样本量较小且基本分布未知时可用于构建统计数据置信区间的方法。
bootstrapping的基本流程如下:
- 从给定的数据集中取出k 个具有替换的重复样本。
- 对于每个样本,计算感兴趣的统计量。
- 这给出了给定统计量的k 个不同估计值,然后您可以使用它来计算统计量的置信区间。
以下分步示例演示了如何在 Excel 中进行引导。
第1步:输入原始数据
首先,我们将从数据集中输入值:
第 2 步:生成引导示例
接下来,我们将使用以下公式来生成引导程序示例:
=INDEX( $A$2:$A$16 , RANDBETWEEN(1, ROWS( $A$2:$A$16 )),1)
我们可以在单元格D2中键入此公式,以从原始数据集中随机选择一个值。
然后我们可以将此公式向右拖动 10 个单元格以生成我们的第一个引导样本。
然后,我们可以将此公式拖动到 300 行以上,以创建 300 个引导样本:
注意:Bootstrap 使用替换采样,这意味着原始数据集中的值可以在给定样本中出现多次。
步骤 3:计算每个样本的感兴趣统计量
然后我们可以计算每个样本的感兴趣的统计量。
例如,我们可以计算平均值、中位数、标准差、四分位数间距等。对于每个样本。
对于这个特定的示例,我们将计算每个样本的中值:
我们可以看到:
- 第一个引导样本的中值为14 。
- 第二个引导样本的中值为16 。
- 第三个 bootstrap 样本的中值为13.5 。
等等。
步骤 4:计算 bootstrap 置信区间
最后,我们可以通过查找 N 列中 2.5% 百分位数和 97.5% 百分位数处的值来计算中位数的 95% bootstrap 置信区间。
为此,我们可以使用以下公式:
=PERCENTILE( N2:N301 , 0.025) =PERCENTILE( N2:N301 , 0.975)
以下屏幕截图显示了如何在实践中使用这些公式:
从结果中,我们可以看到原始数据集中值的 95% bootstrap 置信区间为[10.475, 19.7625] 。
请注意,在本示例中,我们选择生成 300 个引导样本,每个样本大小为 n=10,但您可以根据需要生成任意数量的引导样本。
使用统计软件时,通常会生成引导样本,然后将其用于构建置信区间。
其他资源
以下教程说明如何在 Excel 中执行其他常见任务:
如何在 Excel 中计算置信区间
如何在 Excel 中计算预测区间
如何在 Excel 中计算公差区间