如何在 excel 中构建预测区间


在统计学中, 简单线性回归是一种可以用来量化预测变量 x 和响应变量 y 之间关系的技术。

当我们执行简单的线性回归时,我们得到一条描述 x 和 y 之间关系的“最佳拟合线”,可以写为:

ŷ = b 0 + b 1 x

金子:

  • ŷ 是响应变量的预测值
  • b 0是 y 轴截距
  • b 1是回归系数
  • x 是预测变量的值

有时我们想使用这条最佳拟合线来构建给定值 x 0预测区间,该区间是预测值 ŷ 0周围的一个区间,使得总体中 y 的真实值有 95% 的概率对应的x 0包含在该区间内。

计算给定值 x 0的预测区间的公式为:

× 0 +/- t α/2,df=n-2 * se

金子:

se = S yx √(1 + 1/n + (x 0x ) 2 /SS x )

这个公式可能看起来有点吓人,但实际上在 Excel 中计算起来很简单。接下来我们将看到一个使用此公式计算 Excel 中给定值的预测区间的示例。

示例:如何在 Excel 中构建预测区间

以下数据集显示了 15 名不同学生的学习小时数以及获得的考试成绩:

Excel 中的示例数据集

假设我们要为值 x 0 = 3 创建一个 95% 的预测区间。也就是说,我们要创建一个区间,使得对于学习以下课程的学生,考试成绩有 95% 的概率落入该区间内3小时。

下面的截图展示了如何计算获得这个预测区间所需的所有值。

注: F列中的公式显示了E列中的值是如何计算的。

如何在 Excel 中计算预测区间

x 0 = 3 值的 95% 预测区间为(74.64, 86.90) 。也就是说,我们以 95% 的概率预测学习 3 小时的学生将获得 74.64 到 86.90 之间的分数。

关于所用计算的一些注释:

  • 为了计算 t α/2,df=n-2 的 t 临界值,我们使用 α/2 = 0.05/2 = 0.25,因为我们想要 95% 的预测区间。请注意,较高的预测区间(例如,99% 的预测区间)将导致更宽的区间。相反,较小的预测区间(例如90%的预测区间)将导致较窄的区间。
  • 我们使用公式=FORECAST()来获取 ŷ 0的预测值,但公式=FORECAST.LINEAR()将返回完全相同的值。

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注