了解回归的标准误差
当我们将回归模型拟合到数据集时,我们通常对回归模型“拟合”数据集的程度感兴趣。测量拟合优度的两个常用指标包括R 平方( R2 ) 和回归标准误差(通常表示为S )。
本教程解释了如何解释回归的标准误差 (S) 以及为什么它可以提供比 R 2更有用的信息。
回归中的标准误差与 R 平方
假设我们有一个简单的数据集,显示 12 名学生在重要考试前一个月每天学习多少小时,以及他们的考试成绩:
如果我们在 Excel 中对该数据集拟合一个简单的线性回归模型,我们会收到以下结果:
R 平方是响应变量中可由预测变量解释的方差的比例。在这种情况下, 65.76%的考试成绩差异可以用学习时间来解释。
回归的标准误差是观测值与回归线之间的平均距离。在这种情况下,观测值与回归线平均偏差 4.89 个单位。
如果我们用回归线绘制实际数据点,我们可以更清楚地看到这一点:
请注意,一些观察值非常接近回归线,而另一些则不然。但平均而言,观测值与回归线偏离4.19 个单位。
回归的标准误差特别有用,因为它可以用来评估预测的准确性。大约 95% 的观察值应落在回归的 +/- 两个标准误差范围内,这是 95% 预测区间的快速近似值。
如果我们想使用回归模型进行预测,回归的标准误差可能是比 R 平方更有用的衡量标准,因为它让我们了解我们的预测在单位方面的准确性。
为了说明为什么回归的标准误差可能是评估模型“拟合度”的更有用的衡量标准,让我们考虑另一个示例数据集,该数据集显示 12 名学生在一次重要考试前一个月每天学习多少小时,以及他们的考试成绩:
请注意,这与之前的数据集完全相同,只是所有 s 值都减半了。因此,该数据集中的学生的学习时间恰好是前一个数据集中学生的一半,并且考试成绩也正好是一半。
如果我们在 Excel 中对该数据集拟合一个简单的线性回归模型,我们会收到以下结果:
请注意,R 平方65.76%与前面的示例完全相同。
但是,回归的标准误差为2.095 ,恰好是上一个示例中回归的标准误差的一半。
如果我们用回归线绘制实际数据点,我们可以更清楚地看到这一点:
请注意观察结果如何更紧密地聚集在回归线周围。平均而言,观测值距离回归线2,095 个单位。
因此,尽管两个回归模型的 R 平方均为65.76% ,但我们知道第二个模型会提供更准确的预测,因为它具有较低的回归标准误差。
使用标准误差的好处
回归的标准误差 (S) 通常比模型的 R 方更有用,因为它为我们提供了实际单位。如果我们想使用回归模型来产生预测,S 可以很容易地告诉我们模型是否足够准确以用于预测目的。
例如,假设我们想要生成 95% 的预测区间,在该区间中我们可以将考试分数预测为与实际分数相差 6 分以内。
我们的第一个模型的 R 平方为 65.76%,但这并没有告诉我们任何有关预测区间准确性的信息。幸运的是,我们还知道第一个模型的 S 为 4.19。这意味着 95% 的预测区间大约为 2*4.19 = +/- 8.38 单位宽,这对于我们的预测区间来说太宽了。
我们的第二个模型的 R 平方也为 65.76%,但同样,这并没有告诉我们预测区间的准确性。然而,我们知道第二个模型的 S 为 2.095。这意味着 95% 的预测区间大约为 2*2.095 = +/- 4.19 个单位宽,小于 6,因此足够准确,可用于生成预测区间。
进一步阅读