了解回归的标准误差

经过本杰明·安德森博 29 7 月, 2023 指导 0 条评论

当我们将回归模型拟合到数据集时，我们通常对回归模型“拟合”数据集的程度感兴趣。测量拟合优度的两个常用指标包括R 平方( ^R2 ) 和回归标准误差（通常表示为S ）。

本教程解释了如何解释回归的标准误差 (S) 以及为什么它可以提供比 R ²更有用的信息。

回归中的标准误差与 R 平方

假设我们有一个简单的数据集，显示 12 名学生在重要考试前一个月每天学习多少小时，以及他们的考试成绩：

如果我们在 Excel 中对该数据集拟合一个简单的线性回归模型，我们会收到以下结果：

R 平方是响应变量中可由预测变量解释的方差的比例。在这种情况下， 65.76%的考试成绩差异可以用学习时间来解释。

回归的标准误差是观测值与回归线之间的平均距离。在这种情况下，观测值与回归线平均偏差 4.89 个单位。

如果我们用回归线绘制实际数据点，我们可以更清楚地看到这一点：

请注意，一些观察值非常接近回归线，而另一些则不然。但平均而言，观测值与回归线偏离4.19 个单位。

回归的标准误差特别有用，因为它可以用来评估预测的准确性。大约 95% 的观察值应落在回归的 +/- 两个标准误差范围内，这是 95% 预测区间的快速近似值。

如果我们想使用回归模型进行预测，回归的标准误差可能是比 R 平方更有用的衡量标准，因为它让我们了解我们的预测在单位方面的准确性。

为了说明为什么回归的标准误差可能是评估模型“拟合度”的更有用的衡量标准，让我们考虑另一个示例数据集，该数据集显示 12 名学生在一次重要考试前一个月每天学习多少小时，以及他们的考试成绩：

请注意，这与之前的数据集完全相同，只是所有 s 值都减半了。因此，该数据集中的学生的学习时间恰好是前一个数据集中学生的一半，并且考试成绩也正好是一半。

如果我们在 Excel 中对该数据集拟合一个简单的线性回归模型，我们会收到以下结果：

请注意，R 平方65.76%与前面的示例完全相同。

但是，回归的标准误差为2.095 ，恰好是上一个示例中回归的标准误差的一半。

如果我们用回归线绘制实际数据点，我们可以更清楚地看到这一点：

请注意观察结果如何更紧密地聚集在回归线周围。平均而言，观测值距离回归线2,095 个单位。

因此，尽管两个回归模型的 R 平方均为65.76% ，但我们知道第二个模型会提供更准确的预测，因为它具有较低的回归标准误差。

回归的标准误差 (S) 通常比模型的 R 方更有用，因为它为我们提供了实际单位。如果我们想使用回归模型来产生预测，S 可以很容易地告诉我们模型是否足够准确以用于预测目的。

例如，假设我们想要生成 95% 的预测区间，在该区间中我们可以将考试分数预测为与实际分数相差 6 分以内。

我们的第一个模型的 R 平方为 65.76%，但这并没有告诉我们任何有关预测区间准确性的信息。幸运的是，我们还知道第一个模型的 S 为 4.19。这意味着 95% 的预测区间大约为 2*4.19 = +/- 8.38 单位宽，这对于我们的预测区间来说太宽了。

我们的第二个模型的 R 平方也为 65.76%，但同样，这并没有告诉我们预测区间的准确性。然而，我们知道第二个模型的 S 为 2.095。这意味着 95% 的预测区间大约为 2*2.095 = +/- 4.19 个单位宽，小于 6，因此足够准确，可用于生成预测区间。

进一步阅读

简单线性回归简介
 什么是好的 R 平方值？

大家好，我是本杰明，一位退休的统计学教授，后来成为 Statorials 的热心教师。凭借在统计领域的丰富经验和专业知识，我渴望分享我的知识，通过 Statorials 增强学生的能力。了解更多