什么是好的 r 平方值？

经过本杰明·安德森博 29 7 月, 2023 指导 0 条评论

R 平方衡量线性回归模型“拟合”数据集的程度。 R 平方通常也称为决定系数，是响应变量中可由预测变量解释的方差的比例。

R 平方值的范围为 0 到 1。值 0 表示响应变量根本无法由预测变量解释。值为 1 表示响应变量可以由预测变量完美解释，没有错误。

实际上，您可能永远不会看到 R 平方的值为 0 或 1。相反，您可能会遇到 0 到 1 之间的值。

例如，假设您有一个数据集，其中包含 30 个不同城市的人口规模和花店数量。您可以使用人口规模作为预测变量，将花店作为响应变量，对数据集拟合一个简单的线性回归模型。在回归结果中，您可以看到 R ² = 0.2。这表明 20% 的花店数量变化可以用人口规模来解释。

这给我们带来了一个重要的问题：这对于 R 平方来说是一个“好的”值吗？

这个问题的答案取决于您的回归模型的目标。要知道：

1.您想解释一下预测变量和响应变量之间的关系吗？

金子

2.您想预测响应变量吗？

根据目标，问题“R 平方的最佳值是多少？”的答案” 将会有所不同。

解释预测变量和响应变量之间的关系

如果回归模型的主要目标是解释预测变量和响应变量之间的关系，则 R 平方实际上是无关紧要的。

例如，假设在上面的回归示例中，您看到预测总体规模的系数为 0.005，并且具有统计显着性。这意味着某个城市人口每增加 1，花店数量平均增加 0.005。此外，人口规模是衡量城市花店数量的一个统计显着指标。

无论此回归模型的 R 平方值为 0.2 还是 0.9，都不会改变此解释。由于您只是对人口规模和花店数量之间的关系感兴趣，因此您无需过多担心模型的 R 平方值。

如果您的主要目标是使用预测变量准确预测响应变量的值，那么 R 平方就很重要。

一般来说，R 平方值越大，预测变量能够更准确地预测响应变量的值。

R 平方值所需的值取决于您所需的精度。例如，在科学研究中，R 平方可能需要大于 0.95，回归模型才被认为是可靠的。在其他领域，如果数据集中存在极大的变化，则 R 平方仅为 0.3 就足够了。

要了解什么是“好的”R 平方值，您需要探索在您的特定研究领域中普遍接受的 R 平方值。如果您正在为客户或公司执行回归分析，您也许可以询问他们什么是可接受的 R 平方值。

预测区间根据预测变量的值指定新观察值可能落入的范围。预测区间越窄表明预测变量可以更准确地预测响应变量。

通常，预测区间比 R 平方值更有用，因为它为您提供了新观察值可能落入的精确值范围。如果回归的主要目标是预测响应变量的新值，这尤其有用。

例如，假设某个特定城市的人口为 40,000，预测间隔为 30 到 35 家花店。这可能被认为是可接受的值范围，也可能不被认为是可接受的值范围，具体取决于回归模型的使用。

一般来说，R 平方值越大，预测变量能够更准确地预测响应变量的值。

R 平方值必须有多好才能被视为“好”，具体取决于领域。有些领域比其他领域需要更高的精度。

要找出什么被认为是“好的”R 平方值，请考虑您所在领域普遍接受的值，询问在特定领域具有特定知识的人，或者询问客户/客户。您正在为其执行回归分析的公司。对于他们认为可以接受的事情。

如果要解释预测变量和响应变量之间的关系，R 平方在很大程度上是无关紧要的，因为它对回归模型的解释没有影响。

如果要预测响应变量，预测区间通常比 R 平方值更有用。

进一步阅读：

皮尔逊相关系数
 简单线性回归简介

大家好，我是本杰明，一位退休的统计学教授，后来成为 Statorials 的热心教师。凭借在统计领域的丰富经验和专业知识，我渴望分享我的知识，通过 Statorials 增强学生的能力。了解更多