什么是好的 r 平方值?


R 平方衡量线性回归模型“拟合”数据集的程度。 R 平方通常也称为决定系数,是响应变量中可由预测变量解释的方差的比例。

R 平方值的范围为 0 到 1。值 0 表示响应变量根本无法由预测变量解释。值为 1 表示响应变量可以由预测变量完美解释,没有错误。

实际上,您可能永远不会看到 R 平方的值为 0 或 1。相反,您可能会遇到 0 到 1 之间的值。

例如,假设您有一个数据集,其中包含 30 个不同城市的人口规模和花店数量。您可以使用人口规模作为预测变量,将花店作为响应变量,对数据集拟合一个简单的线性回归模型。在回归结果中,您可以看到 R 2 = 0.2。这表明 20% 的花店数量变化可以用人口规模来解释。

这给我们带来了一个重要的问题:这对于 R 平方来说是一个“好的”值吗?

这个问题的答案取决于您的回归模型的目标。要知道:

1.您想解释一下预测变量和响应变量之间的关系吗?

金子

2.您想预测响应变量吗?

根据目标,问题“R 平方的最佳值是多少?”的答案” 将会有所不同。

解释预测变量和响应变量之间的关系

如果回归模型的主要目标是解释预测变量和响应变量之间的关系,则 R 平方实际上是无关紧要的。

例如,假设在上面的回归示例中,您看到预测总体规模的系数为 0.005,并且具有统计显着性。这意味着某个城市人口每增加 1,花店数量平均增加 0.005。此外,人口规模是衡量城市花店数量的一个统计显着指标。

无论此回归模型的 R 平方值为 0.2 还是 0.9,都不会改变此解释。由于您只是对人口规模和花店数量之间的关系感兴趣,因此您无需过多担心模型的 R 平方值。

预测响应变量

如果您的主要目标是使用预测变量准确预测响应变量的值,那么 R 平方就很重要。

一般来说,R 平方值越大,预测变量能够更准确地预测响应变量的值。

R 平方值所需的值取决于您所需的精度。例如,在科学研究中,R 平方可能需要大于 0.95,回归模型才被认为是可靠的。在其他领域,如果数据集中存在极大的变化,则 R 平方仅为 0.3 就足够了。

要了解什么是“好的”R 平方值,您需要探索在您的特定研究领域中普遍接受的 R 平方值。如果您正在为客户或公司执行回归分析,您也许可以询问他们什么是可接受的 R 平方值。

预测区间

预测区间根据预测变量的值指定新观察值可能落入的范围。预测区间越窄表明预测变量可以更准确地预测响应变量。

通常,预测区间比 R 平方值更有用,因为它为您提供了新观察值可能落入的精确值范围。如果回归的主要目标是预测响应变量的新值,这尤其有用。

例如,假设某个特定城市的人口为 40,000,预测间隔为 30 到 35 家花店。这可能被认为是可接受的值范围,也可能不被认为是可接受的值范围,具体取决于回归模型的使用。

结论

一般来说,R 平方值越大,预测变量能够更准确地预测响应变量的值。

R 平方值必须有多好才能被视为“好”,具体取决于领域。有些领域比其他领域需要更高的精度。

要找出什么被认为是“好的”R 平方值,请考虑您所在领域普遍接受的值,询问在特定领域具有特定知识的人,或者询问客户/客户。您正在为其执行回归分析的公司。对于他们认为可以接受的事情。

如果要解释预测变量和响应变量之间的关系,R 平方在很大程度上是无关紧要的,因为它对回归模型的解释没有影响。

如果要预测响应变量,预测区间通常比 R 平方值更有用。

进一步阅读:

皮尔逊相关系数
简单线性回归简介

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注