什么是好的 r 平方值?
R 平方衡量线性回归模型“拟合”数据集的程度。 R 平方通常也称为决定系数,是响应变量中可由预测变量解释的方差的比例。
R 平方值的范围为 0 到 1。值 0 表示响应变量根本无法由预测变量解释。值为 1 表示响应变量可以由预测变量完美解释,没有错误。
实际上,您可能永远不会看到 R 平方的值为 0 或 1。相反,您可能会遇到 0 到 1 之间的值。
例如,假设您有一个数据集,其中包含 30 个不同城市的人口规模和花店数量。您可以使用人口规模作为预测变量,将花店作为响应变量,对数据集拟合一个简单的线性回归模型。在回归结果中,您可以看到 R 2 = 0.2。这表明 20% 的花店数量变化可以用人口规模来解释。
这给我们带来了一个重要的问题:这对于 R 平方来说是一个“好的”值吗?
这个问题的答案取决于您的回归模型的目标。要知道:
1.您想解释一下预测变量和响应变量之间的关系吗?
金子
2.您想预测响应变量吗?
根据目标,问题“R 平方的最佳值是多少?”的答案” 将会有所不同。
解释预测变量和响应变量之间的关系
如果回归模型的主要目标是解释预测变量和响应变量之间的关系,则 R 平方实际上是无关紧要的。
例如,假设在上面的回归示例中,您看到预测总体规模的系数为 0.005,并且具有统计显着性。这意味着某个城市人口每增加 1,花店数量平均增加 0.005。此外,人口规模是衡量城市花店数量的一个统计显着指标。
无论此回归模型的 R 平方值为 0.2 还是 0.9,都不会改变此解释。由于您只是对人口规模和花店数量之间的关系感兴趣,因此您无需过多担心模型的 R 平方值。
预测响应变量
如果您的主要目标是使用预测变量准确预测响应变量的值,那么 R 平方就很重要。
一般来说,R 平方值越大,预测变量能够更准确地预测响应变量的值。
R 平方值所需的值取决于您所需的精度。例如,在科学研究中,R 平方可能需要大于 0.95,回归模型才被认为是可靠的。在其他领域,如果数据集中存在极大的变化,则 R 平方仅为 0.3 就足够了。
要了解什么是“好的”R 平方值,您需要探索在您的特定研究领域中普遍接受的 R 平方值。如果您正在为客户或公司执行回归分析,您也许可以询问他们什么是可接受的 R 平方值。
预测区间
预测区间根据预测变量的值指定新观察值可能落入的范围。预测区间越窄表明预测变量可以更准确地预测响应变量。
通常,预测区间比 R 平方值更有用,因为它为您提供了新观察值可能落入的精确值范围。如果回归的主要目标是预测响应变量的新值,这尤其有用。
例如,假设某个特定城市的人口为 40,000,预测间隔为 30 到 35 家花店。这可能被认为是可接受的值范围,也可能不被认为是可接受的值范围,具体取决于回归模型的使用。
结论
一般来说,R 平方值越大,预测变量能够更准确地预测响应变量的值。
R 平方值必须有多好才能被视为“好”,具体取决于领域。有些领域比其他领域需要更高的精度。
要找出什么被认为是“好的”R 平方值,请考虑您所在领域普遍接受的值,询问在特定领域具有特定知识的人,或者询问客户/客户。您正在为其执行回归分析的公司。对于他们认为可以接受的事情。
如果要解释预测变量和响应变量之间的关系,R 平方在很大程度上是无关紧要的,因为它对回归模型的解释没有影响。
如果要预测响应变量,预测区间通常比 R 平方值更有用。
进一步阅读: