Rmse 与 r 平方:您应该使用哪个指标?
回归模型用于量化一个或多个预测变量与响应变量之间的关系。
每当我们拟合回归模型时,我们都想了解模型“拟合”数据的程度。换句话说,模型能够如何很好地使用预测变量的值来预测响应变量的值?
统计学家经常用来量化模型对数据集的拟合程度的两个指标是均方根误差 (RMSE) 和 R 平方 ( R2 ),其计算公式如下:
RMSE :一个指标,告诉我们数据集中的预测值与观测值的平均差距有多大。 RMSE 越低,模型越适合数据集。
计算方法如下:
RMSE = √ Σ(P i – O i ) 2 / n
金子:
- Σ是一个符号,意思是“和”
- P i是第 i 个观测值的预测值
- O i是第 i 个观测值的观测值
- n 是样本量
R 2 :一个度量,告诉我们回归模型的响应变量中有多少方差可以由预测变量解释。该值介于 0 和 1 之间。R 2值越高,模型对一组数据的拟合效果越好。
计算方法如下:
R2 = 1 – (RSS/TSS)
金子:
- RSS表示残差的平方和
- TSS表示总平方和
RMSE 与 R 2 :您应该使用哪个指标?
在评估模型与数据集的拟合度时,计算RMSE值和 R 2值非常有用,因为每个指标都告诉我们不同的信息。
一方面,RMSE 告诉我们回归模型的预测值与真实值之间的典型距离。
另一方面,R 2告诉我们预测变量可以在多大程度上解释响应变量的变化。
例如,假设我们有以下数据集,显示某个城市的房屋信息:
现在假设我们要使用平方英尺、浴室数量和卧室数量来预测房屋的价格。
我们可以采用以下回归模型:
价格 = β 0 + β 1 (平方英尺)+ β 2 (浴室数量)+ β 3 (卧室数量)
现在假设我们拟合这个模型,然后计算以下指标来评估模型的拟合优度:
- 均方根误差:14.342
- R2 :0.856
RMSE值告诉我们,模型预测房价与实际房价之间的平均差异为 14,342 美元。
R 2值告诉我们,模型的预测变量(平方英尺、浴室数量和卧室数量)能够解释 85.6% 的房价变化。
为了确定这些值是否“好”,我们可以将这些测量值与替代模型进行比较。
例如,假设我们拟合另一个使用不同预测变量集的回归模型,并计算该模型的以下指标:
- 均方根误差:19.355
- R2 :0.765
我们可以看到这个模型的 RMSE 值比之前的模型要高。还可以看出,该模型的R 2值低于之前模型的R 2 值。这告诉我们,这个模型对数据的拟合程度不如之前的模型。
概括
以下是本文提出的要点:
- RMSE 和 R 2量化回归模型对数据集的拟合程度。
- RMSE 告诉我们回归模型以绝对值预测响应变量值的能力,而 R 2告诉我们模型以百分比值预测响应变量值的能力。
- 计算给定模型的 RMSE 和R2非常有用,因为每个指标都为我们提供了有用的信息。