Mse 对比rmse:您应该使用哪个指标?
回归模型用于量化一个或多个预测变量与响应变量之间的关系。
每当我们拟合回归模型时,我们都想了解模型能够如何很好地使用预测变量的值来预测响应变量的值。
我们经常用来量化模型对数据集的拟合程度的两个指标是均方误差 (MSE) 和均方根误差 (RMSE),其计算如下:
MSE :一种告诉我们数据集中预测值与实际值之间的均方根差异的指标。 MSE 越低,模型越适合数据集。
MSE = Σ(ŷ i – y i ) 2 / n
金子:
- Σ是一个符号,意思是“和”
- ŷ i是第 i个观测值的预测值
- y i是第 i 个观测值的观测值
- n 是样本量
RMSE :一种度量,告诉我们数据集中预测值与实际值之间的均方根差的平方根。 RMSE 越低,模型越适合数据集。
计算方法如下:
RMSE = √ Σ(ŷ i – y i ) 2 / n
金子:
- Σ是一个符号,意思是“和”
- ŷ i是第 i个观测值的预测值
- y i是第 i 个观测值的观测值
- n 是样本量
请注意,公式几乎相同。事实上,均方误差只是均方误差的平方根。
RMSE 对比MSE:您应该使用哪个指标?
为了评估模型对数据集的拟合程度,我们更经常使用 RMSE,因为它的测量单位与响应变量相同。
相反,MSE 以响应变量的平方单位来测量。
为了说明这一点,假设我们使用回归模型来预测 10 名球员在篮球比赛中得分多少分。
下表显示了模型预测的得分与球员实际得分的比较:
我们将计算均方误差 (MSE),如下所示:
- MSE = Σ(ŷ i – y i ) 2 / n
- MSE = ((14-12) 2 +(15-15) 2 +(18-20) 2 +(19-16) 2 +(25-20) 2 +(18-19) 2 +(12-16) 2 +(12-20) 2 +(15-16) 2 +(22-16) 2 ) / 10
- 均方误差 = 16
均方根误差为16。这告诉我们模型预测值与实际值之间的均方根差为16。
均方根误差 (RMSE) 只是 MSE 的平方根:
- ADE = √ EQM
- 均方根误差 = √ 16
- 均方根误差 = 4
均方误差为4。这告诉我们预测得分与实际得分之间的平均偏差为 4。
请注意,解释均方误差比均方误差简单得多,因为我们谈论的是“得分”而不是“得分平方”。
如何在实践中使用 RMSE
在实践中,我们通常将多个回归模型拟合到数据集并计算每个模型的均方根误差(RMSE)。
然后,我们选择 RMSE 值最低的模型作为“最佳”模型,因为它的预测最接近数据集中的实际值。
请注意,我们还可以比较每个模型的 MSE 值,但 RMSE 更容易解释,因此使用得更频繁。