什么被认为是良好的 rmse 值?
评估回归模型对数据集的拟合程度的一种方法是计算均方误差,它告诉我们模型的预测值与数据集的实际值之间的平均距离。数据。
求均方误差的公式(通常缩写为RMSE )为:
RMSE = √ Σ(P i – O i ) 2 / n
金子:
- Σ 是一个奇特的符号,意思是“和”
- P i是数据集中第 i 个观测值的预测值
- O i是数据集中第 i 个观测值的观测值
- n 是样本量
人们经常问的一个问题是:什么是好的 RMSE 值?
简短的回答:这取决于。
RMSE 越低,给定模型就越能“拟合”数据集。但是,您正在使用的数据集的范围对于确定给定 RMSE 值是否“低”非常重要。
例如,考虑以下场景:
场景一:我们想用回归模型来预测某个城市的房价。假设模型的 RMSE 值为 500 美元。由于典型的房价范围在 70,000 美元到 300,000 美元之间,因此该 RMSE 值极低。这告诉我们该模型能够准确预测房地产价格。
场景 2:现在假设我们要使用回归模型来预测一个人在某个城市每月会花多少钱。假设模型的 RMSE 值为 500 美元。如果典型的每月支出范围在 1,500 美元到 4,000 美元之间,则此 RMSE 值相当高。这告诉我们,该模型无法非常准确地预测每月费用。
这些简单的例子表明,不存在通用的“良好”RMSE 值。这完全取决于您正在使用的数据集的值范围。
RMSE 值标准化
更好地了解某个 RMSE 值是否“良好”的一种方法是使用以下公式对其进行标准化:
归一化 RMSE = RMSE /(最大值 – 最小值)
这会产生一个介于 0 和 1 之间的值,其中接近 0 的值表示拟合效果更好的模型。
例如,假设我们的 RMSE 值为 500 美元,我们的值范围为 70,000 美元到 300,000 美元。我们将按如下方式计算归一化 RMSE 值:
- 标准化 RMSE = $500 / ($300,000 – $70,000) = 0.002
相反,假设 RMSE 值为 500 美元,值范围在 1,500 美元到 4,000 美元之间。我们将按如下方式计算归一化 RMSE 值:
- 标准化 RMSE = $500 / ($4,000 – $1,500) = 0.2 。
第一个标准化的 RMSE 值要低得多,这表明与第二个标准化的 RMSE 值相比,它可以更好地拟合数据。
模型间RMSE比较
我们可以简单地比较多个模型的 RMSE 值,而不是选择任意数字来代表“好的”RMSE 值。
例如,假设我们拟合三种不同的回归模型来预测房地产价格。假设这三个模型具有以下 RMSE 值:
- 模型 1 RMSE: 550 美元
- 型号 2 RMSE: 480 美元
- 模型 3 RMSE: 1,400 美元
由于模型 2 的 RMSE 值最低,因此我们选择模型 2 作为预测房地产价格的最佳模型,因为该模型的预测价格与实际价格之间的平均距离最小。
其他资源
如何解释 RMSE
如何在 Excel 中计算 RMSE
如何在 R 中计算 RMSE
如何用 Python 计算 RMSE
均方根误差计算器