Rmse 与 r 平方：您应该使用哪个指标？

经过本杰明·安德森博 24 7 月, 2023 指导 0 条评论

回归模型用于量化一个或多个预测变量与响应变量之间的关系。

每当我们拟合回归模型时，我们都想了解模型“拟合”数据的程度。换句话说，模型能够如何很好地使用预测变量的值来预测响应变量的值？

统计学家经常用来量化模型对数据集的拟合程度的两个指标是均方根误差 (RMSE) 和 R 平方 ( ^R2 )，其计算公式如下：

RMSE ：一个指标，告诉我们数据集中的预测值与观测值的平均差距有多大。 RMSE 越低，模型越适合数据集。

计算方法如下：

RMSE = √ Σ(P _i – O _i ) ² / n

金子：

R ² ：一个度量，告诉我们回归模型的响应变量中有多少方差可以由预测变量解释。该值介于 0 和 1 之间。R ²值越高，模型对一组数据的拟合效果越好。

计算方法如下：

^R2 = 1 – (RSS/TSS)

金子：

在评估模型与数据集的拟合度时，计算RMSE值和 R ²值非常有用，因为每个指标都告诉我们不同的信息。

一方面，RMSE 告诉我们回归模型的预测值与真实值之间的典型距离。

另一方面，R ²告诉我们预测变量可以在多大程度上解释响应变量的变化。

例如，假设我们有以下数据集，显示某个城市的房屋信息：

现在假设我们要使用平方英尺、浴室数量和卧室数量来预测房屋的价格。

我们可以采用以下回归模型：

价格 = β ₀ + β ₁ （平方英尺）+ β ₂ （浴室数量）+ β ₃ （卧室数量）

现在假设我们拟合这个模型，然后计算以下指标来评估模型的拟合优度：

RMSE值告诉我们，模型预测房价与实际房价之间的平均差异为 14,342 美元。

R ²值告诉我们，模型的预测变量（平方英尺、浴室数量和卧室数量）能够解释 85.6% 的房价变化。

为了确定这些值是否“好”，我们可以将这些测量值与替代模型进行比较。

例如，假设我们拟合另一个使用不同预测变量集的回归模型，并计算该模型的以下指标：

我们可以看到这个模型的 RMSE 值比之前的模型要高。还可以看出，该模型的R ²值低于之前模型的R 2 值。这告诉我们，这个模型对数据的拟合程度不如之前的模型。

以下是本文提出的要点：

大家好，我是本杰明，一位退休的统计学教授，后来成为 Statorials 的热心教师。凭借在统计领域的丰富经验和专业知识，我渴望分享我的知识，通过 Statorials 增强学生的能力。了解更多