什么是锦葵? cp? (定义和示例)


Mallows Cp是用于在多个不同模型中选择最佳回归模型的度量。

计算方法如下:

Cp = RSS p /S 2 – N + 2(P+1)

金子:

  • RSS p :具有p 个预测变量的模型的残差平方和
  • S 2 :模型的残差均方(通过MSE估计)
  • N:样本量
  • P:预测变量的数量

当我们有几个想要在回归模型中使用的潜在预测变量并且想要确定使用这些预测变量子集的最佳模型时,请使用 Mallows Cp。

我们可以通过识别 Cp 值小于 P+1 的最低模型来识别“最佳”回归模型,其中 P 是模型中预测变量的数量。

以下示例演示如何使用 Mallows’ Cp 从多个潜在模型中选择最佳回归模型。

示例:使用 Mallows Cp 选择最佳模型

假设教授希望使用学习时间、参加的预备考试和当前累积 GPA 作为回归模型中的预测变量来预测学生在期末考试中的成绩。

它适合七个不同的回归模型并计算每个模型的 Mallows Cp 值:

使用 Mallows Cp 选择最佳回归模型

如果 Mallows’ Cp 的值小于模型系数的数量 (P+1),则该模型被认为是无偏的。

我们可以看到有两个公正的模型:

  • 以小时数和 GPA 作为预测变量的模型(Mallows’ Cp = 2.9,P+1 = 3)
  • 以预科考试和 GPA 作为预测变量的模型(Mallows’ Cp = 2.7,P+1 = 3)

在这两个模型中,使用预科考试和 GPA 作为预测变量的模型的 Mallows Cp 值最低,这告诉我们这是导致偏差最小的更好模型。

关于 Cp des mauves 的注释

关于 Mallows Cp 需要注意以下几点:

  • Mallows Cp 值接近 P+1 的模型被认为具有低偏差。
  • 如果每个潜在模型具有较高的 Mallows Cp 值,则表明每个模型中可能缺少一些重要的预测变量。
  • 如果多个潜在模型的 Mallow’s Cp 值较低,请选择值最低的模型作为要使用的最佳模型。

另请记住,Mallows 的 Cp 只是衡量回归模型拟合优度的一种方法。

另一个常用的度量是调整后的 R 平方,它告诉我们响应变量中可以由模型中的预测变量解释的方差比例,并根据所使用的预测变量的数量进行调整。

要从几个不同模型的列表中确定哪种回归模型最好,最好同时查看 Mallows 的 Cp 和调整后的 R 平方。

其他资源

如何在 R 中计算 Mallows Cp
如何计算 R 中调整后的 R 平方

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注