如何确定回归模型中的显着变量


拟合多元线性回归模型后,您会问自己的主要问题之一是:哪些变量是重要的?

不应使用两种方法来确定变量的含义:

1. 回归系数的值

给定预测变量的回归系数告诉您与该预测变量增加一个单位相关的响应变量的平均变化。

然而,模型中的每个预测变量通常以不同的尺度进行测量。因此,通过比较回归系数的绝对值来确定哪些变量最重要是没有意义的。

2.回归系数的p值

回归系数的 p 值可以告诉您给定的预测变量与响应变量是否具有统计上显着的关联,但它们无法告诉您给定的预测变量在现实世界中是否实际上显着。

由于样本量较大或变异性较低,P 值也可能较低,这实际上并不能告诉我们给定的预测变量在实践中是否有意义。

但是,您应该使用两种方法来确定变量的含义:

1.标准化回归系数

通常,当我们执行多元线性回归时,模型输出中得到的回归系数不是标准化的,这意味着它们使用原始数据来找到最佳拟合线。

但是,可以标准化每个预测变量和响应变量(通过从原始值中减去每个变量的平均值,然后除以变量的标准差),然后运行回归,这会导致标准化回归系数

通过标准化模型中的每个变量,每个变量都以相同的尺度进行测量。因此,比较结果中回归系数的绝对值以了解哪些变量对响应变量影响最大是有意义的。

2. 主题专业知识

虽然 p 值可以告诉您给定的预测变量和响应变量之间是否存在统计上显着的影响,但需要主题专业知识来确认预测变量是否实际上相关并且实际上应该包含在模型中。

以下示例展示了如何在实践中确定回归模型中的重要变量。

示例:如何确定回归模型中的重要变量

假设我们有以下数据集,其中包含 12 栋房屋的房龄、面积和销售价格信息:

假设我们随后执行多元线性回归,使用年龄平方英尺作为预测变量,使用价格作为响应变量。

我们收到以下结果:

非标准化回归系数示例

该表中的回归系数没有标准化,这意味着他们使用原始数据来拟合该回归模型。

乍一看,年龄对房地产价格的影响似乎要大得多,因为回归表中的系数为-409.833 ,而预测变量square foot的系数仅为100.866

然而,年龄的标准误差比平方英尺的标准误差大得多,这就是为什么年龄的相应 p 值实际上较大 (p = 0.520),而平方英尺的标准误差较小 (p = 0.000)。

回归系数存在极大差异的原因是两个变量的尺度存在极大差异:

  • 年龄值范围为 4 至 44 岁。
  • 平方英尺值范围从 1,200 到 2,800。

假设我们对原始数据进行标准化

在 Excel 中标准化数据

如果我们使用标准化数据进行多元线性回归,我们将得到以下回归结果:

标准化回归系数

该表中的回归系数是标准化的,这意味着他们使用标准化数据来拟合该回归模型。

表中系数的解释方式如下:

  • 假设面积保持不变,年龄增加 1 个标准差与房价下降0.092 个标准差相关。
  • 假设年龄保持不变,平方英尺每增加 1 个标准差,房价就会增加0.885 个标准差。

我们现在可以看到,面积对房价的影响比年龄更大。

注意:每个预测变量的 p 值与之前的回归模型中的 p 值完全相同。

在决定使用哪种最终模型时,我们现在知道,在预测房屋价格方面,平方英尺比房屋年龄更重要。

最终,我们需要根据有关住房和房地产价格的现有知识,利用我们的主题专业知识来确定最终模型中包含哪些变量。

其他资源

以下教程提供有关回归模型的其他信息:

如何阅读和解释回归表
如何解释回归系数
如何解释线性回归中的P值

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注