标准化和非标准化回归系数

经过本杰明·安德森博 28 7 月, 2023 指导 0 条评论

多元线性回归是量化两个或多个预测变量与响应变量之间关系的有用方法。

通常，当我们执行多元线性回归时，得到的回归系数不是标准化的，这意味着它们使用原始数据来找到最佳拟合线。

然而，当以完全不同的尺度测量预测变量时，使用标准化数据执行多元线性回归可能会很有用，从而产生标准化系数。

为了帮助您理解这个想法，让我们看一个简单的例子。

假设我们有以下数据集，其中包含 12 栋房屋的房龄、面积和销售价格信息：

假设我们随后执行多元线性回归，使用年龄和平方英尺作为预测变量，使用价格作为响应变量。

非标准化回归系数示例

该表中的回归系数没有标准化，这意味着他们使用原始数据来拟合该回归模型。乍一看，年龄对房地产价格的影响似乎要大得多，因为回归表中的系数为-409.833 ，而预测变量square foot的系数仅为100.866 。

然而，年龄的标准误差比平方英尺的标准误差大得多，这就是为什么年龄的相应 p 值实际上较大 (p = 0.520)，而平方英尺的标准误差较小 (p = 0.000)。

回归系数存在极大差异的原因是两个变量的尺度存在极大差异：

假设我们通过将每个原始数据值转换为 z 分数来标准化原始数据：

在 Excel 中标准化数据

如果我们使用标准化数据进行多元线性回归，我们将得到以下回归结果：

标准化回归系数

该表中的回归系数是标准化的，这意味着他们使用标准化数据来拟合该回归模型。表中系数的解释方式如下：

我们立即可以看出，面积对房地产价格的影响比年龄更大。另请注意，每个预测变量的 p 值与之前的回归模型中的 p 值完全相同。

根据具体情况，标准化和非标准化回归系数都可能有用。尤其：

当您想要解释预测变量的一个单位变化对响应变量的影响时，非标准化回归系数非常有用。在上面的示例中，我们可以使用第一次回归中的非标准化回归系数来了解预测变量和响应变量之间的确切关系：

当您想要比较不同预测变量对响应变量的影响时，标准化回归系数非常有用。由于每个变量都是标准化的，因此您可以看到哪个变量对响应变量影响最大。

标准化回归系数的缺点是它们更难以解释。例如，增加一单位年龄对房地产价格的影响比增加一个标准差对房地产价格的影响更容易理解。

大家好，我是本杰明，一位退休的统计学教授，后来成为 Statorials 的热心教师。凭借在统计领域的丰富经验和专业知识，我渴望分享我的知识，通过 Statorials 增强学生的能力。了解更多