标准化和非标准化回归系数
多元线性回归是量化两个或多个预测变量与响应变量之间关系的有用方法。
通常,当我们执行多元线性回归时,得到的回归系数不是标准化的,这意味着它们使用原始数据来找到最佳拟合线。
然而,当以完全不同的尺度测量预测变量时,使用标准化数据执行多元线性回归可能会很有用,从而产生标准化系数。
为了帮助您理解这个想法,让我们看一个简单的例子。
示例:标准化和非标准化回归系数
假设我们有以下数据集,其中包含 12 栋房屋的房龄、面积和销售价格信息:
假设我们随后执行多元线性回归,使用年龄和平方英尺作为预测变量,使用价格作为响应变量。
这是回归的结果:
该表中的回归系数没有标准化,这意味着他们使用原始数据来拟合该回归模型。乍一看,年龄对房地产价格的影响似乎要大得多,因为回归表中的系数为-409.833 ,而预测变量square foot的系数仅为100.866 。
然而,年龄的标准误差比平方英尺的标准误差大得多,这就是为什么年龄的相应 p 值实际上较大 (p = 0.520),而平方英尺的标准误差较小 (p = 0.000)。
回归系数存在极大差异的原因是两个变量的尺度存在极大差异:
- 年龄值范围为 4 至 44 岁。
- 平方英尺值范围从 1,200 到 2,800。
假设我们通过将每个原始数据值转换为 z 分数来标准化原始数据:
如果我们使用标准化数据进行多元线性回归,我们将得到以下回归结果:
该表中的回归系数是标准化的,这意味着他们使用标准化数据来拟合该回归模型。表中系数的解释方式如下:
- 假设面积保持不变,年龄增加 1 个标准差与房价下降0.092 个标准差相关。
- 假设年龄保持不变,平方英尺每增加 1 个标准差,房价就会增加0.885 个标准差。
我们立即可以看出,面积对房地产价格的影响比年龄更大。另请注意,每个预测变量的 p 值与之前的回归模型中的 p 值完全相同。
何时使用标准化或非标准化回归系数
根据具体情况,标准化和非标准化回归系数都可能有用。尤其:
当您想要解释预测变量的一个单位变化对响应变量的影响时,非标准化回归系数非常有用。在上面的示例中,我们可以使用第一次回归中的非标准化回归系数来了解预测变量和响应变量之间的确切关系:
- 假设面积保持不变,房龄增加一单元,房价平均下降409 美元。该系数在统计上不显着 (p=0.520)。
- 假设房龄保持不变,每平方英尺增加一单位,房价平均上涨100 美元。该系数也被发现具有统计显着性(p=0.000)。
当您想要比较不同预测变量对响应变量的影响时,标准化回归系数非常有用。由于每个变量都是标准化的,因此您可以看到哪个变量对响应变量影响最大。
标准化回归系数的缺点是它们更难以解释。例如,增加一单位年龄对房地产价格的影响比增加一个标准差对房地产价格的影响更容易理解。