了解回归分析中的异方差性
在回归分析中,异方差(有时拼写为异方差)是指残差或误差项的不等离差。更准确地说,这是残差分布在测量值范围内发生系统变化的情况。
异方差是一个问题,因为普通最小二乘 (OLS) 回归假设残差来自具有同方差的总体,即方差恒定。
当回归分析中存在异方差时,分析结果变得难以相信。具体来说,异方差增加了回归系数估计值的方差,但回归模型并未考虑到这一点。
这使得回归模型更有可能声称模型中的某个项具有统计显着性,而实际上并非如此。
本教程介绍了如何检测异方差、异方差的原因以及解决异方差问题的潜在方法。
如何检测异方差性
检测异方差的最简单方法是使用拟合值/残差图。
将回归线拟合到数据集后,您可以创建一个散点图,显示模型的拟合值与这些拟合值的残差。
下面的散点图显示了拟合值与残差的典型图,其中存在异方差性。
请注意,随着拟合值的增加,残差如何越来越分散。这种“圆锥”形状是异方差性的明显标志。
异方差的原因是什么?
异方差性自然发生在存在广泛观测数据值的数据集中。例如:
- 考虑一个数据集,其中包括美国 10 万人的年收入和支出。对于收入较低的人来说,相应支出的波动性会较低,因为这些人可能只有足够的钱来支付必需品。对于收入较高的人来说,相应的支出会有更大的可变性,因为如果他们愿意的话,这些人将有更多的钱可以花。一些收入较高的人会选择花掉大部分收入,而另一些人会选择节俭,只花一部分。因此,这些高收入人群的支出波动性本质上会更高。
- 考虑一个包含美国 1,000 个不同城市的人口和花店数量的数据集。对于人口稀少的城镇,通常只有一到两家花店。但在人口较多的城市,花店的数量会更加不稳定。这些城镇可能有 10 到 100 家商店。这意味着,当我们创建回归分析并使用人口来预测花店数量时,人口较多的城市的残差本质上会存在更大的变异性。
有些数据集比其他数据集更容易出现异方差。
如何修复异方差
校正异方差的常用方法有以下三种:
1. 变换因变量
校正异方差的一种方法是以某种方式转换因变量。常见的转换是简单地取因变量的对数。
例如,如果我们使用人口规模(自变量)来预测城市中花店的数量(因变量),我们可以尝试使用人口规模来预测城镇中花店数量的对数。
使用因变量的对数而不是原始因变量通常会导致异方差消失。
2. 重新定义因变量
纠正异方差的另一种方法是重新定义因变量。一种常见的方法是使用因变量的比率,而不是原始值。
例如,我们可以使用人口规模来预测人均花店数量,而不是使用人口规模来预测一个城市的花店数量。
在大多数情况下,这减少了较大人群中自然发生的变异性,因为我们测量的是每人的花店数量,而不是花店本身的数量。
3.使用加权回归
校正异方差的另一种方法是使用加权回归。这种类型的回归根据拟合值的方差为每个数据点分配权重。
本质上,这为具有较高方差的数据点赋予了较低的权重,从而减少了它们的残差平方。当使用适当的权重时,可以消除异方差问题。
结论
在回归分析中,异方差性是一个相当常见的问题,因为许多数据集本质上都受到非恒定方差的影响。
然而,通过使用拟合值图与残差图,可以很容易地发现异方差性。
而通过变换因变量、重新定义因变量或使用加权回归,异方差问题往往可以被消除。