了解回归分析中的异方差性

经过本杰明·安德森博 29 7 月, 2023 指导 0 条评论

在回归分析中，异方差（有时拼写为异方差）是指残差或误差项的不等离差。更准确地说，这是残差分布在测量值范围内发生系统变化的情况。

异方差是一个问题，因为普通最小二乘 (OLS) 回归假设残差来自具有同方差的总体，即方差恒定。

当回归分析中存在异方差时，分析结果变得难以相信。具体来说，异方差增加了回归系数估计值的方差，但回归模型并未考虑到这一点。

这使得回归模型更有可能声称模型中的某个项具有统计显着性，而实际上并非如此。

本教程介绍了如何检测异方差、异方差的原因以及解决异方差问题的潜在方法。

如何检测异方差性

检测异方差的最简单方法是使用拟合值/残差图。

将回归线拟合到数据集后，您可以创建一个散点图，显示模型的拟合值与这些拟合值的残差。

下面的散点图显示了拟合值与残差的典型图，其中存在异方差性。

请注意，随着拟合值的增加，残差如何越来越分散。这种“圆锥”形状是异方差性的明显标志。

异方差性自然发生在存在广泛观测数据值的数据集中。例如：

考虑一个数据集，其中包括美国 10 万人的年收入和支出。对于收入较低的人来说，相应支出的波动性会较低，因为这些人可能只有足够的钱来支付必需品。对于收入较高的人来说，相应的支出会有更大的可变性，因为如果他们愿意的话，这些人将有更多的钱可以花。一些收入较高的人会选择花掉大部分收入，而另一些人会选择节俭，只花一部分。因此，这些高收入人群的支出波动性本质上会更高。
考虑一个包含美国 1,000 个不同城市的人口和花店数量的数据集。对于人口稀少的城镇，通常只有一到两家花店。但在人口较多的城市，花店的数量会更加不稳定。这些城镇可能有 10 到 100 家商店。这意味着，当我们创建回归分析并使用人口来预测花店数量时，人口较多的城市的残差本质上会存在更大的变异性。

有些数据集比其他数据集更容易出现异方差。

校正异方差的常用方法有以下三种：

校正异方差的一种方法是以某种方式转换因变量。常见的转换是简单地取因变量的对数。

例如，如果我们使用人口规模（自变量）来预测城市中花店的数量（因变量），我们可以尝试使用人口规模来预测城镇中花店数量的对数。

使用因变量的对数而不是原始因变量通常会导致异方差消失。

纠正异方差的另一种方法是重新定义因变量。一种常见的方法是使用因变量的比率，而不是原始值。

例如，我们可以使用人口规模来预测人均花店数量，而不是使用人口规模来预测一个城市的花店数量。

在大多数情况下，这减少了较大人群中自然发生的变异性，因为我们测量的是每人的花店数量，而不是花店本身的数量。

校正异方差的另一种方法是使用加权回归。这种类型的回归根据拟合值的方差为每个数据点分配权重。

本质上，这为具有较高方差的数据点赋予了较低的权重，从而减少了它们的残差平方。当使用适当的权重时，可以消除异方差问题。

在回归分析中，异方差性是一个相当常见的问题，因为许多数据集本质上都受到非恒定方差的影响。

然而，通过使用拟合值图与残差图，可以很容易地发现异方差性。

而通过变换因变量、重新定义因变量或使用加权回归，异方差问题往往可以被消除。

大家好，我是本杰明，一位退休的统计学教授，后来成为 Statorials 的热心教师。凭借在统计领域的丰富经验和专业知识，我渴望分享我的知识，通过 Statorials 增强学生的能力。了解更多