统计学中的等方差假设是什么?
许多统计检验都做出等方差的假设。如果不遵守此假设,测试结果将变得不可靠。
做出等方差假设的最常见的统计测试和程序包括:
1. 方差分析
2.t检验
3. 线性回归
本教程解释了每个测试所做的假设、如何确定是否满足该假设以及如果违反该假设该怎么办。
方差分析中方差相等的假设
ANOVA (“方差分析”)用于确定三个或更多独立组的平均值之间是否存在显着差异。
以下是我们何时可以使用方差分析的示例:
假设我们招募 90 人参加减肥实验。我们随机分配 30 个人使用方案 A、B 或 C 一个月。
为了了解该计划是否对减肥有影响,我们可以执行单向方差分析。
方差分析假设每个组具有相等的方差。有两种方法可以检验这个假设是否成立:
1. 创建箱线图。
箱线图提供了一种直观的方式来验证方差齐性的假设。
每组体重减轻的方差可以通过每个箱线图的长度来观察。盒子越长,方差就越大。例如,我们可以看到,与计划 A 和计划 B 相比,计划 C 的参与者的方差稍高一些。
2. 执行巴特利特检验。
Bartlett 检验测试样本具有相等方差的原假设与样本不具有相等方差的备择假设。
如果检验的 p 值低于一定的显着性水平(例如 0.05),则我们有证据表明样本并非全部具有相等的方差。
如果不满足等方差假设会发生什么?
一般来说,只要每组具有相同的样本量,方差分析就被认为对违反等方差假设相当稳健。
但是,如果样本大小不相同并且严重违反了这一假设,您可以改为运行Kruskal-Wallis 检验,这是单向方差分析的非参数版本。
t 检验中的等方差假设
双样本 t 检验用于检验两个总体的均值是否相等。
该检验假设两组之间的方差相等。有两种方法可以检验这个假设是否成立:
1. 使用比率经验法则。
一般来说,如果最大方差与最小方差之比小于4,那么我们可以假设方差近似相等,并使用双样本t检验。
例如,假设样本 1 的方差为 24.5,样本 2 的方差为 15.2。最大样本方差与最小样本方差之比计算如下:24.5 / 15.2 = 1.61。
该比率小于 4,可以假设两组之间的差异大致相等。
2. 执行 F 检验。
F 检验测试样本具有相等方差的原假设与样本不具有相等方差的备择假设。
如果检验的 p 值低于一定的显着性水平(例如 0.05),则我们有证据表明样本并非全部具有相等的方差。
如果不满足等方差假设会发生什么?
如果违反了这个假设,那么我们可以执行Welch t 检验,它是双样本 t 检验的非参数版本,并且不假设两个样本具有相等的方差。
线性回归中的等方差假设
线性回归用于量化一个或多个预测变量与响应变量之间的关系。
线性回归假设残差在预测变量的每个水平上具有恒定方差。这称为同方差性。如果情况并非如此,残差就会受到异方差的影响,回归分析的结果就会变得不可靠。
确定是否满足此假设的最常见方法是创建残差与拟合值的关系图。如果该图中的残差似乎随机分散在零附近,则可能满足同方差性假设。
但是,如果残差存在系统趋势,如下图所示的“圆锥”形状,则异方差性就是一个问题:
如果不满足等方差假设会发生什么?
如果违反此假设,解决该问题的最常见方法是使用以下三种变换之一来变换响应变量:
1. 对数变换:将响应变量从 y 变换为log(y) 。
2. 平方根变换:将响应变量从 y 变换为√y 。
3. 立方根变换:将响应变量从 y 变换为y 1/3 。
通过执行这些转换,异方差问题通常会消失。
校正异方差的另一种方法是使用 加权最小二乘回归。这种类型的回归根据拟合值的方差为每个数据点分配权重。
本质上,这为具有较高方差的数据点赋予了较低的权重,从而减少了它们的残差平方。当使用适当的权重时,可以消除异方差问题。