逻辑回归的6个假设(附例子)
当响应变量是二元时,逻辑回归是我们可以用来拟合回归模型的方法。
在将模型拟合到数据集之前,逻辑回归会做出以下假设:
假设#1:响应变量是二进制的
逻辑回归假设响应变量只有两种可能的结果。这里有些例子:
- 是还是不是
- 男女不限
- 成功或失败
- 成文或不成文
- 恶性或良性
如何检验这一假设:只需计算响应变量中出现的唯一结果的数量。如果有两个以上可能的结果,您将需要执行序数回归。
假设#2:观察结果是独立的
逻辑回归假设数据集中的观测值彼此独立。也就是说,观察结果不应来自对同一个人的重复测量,也不应以任何方式相互关联。
如何检验该假设:检验该假设的最简单方法是创建残差与时间(即观察顺序)的关系图,并观察是否存在随机趋势。如果没有随机模式,则可能会违反此假设。
假设#3:解释变量之间不存在多重共线性
当两个或多个解释变量彼此高度相关,以致它们不能在回归模型中提供唯一或独立的信息时,就会出现多重共线性。如果变量之间的相关程度足够高,则在拟合和解释模型时可能会出现问题。
例如,假设您要使用最大垂直跳跃作为响应变量并使用以下变量作为解释变量来执行逻辑回归:
- 球员尺寸
- 球员尺寸
- 每天花在练习上的时间
在这种情况下,身高和鞋码可能高度相关,因为较高的人往往有更大的鞋码。这意味着如果我们在回归中使用这两个变量,多重共线性可能会成为一个问题。
如何检查此假设:检测多重共线性的最常见方法是使用方差膨胀因子 (VIF),它衡量回归模型中预测变量之间的相关性和相关强度。查看本教程,了解如何计算和解释 VIF 值的详细说明。
假设#4:不存在极端异常值
逻辑回归假设数据集中不存在极端异常值或有影响的观察值。
如何检验这一假设:测试数据集中的极端异常值和有影响的观测值的最常见方法是计算每个观测值的库克距离。如果确实存在异常值,您可以选择 (1) 删除它们,(2) 将它们替换为均值或中位数等值,或者 (3) 只需将它们保留在模型中,但在报告回归时记下它们。结果。
假设#5:解释变量与响应变量的 logit 之间存在线性关系
逻辑回归假设每个解释变量与响应变量的 logit 之间存在线性关系。回想一下,logit 定义为:
Logit(p) = log(p / (1-p)) 其中 p 是阳性结果的概率。
如何检验该假设:检验该假设是否正确的最简单方法是使用 Box-Tidwell 检验。
假设#6:样本量足够大
逻辑回归假设数据集的样本量足够大,可以从拟合的逻辑回归模型中得出有效的结论。
如何检验这一假设:根据经验,每个解释变量应该至少有 10 个具有最不频繁结果的案例。例如,如果您有 3 个解释变量,并且最不常见结果的预期概率为 0.20,则您的样本大小应至少为 (10*3) / 0.20 = 150 。
Logistic 回归与逻辑回归的假设线性回归
与线性回归不同,逻辑回归不需要:
- 解释变量和响应变量之间的线性关系。
- 模型的残差呈正态分布。
- 残差必须具有恒定方差,也称为同方差性。
相关: 线性回归的四个假设
其他资源
现实生活中使用逻辑回归的 4 个示例
如何在 SPSS 中进行逻辑回归
如何在 Excel 中执行逻辑回归
如何在Stata中进行逻辑回归