逻辑回归的6个假设（附例子）

经过本杰明·安德森博 7月 27, 2023 指导 0 条评论

当响应变量是二元时，逻辑回归是我们可以用来拟合回归模型的方法。

在将模型拟合到数据集之前，逻辑回归会做出以下假设：

逻辑回归假设响应变量只有两种可能的结果。这里有些例子：

如何检验这一假设：只需计算响应变量中出现的唯一结果的数量。如果有两个以上可能的结果，您将需要执行序数回归。

逻辑回归假设数据集中的观测值彼此独立。也就是说，观察结果不应来自对同一个人的重复测量，也不应以任何方式相互关联。

如何检验该假设：检验该假设的最简单方法是创建残差与时间（即观察顺序）的关系图，并观察是否存在随机趋势。如果没有随机模式，则可能会违反此假设。

逻辑回归假设解释变量之间不存在严重的多重共线性。

当两个或多个解释变量彼此高度相关，以致它们不能在回归模型中提供唯一或独立的信息时，就会出现多重共线性。如果变量之间的相关程度足够高，则在拟合和解释模型时可能会出现问题。

例如，假设您要使用最大垂直跳跃作为响应变量并使用以下变量作为解释变量来执行逻辑回归：

在这种情况下，身高和鞋码可能高度相关，因为较高的人往往有更大的鞋码。这意味着如果我们在回归中使用这两个变量，多重共线性可能会成为一个问题。

如何检查此假设：检测多重共线性的最常见方法是使用方差膨胀因子 (VIF)，它衡量回归模型中预测变量之间的相关性和相关强度。查看本教程，了解如何计算和解释 VIF 值的详细说明。

逻辑回归假设数据集中不存在极端异常值或有影响的观察值。

如何检验这一假设：测试数据集中的极端异常值和有影响的观测值的最常见方法是计算每个观测值的库克距离。如果确实存在异常值，您可以选择 (1) 删除它们，(2) 将它们替换为均值或中位数等值，或者 (3) 只需将它们保留在模型中，但在报告回归时记下它们。结果。

逻辑回归假设每个解释变量与响应变量的 logit 之间存在线性关系。回想一下，logit 定义为：

Logit(p) = log(p / (1-p)) 其中 p 是阳性结果的概率。

如何检验该假设：检验该假设是否正确的最简单方法是使用 Box-Tidwell 检验。

逻辑回归假设数据集的样本量足够大，可以从拟合的逻辑回归模型中得出有效的结论。

如何检验这一假设：根据经验，每个解释变量应该至少有 10 个具有最不频繁结果的案例。例如，如果您有 3 个解释变量，并且最不常见结果的预期概率为 0.20，则您的样本大小应至少为 (10*3) / 0.20 = 150 。

与线性回归不同，逻辑回归不需要：

相关： 线性回归的四个假设

大家好，我是本杰明，一位退休的统计学教授，后来成为 Statorials 的热心教师。凭借在统计领域的丰富经验和专业知识，我渴望分享我的知识，通过 Statorials 增强学生的能力。了解更多