如何解释逻辑回归模型的 c 统计量
本教程简单解释了如何解释逻辑回归模型的C 统计量。
什么是逻辑回归?
逻辑回归是一种统计方法,当响应变量是二元时,我们用它来拟合回归模型。以下是使用逻辑回归的一些示例:
- 我们想知道运动、饮食和体重如何影响心脏病发作的可能性。响应变量是心脏病发作,它有两种潜在结果:心脏病发作发生或不发生。
- 我们想知道 GPA、ACT 分数和修读的 AP 课程数量如何影响被特定大学录取的可能性。响应变量是接受,它有两种潜在结果:接受或不接受。
- 我们想知道字数和电子邮件标题是否会影响电子邮件为垃圾邮件的可能性。响应变量是垃圾邮件,它有两种潜在结果:垃圾邮件或非垃圾邮件。
请注意,预测变量可以是数值变量或分类变量;重要的是响应变量是二进制的。在这种情况下,逻辑回归是用于解释预测变量和响应变量之间关系的合适模型。
如何评估逻辑回归模型的充分性
一旦我们将逻辑回归模型拟合到数据集,我们通常会对模型与数据的拟合程度感兴趣。具体来说,我们对模型准确预测积极和消极结果的能力感兴趣。
敏感性是指当结果实际上是积极的时,模型预测观察结果为积极结果的概率。
特异性是指当结果实际上是负面的时,模型预测观察结果为负面的概率。
如果逻辑回归模型具有 100% 的敏感性和特异性,那么它非常适合对观察结果进行分类,但实际上这种情况几乎不会发生。
一旦我们拟合了逻辑回归模型,它就可以根据预测变量的值来计算给定观察结果产生积极结果的概率。
为了确定观察是否应该被分类为阳性,我们可以选择一个阈值,使得调整后的概率高于阈值的观察被分类为阳性,而所有调整后的概率低于阈值的观察被分类为阴性。 。
例如,假设我们选择阈值 0.5。这意味着任何调整概率大于 0.5 的观测值都会得到正结果,而任何调整概率小于或等于 0.5 的观测值都会得到负结果。
绘制 ROC 曲线
可视化模型的敏感性与特异性的最常见方法之一是绘制受试者工作特征 ( ROC )曲线,该曲线是敏感性值与作为阈值的特异性 1 的关系图。点从 0 到 1:
具有高灵敏度和特异性的模型将具有适合图左上角的 ROC 曲线。低灵敏度和低特异性的模型将具有接近 45 度对角线的曲线。
AUC (曲线下面积)让我们了解模型区分正结果和负结果的能力。 AUC 的范围可以从 0 到 1。AUC 越高,模型对结果进行正确分类的能力就越好。
这意味着 ROC 曲线紧贴图左上角的模型的曲线下面积较大,因此可以很好地对结果进行正确分类。相反,ROC 曲线紧贴 45 度对角线的模型的曲线下面积较小,因此该模型不能很好地对结果进行分类。
了解 C 统计量
c 统计量也称为一致性统计量,等于 AUC(曲线下面积)并具有以下解释:
- 值小于 0.5 表示模型较差。
- 值为 0.5 表示该模型在分类结果方面并不比机会更好。
- 该值越接近 1,模型就越能够正确地对结果进行分类。
- 值为 1 表示该模型非常适合对结果进行分类。
因此,C 统计量让我们了解模型在正确分类结果方面的有效性。
在临床环境中,可以通过获取所有可能的个体对(即经历阳性结果的个体和经历阴性结果的个体)来计算C统计量。然后,c 统计量可以计算为这样的对的比例,其中经历积极结果的个体比没有经历积极结果的个体具有更高的经历该结果的预测概率。
例如,假设我们使用年龄和血压等预测变量拟合逻辑回归模型来预测心脏病发作的可能性。
为了找到模型的 c 统计量,我们能够识别所有可能的个体对,包括心脏病发作的个体和未心脏病发作的个体。然后,c 统计量可以计算为这些对中,与未遭受心脏病发作的个体相比,患有心脏病的个体实际上具有更高的心脏病发作预测概率的比例。心脏病发作。
结论
在这篇文章中我们学到了以下内容:
- 逻辑回归是一种统计方法,当响应变量是二元时,我们用它来拟合回归模型。
- 为了评估逻辑回归模型的拟合优度,我们可以查看敏感性和特异性,它们告诉我们模型能够正确分类结果的程度。
- 为了可视化敏感性和特异性,我们可以创建ROC 曲线。
- AUC(曲线下面积)表示模型对结果进行正确分类的能力。当 ROC 曲线紧贴图的左上角时,表明模型已成功对结果进行分类。
- c 统计量等于 AUC(曲线下面积),并且还可以通过采用所有可能的个体对(即经历阳性结果的个体和经历阴性结果的个体)来计算。然后,c 统计量是这样的对的比例,其中经历了积极结果的个体比没有经历积极结果的个体具有更高的经历该结果的预测概率。
- C 统计量越接近 1,模型对结果的分类就越正确。