如何在 stata 中创建和解释 roc 曲线
逻辑回归是一种统计方法,当响应变量是二元时,我们用它来拟合回归模型。为了评估逻辑回归模型对数据集的拟合程度,我们可以查看以下两个指标:
- 敏感性:当结果实际上是积极的时,模型预测观察结果为积极的概率。
- 特异性:当结果实际上为负时,模型预测观察结果为负的概率。
可视化这两个指标的一个简单方法是创建ROC 曲线,它是显示逻辑回归模型的敏感性和特异性的图表。
本教程介绍如何在 Stata 中创建和解释 ROC 曲线。
示例:Stata 中的 ROC 曲线
在此示例中,我们将使用名为lbw的数据集,其中包含 189 位母亲的以下变量:
- 低——婴儿出生体重是否低。 1 = 是,0 = 否。
- 年龄——母亲的年龄。
- 吸烟——母亲在怀孕期间是否吸烟。 1 = 是,0 = 否。
我们将使用年龄和吸烟作为解释变量,使用低出生体重作为响应变量,对数据拟合逻辑回归模型。接下来,我们将创建一条 ROC 曲线来分析模型对数据的拟合程度。
步骤1:加载并显示数据。
使用以下命令加载数据:
使用https://www.stata-press.com/data/r13/lbw
使用以下命令快速了解数据集:
总结一下
数据集中有 11 个不同的变量,但我们唯一感兴趣的三个是低水平、年龄和吸烟。
步骤2:拟合逻辑回归模型。
使用以下命令来拟合逻辑回归模型:
低年龄烟雾 Logit
步骤 3:创建 ROC 曲线。
我们可以使用以下命令为模型创建 ROC 曲线:
洛克
步骤 4:解释 ROC 曲线。
当我们拟合逻辑回归模型时,它可以根据预测变量的值来计算给定观察结果产生积极结果的概率。
为了确定观察是否应该被分类为阳性,我们可以选择一个阈值,使得调整后的概率高于阈值的观察被分类为阳性,而所有调整后的概率低于阈值的观察被分类为阴性。 。
例如,假设我们选择阈值 0.5。这意味着任何调整概率大于 0.5 的观测值都会得到正结果,而任何调整概率小于或等于 0.5 的观测值都会得到负结果。
ROC 曲线向我们展示了阈值从 0 变化到 1 时的灵敏度值与特异性 1。具有高灵敏度和特异性的模型将具有紧贴图左上角的 ROC 曲线。低灵敏度和低特异性的模型将具有接近 45 度对角线的曲线。
AUC (曲线下面积)让我们了解模型区分正结果和负结果的能力。 AUC 的范围可以从 0 到 1。AUC 越高,模型对结果进行正确分类的能力就越好。在我们的示例中,我们可以看到 AUC 为0.6111 。
我们可以使用 AUC 来比较两个或多个模型的性能。 AUC 最高的模型表现最好。