So erstellen und interpretieren sie eine roc-kurve in stata


Die logistische Regression ist eine statistische Methode, die wir verwenden, um ein Regressionsmodell anzupassen, wenn die Antwortvariable binär ist. Um zu bewerten, wie gut ein logistisches Regressionsmodell zu einem Datensatz passt, können wir uns die folgenden zwei Metriken ansehen:

  • Sensitivität: Die Wahrscheinlichkeit, dass das Modell ein positives Ergebnis für eine Beobachtung vorhersagt, wenn das Ergebnis tatsächlich positiv ist.
  • Spezifität: Die Wahrscheinlichkeit, dass das Modell ein negatives Ergebnis für eine Beobachtung vorhersagt, obwohl das Ergebnis tatsächlich negativ ist.

Eine einfache Möglichkeit, diese beiden Metriken zu visualisieren, besteht darin, eine ROC-Kurve zu erstellen, bei der es sich um ein Diagramm handelt, das die Sensitivität und Spezifität eines logistischen Regressionsmodells anzeigt.

In diesem Tutorial wird erläutert, wie Sie eine ROC-Kurve in Stata erstellen und interpretieren.

Beispiel: ROC-Kurve in Stata

Für dieses Beispiel verwenden wir einen Datensatz namens lbw , der die folgenden Variablen für 189 Mütter enthält:

  • niedrig – unabhängig davon, ob das Baby ein niedriges Geburtsgewicht hat oder nicht. 1 = ja, 0 = nein.
  • Alter – Alter der Mutter.
  • Rauchen – unabhängig davon, ob die Mutter während der Schwangerschaft geraucht hat oder nicht. 1 = ja, 0 = nein.

Wir werden ein logistisches Regressionsmodell an die Daten anpassen, wobei wir Alter und Rauchen als erklärende Variablen und niedriges Geburtsgewicht als Antwortvariable verwenden. Als Nächstes erstellen wir eine ROC-Kurve, um zu analysieren, wie gut das Modell zu den Daten passt.

Schritt 1: Daten laden und anzeigen.

Laden Sie die Daten mit dem folgenden Befehl:

Verwenden Sie https://www.stata-press.com/data/r13/lbw

Verschaffen Sie sich mit dem folgenden Befehl einen schnellen Überblick über den Datensatz:

zusammenfassen

Datensatz zu niedrigem Geburtsgewicht in Stata

Der Datensatz enthält 11 verschiedene Variablen, aber die einzigen drei, die uns interessieren, sind niedriges Niveau, Alter und Rauchen.

Schritt 2: Passen Sie das logistische Regressionsmodell an.

Verwenden Sie den folgenden Befehl, um das logistische Regressionsmodell anzupassen:

Rauch im niedrigen Alter Logit

Logistische Regressionsausgabe in Stata

Schritt 3: Erstellen Sie die ROC-Kurve.

Mit dem folgenden Befehl können wir die ROC-Kurve für das Modell erstellen:

lroc

ROC-Kurve in Stata

Schritt 4: Interpretieren Sie die ROC-Kurve.

Wenn wir ein logistisches Regressionsmodell anpassen, kann es verwendet werden, um die Wahrscheinlichkeit zu berechnen, dass eine bestimmte Beobachtung ein positives Ergebnis hat, basierend auf den Werten der Prädiktorvariablen.

Um zu bestimmen, ob eine Beobachtung als positiv klassifiziert werden sollte, können wir einen Schwellenwert wählen, sodass Beobachtungen mit einer angepassten Wahrscheinlichkeit oberhalb des Schwellenwerts als positiv und alle Beobachtungen mit einer angepassten Wahrscheinlichkeit unterhalb des Schwellenwerts als negativ klassifiziert werden. .

Angenommen, wir wählen einen Schwellenwert von 0,5. Dies bedeutet, dass jede Beobachtung mit einer angepassten Wahrscheinlichkeit größer als 0,5 ein positives Ergebnis liefert, während jede Beobachtung mit einer angepassten Wahrscheinlichkeit kleiner oder gleich 0,5 ein negatives Ergebnis liefert.

Die ROC-Kurve zeigt uns die Sensitivitätswerte gegenüber der Spezifität 1, wenn sich der Schwellenwert von 0 auf 1 ändert. Ein Modell mit hoher Sensitivität und Spezifität weist eine ROC-Kurve auf, die sich an der oberen linken Ecke des Diagramms befindet. Ein Modell mit geringer Sensitivität und geringer Spezifität weist eine Kurve nahe der 45-Grad-Diagonale auf.

Die AUC (Fläche unter der Kurve) gibt uns einen Eindruck von der Fähigkeit des Modells, zwischen positiven und negativen Ergebnissen zu unterscheiden. Die AUC kann zwischen 0 und 1 liegen. Je höher die AUC, desto besser kann das Modell die Ergebnisse korrekt klassifizieren. In unserem Beispiel können wir sehen, dass die AUC 0,6111 beträgt.

Wir können AUC verwenden, um die Leistung von zwei oder mehr Modellen zu vergleichen. Das Modell mit der höchsten AUC schneidet am besten ab.

Zusätzliche Ressourcen

So führen Sie eine logistische Regression in Stata durch
So interpretieren Sie die ROC-Kurve und die AUC eines logistischen Regressionsmodells

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert