So interpretieren sie eine roc-kurve (mit beispielen)
Die logistische Regression ist eine statistische Methode, die wir verwenden, um ein Regressionsmodell anzupassen, wenn die Antwortvariable binär ist. Um zu bewerten, wie gut ein logistisches Regressionsmodell zu einem Datensatz passt, können wir uns die folgenden zwei Metriken ansehen:
- Sensitivität: Wahrscheinlichkeit, dass das Modell ein positives Ergebnis für eine Beobachtung vorhersagt, obwohl das Ergebnis tatsächlich positiv ist.
- Spezifität: Wahrscheinlichkeit, dass das Modell ein negatives Ergebnis für eine Beobachtung vorhersagt, obwohl das Ergebnis tatsächlich negativ ist.
Eine einfache Möglichkeit, diese beiden Metriken zu visualisieren, besteht darin, eine ROC-Kurve zu erstellen, bei der es sich um ein Diagramm handelt, das die Sensitivität und Spezifität eines logistischen Regressionsmodells anzeigt.
In diesem Tutorial wird erläutert, wie Sie eine ROC-Kurve erstellen und interpretieren.
So erstellen Sie eine ROC-Kurve
Sobald wir ein logistisches Regressionsmodell angepasst haben, können wir das Modell verwenden, um Beobachtungen in eine von zwei Kategorien zu klassifizieren.
Beispielsweise könnten wir Beobachtungen als „positiv“ oder „negativ“ klassifizieren.
Die wahre Positivrate stellt den Anteil der Beobachtungen dar, die positiv sein sollten, wenn sie es tatsächlich sind.
Umgekehrt stellt die Falsch-Positiv-Rate den Anteil der Beobachtungen dar, die positiv sein sollten, aber tatsächlich negativ sind.
Wenn wir eine ROC-Kurve erstellen, zeichnen wir die Paare der Richtig-Positiv-Rate gegenüber der Falsch-Positiv-Rate für jeden möglichen Entscheidungsschwellenwert eines logistischen Regressionsmodells auf.
So interpretieren Sie eine ROC-Kurve
Je näher die ROC-Kurve an der oberen linken Ecke des Diagramms liegt, desto besser kann das Modell die Daten in Kategorien einteilen.
Um dies zu quantifizieren, können wir die AUC (Fläche unter der Kurve) berechnen, die uns sagt, wie viel von der Handlung unter der Kurve liegt.
Je näher die AUC bei 1 liegt, desto besser ist das Modell.
Ein Modell mit einer AUC von 0,5 wäre eine perfekt diagonale Linie und würde ein Modell darstellen, das nicht besser ist als ein Modell, das zufällige Klassifizierungen durchführt.
Es ist besonders nützlich, die AUC für mehrere logistische Regressionsmodelle zu berechnen, da wir so erkennen können, welches Modell am besten Vorhersagen treffen kann.
Angenommen, wir passen drei verschiedene logistische Regressionsmodelle an und zeichnen die folgenden ROC-Kurven für jedes Modell:
Angenommen, wir berechnen die AUC für jedes Modell wie folgt:
- Modell A: AUC = 0,923
- Modell B: AUC = 0,794
- Modell C: AUC = 0,588
Modell A hat die höchste AUC, was darauf hinweist, dass es die größte Fläche unter der Kurve hat und das beste Modell für die korrekte Klassifizierung von Beobachtungen in Kategorien ist.
Zusätzliche Ressourcen
In den folgenden Tutorials wird erläutert, wie Sie ROC-Kurven mit unterschiedlicher Statistiksoftware erstellen: