So erstellen sie eine roc-kurve in excel (schritt für schritt)
Die logistische Regression ist eine statistische Methode, die wir verwenden, um ein Regressionsmodell anzupassen, wenn die Antwortvariable binär ist. Um zu bewerten, wie gut ein logistisches Regressionsmodell zu einem Datensatz passt, können wir uns die folgenden zwei Metriken ansehen:
- Sensitivität: Wahrscheinlichkeit, dass das Modell ein positives Ergebnis für eine Beobachtung vorhersagt, obwohl das Ergebnis tatsächlich positiv ist. Dies wird auch als „True-Positive-Rate“ bezeichnet.
- Spezifität: Die Wahrscheinlichkeit, dass das Modell ein negatives Ergebnis für eine Beobachtung vorhersagt, obwohl das Ergebnis tatsächlich negativ ist. Dies wird auch als „echte Negativrate“ bezeichnet.
Eine Möglichkeit, diese beiden Messungen zu visualisieren, besteht darin, eine ROC-Kurve zu erstellen, die für „Receiver Operating Characteristic“-Kurve steht. Dies ist ein Diagramm, das die Sensitivität und Spezifität eines logistischen Regressionsmodells anzeigt.
Das folgende Schritt-für-Schritt-Beispiel zeigt, wie Sie eine ROC-Kurve in Excel erstellen und interpretieren.
Schritt 1: Geben Sie die Daten ein
Beginnen wir mit der Eingabe einiger Rohdaten:
Schritt 2: Berechnen Sie die kumulierten Daten
Dann verwenden wir die folgende Formel, um die kumulativen Werte für die Kategorien „Bestanden“ und „Nicht bestanden“ zu berechnen:
- Kumulative Erfolgswerte: =SUM($B$3:B3)
- Kumulative Fehlerwerte: =SUM($C$3:C3)
Anschließend kopieren wir diese Formeln und fügen sie in jede Zelle in Spalte D und Spalte E ein:
Schritt 3: Berechnen Sie die Falsch-Positiv-Rate und die Richtig-Positiv-Rate
Als Nächstes berechnen wir die Falsch-Positiv-Rate (FPR), die Richtig-Positiv-Rate (TPR) und die Fläche unter der Kurve (AUC) mithilfe der folgenden Formeln:
- FPR: =1-D3/$D$14
- TPR: =1-E3/$E$14
- ASC: =(F3-F4)*G3
Anschließend kopieren wir diese Formeln und fügen sie in jede Zelle der Spalten F, G und H ein:
Schritt 4: Erstellen Sie die ROC-Kurve
Um die ROC-Kurve zu erstellen, markieren wir jeden Wert im Bereich F3:G14 .
Als Nächstes klicken wir im oberen Menüband auf die Registerkarte „Einfügen“ und dann auf „Punkt einfügen (X, Y)“ , um den folgenden Pfad zu erstellen:
Schritt 5: Berechnen Sie die AUC
Je näher die Kurve an der oberen linken Ecke des Diagramms liegt, desto besser kann das Modell die Daten in Kategorien einteilen.
Wie wir der obigen Grafik entnehmen können, gelingt es diesem logistischen Regressionsmodell sehr gut, die Daten in Kategorien zu klassifizieren.
Um dies zu quantifizieren, können wir die AUC (Fläche unter der Kurve) berechnen, die uns sagt, wie viel von der Handlung unter der Kurve liegt.
Je näher die AUC bei 1 liegt, desto besser ist das Modell. Ein Modell mit einer AUC von 0,5 ist nicht besser als ein Modell, das zufällige Klassifizierungen durchführt.
Um die AUC der Kurve zu berechnen, können wir einfach alle Werte in Spalte H addieren:
Die AUC beträgt 0,802662 . Dieser Wert ist ziemlich hoch, was darauf hindeutet, dass das Modell die Daten gut in die Kategorien „Bestanden“ und „Nicht bestanden“ einteilen kann.
Zusätzliche Ressourcen
In den folgenden Tutorials wird erläutert, wie Sie andere gängige Diagramme in Excel erstellen:
So zeichnen Sie ein CDF in Excel
So erstellen Sie eine Überlebenskurve in Excel
So erstellen Sie ein statistisches Prozesskontrolldiagramm in Excel