So interpretieren sie die c-statistik eines logistischen regressionsmodells


Dieses Tutorial bietet eine einfache Erklärung zur Interpretation der C-Statistik eines logistischen Regressionsmodells.

Was ist logistische Regression?

Die logistische Regression ist eine statistische Methode, die wir verwenden, um ein Regressionsmodell anzupassen, wenn die Antwortvariable binär ist. Hier sind einige Beispiele für die Verwendung der logistischen Regression:

  • Wir wollen wissen, wie sich Bewegung, Ernährung und Gewicht auf die Wahrscheinlichkeit eines Herzinfarkts auswirken. Die Antwortvariable ist Herzinfarkt und hat zwei mögliche Folgen: Es kommt zu einem Herzinfarkt oder er tritt nicht auf.
  • Wir möchten wissen, wie sich GPA, ACT-Score und die Anzahl der belegten AP-Kurse auf die Wahrscheinlichkeit auswirken, an einer bestimmten Universität angenommen zu werden. Die Antwortvariable ist Akzeptanz und hat zwei mögliche Ergebnisse: akzeptiert oder nicht akzeptiert.
  • Wir möchten wissen, ob die Wortanzahl und der E-Mail-Titel einen Einfluss auf die Wahrscheinlichkeit haben, dass es sich bei einer E-Mail um Spam handelt. Die Antwortvariable ist Spam und hat zwei mögliche Ergebnisse: Spam oder kein Spam.

Beachten Sie, dass Prädiktorvariablen numerisch oder kategorisch sein können; Wichtig ist, dass die Antwortvariable binär ist. Wenn dies der Fall ist, ist die logistische Regression ein geeignetes Modell, um die Beziehung zwischen den Prädiktorvariablen und der Antwortvariablen zu erklären.

So beurteilen Sie die Angemessenheit eines logistischen Regressionsmodells

Wenn wir ein logistisches Regressionsmodell an einen Datensatz anpassen, interessiert uns oft, wie gut das Modell zu den Daten passt. Insbesondere interessiert uns die Fähigkeit des Modells, positive und negative Ergebnisse genau vorherzusagen.

Sensitivität bezieht sich auf die Wahrscheinlichkeit, dass das Modell ein positives Ergebnis für eine Beobachtung vorhersagt, wenn das Ergebnis tatsächlich positiv ist.

Spezifität bezieht sich auf die Wahrscheinlichkeit, dass das Modell ein negatives Ergebnis für eine Beobachtung vorhersagt, obwohl das Ergebnis tatsächlich negativ ist.

Ein logistisches Regressionsmodell eignet sich perfekt zur Klassifizierung von Beobachtungen, wenn es eine 100-prozentige Sensitivität und Spezifität aufweist. In der Praxis kommt dies jedoch fast nie vor.

Sobald wir das logistische Regressionsmodell angepasst haben, kann es verwendet werden, um die Wahrscheinlichkeit zu berechnen, dass eine bestimmte Beobachtung ein positives Ergebnis hat, basierend auf den Werten der Prädiktorvariablen.

Um zu bestimmen, ob eine Beobachtung als positiv klassifiziert werden sollte, können wir einen Schwellenwert wählen, sodass Beobachtungen mit einer angepassten Wahrscheinlichkeit oberhalb des Schwellenwerts als positiv und alle Beobachtungen mit einer angepassten Wahrscheinlichkeit unterhalb des Schwellenwerts als negativ klassifiziert werden. .

Angenommen, wir wählen einen Schwellenwert von 0,5. Dies bedeutet, dass jede Beobachtung mit einer angepassten Wahrscheinlichkeit größer als 0,5 ein positives Ergebnis liefert, während jede Beobachtung mit einer angepassten Wahrscheinlichkeit kleiner oder gleich 0,5 ein negatives Ergebnis liefert.

Zeichnen der ROC-Kurve

Eine der gebräuchlichsten Methoden zur Visualisierung der Sensitivität gegenüber der Spezifität eines Modells ist die Darstellung einer ROC- Kurve (Receiver Operating Characteristic), bei der es sich um eine Darstellung der Sensitivitätswerte gegenüber der Spezifität 1 als Wert des Schwellenwerts handelt. der Punkt geht von 0 auf 1:

Ein Modell mit hoher Sensitivität und Spezifität weist eine ROC-Kurve auf, die in die obere linke Ecke des Diagramms passt. Ein Modell mit geringer Sensitivität und geringer Spezifität weist eine Kurve nahe der 45-Grad-Diagonale auf.

Die AUC (Fläche unter der Kurve) gibt uns einen Eindruck von der Fähigkeit des Modells, zwischen positiven und negativen Ergebnissen zu unterscheiden. Die AUC kann zwischen 0 und 1 liegen. Je höher die AUC, desto besser kann das Modell die Ergebnisse korrekt klassifizieren.

Das bedeutet, dass ein Modell mit einer ROC-Kurve, die die obere linke Ecke des Diagramms umschließt, eine große Fläche unter der Kurve hätte und daher ein Modell wäre, das die Ergebnisse gut korrekt klassifizieren kann. Umgekehrt hätte ein Modell mit einer ROC-Kurve, die die 45-Grad-Diagonale umschließt, eine geringe Fläche unter der Kurve und wäre daher ein Modell, das die Ergebnisse nicht gut klassifizieren kann.

Die C-Statistik verstehen

Die c-Statistik , auch Konkordanzstatistik genannt, entspricht der AUC (Fläche unter der Kurve) und hat folgende Interpretationen:

  • Ein Wert unter 0,5 weist auf ein schlechtes Modell hin.
  • Ein Wert von 0,5 gibt an, dass das Modell Ergebnisse nicht besser klassifizieren kann als der Zufall.
  • Je näher der Wert bei 1 liegt, desto besser kann das Modell die Ergebnisse korrekt klassifizieren.
  • Ein Wert von 1 bedeutet, dass das Modell perfekt zur Klassifizierung von Ergebnissen geeignet ist.

Eine C-Statistik gibt uns also eine Vorstellung davon, wie effektiv ein Modell bei der korrekten Klassifizierung von Ergebnissen ist.

In einer klinischen Umgebung ist es möglich, die C-Statistik zu berechnen, indem alle möglichen Personenpaare herangezogen werden, dh eine Person, die ein positives Ergebnis erlebt hat, und eine Person, die ein negatives Ergebnis erlebt hat. Dann kann die c-Statistik als der Anteil solcher Paare berechnet werden, bei denen die Wahrscheinlichkeit, dass die Person, die ein positives Ergebnis erlebte, höher vorhergesagt wurde, als die Person, die kein positives Ergebnis erlebte.

Angenommen, wir passen ein logistisches Regressionsmodell an, das Prädiktorvariablen wie Alter und Blutdruck verwendet, um die Wahrscheinlichkeit eines Herzinfarkts vorherzusagen.

Um die C-Statistik des Modells zu ermitteln, konnten wir alle möglichen Personenpaare identifizieren, bestehend aus einer Person, die einen Herzinfarkt hatte, und einer Person, die keinen Herzinfarkt hatte. Dann kann die c-Statistik als der Anteil dieser Paare berechnet werden, bei denen die Person, die den Herzinfarkt erlitten hat, tatsächlich eine höhere vorhergesagte Wahrscheinlichkeit hatte, einen Herzinfarkt zu erleiden, als die Person, die keinen Herzinfarkt erlitten hat. Herzinfarkt.

Abschluss

In diesem Artikel haben wir Folgendes gelernt:

  • Die logistische Regression ist eine statistische Methode, die wir verwenden, um ein Regressionsmodell anzupassen, wenn die Antwortvariable binär ist.
  • Um die Anpassungsgüte eines logistischen Regressionsmodells zu beurteilen, können wir uns die Sensitivität und Spezifität ansehen, die uns sagen, wie gut das Modell in der Lage ist, Ergebnisse korrekt zu klassifizieren.
  • Um Sensitivität und Spezifität zu visualisieren, können wir eine ROC-Kurve erstellen.
  • Die AUC (Fläche unter der Kurve) gibt an, wie gut das Modell in der Lage ist, die Ergebnisse richtig zu klassifizieren. Wenn eine ROC-Kurve die obere linke Ecke des Diagramms umschließt, zeigt dies an, dass das Modell die Ergebnisse erfolgreich klassifiziert.
  • Die c-Statistik entspricht der AUC (Fläche unter der Kurve) und kann auch berechnet werden, indem alle möglichen Paare von Personen herangezogen werden, dh eine Person, die ein positives Ergebnis erlebt hat, und eine Person, die ein negatives Ergebnis erlebt hat. Dann ist die c-Statistik der Anteil solcher Paare, bei denen die Person, die ein positives Ergebnis erlebte, eine höhere vorhergesagte Wahrscheinlichkeit hatte, das Ergebnis zu erleben, als die Person, die das positive Ergebnis nicht erlebte.
  • Je näher eine C-Statistik bei 1 liegt, desto korrekter kann ein Modell Ergebnisse klassifizieren.

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert