Die 6 hypothesen der logistischen regression (mit beispielen)


Die logistische Regression ist eine Methode, mit der wir ein Regressionsmodell anpassen können, wenn die Antwortvariable binär ist.

Bevor ein Modell an einen Datensatz angepasst wird, geht die logistische Regression von den folgenden Annahmen aus:

Annahme Nr. 1: Die Antwortvariable ist binär

Bei der logistischen Regression wird davon ausgegangen, dass die Antwortvariable nur zwei mögliche Ergebnisse hat. Hier sind einige Beispiele:

  • ja oder nein
  • Männlich oder weiblich
  • Erfolg oder Misserfolg
  • Geschrieben oder ungeschrieben
  • Bösartig oder gutartig

So überprüfen Sie diese Annahme: Zählen Sie einfach die Anzahl der eindeutigen Ergebnisse, die in der Antwortvariablen auftreten. Wenn es mehr als zwei mögliche Ergebnisse gibt, müssen Sie stattdessen eine ordinale Regression durchführen.

Hypothese Nr. 2: Die Beobachtungen sind unabhängig

Bei der logistischen Regression wird davon ausgegangen, dass die Beobachtungen im Datensatz unabhängig voneinander sind. Das heißt, Beobachtungen sollten nicht aus wiederholten Messungen derselben Person stammen oder in irgendeiner Weise miteinander in Zusammenhang stehen.

So testen Sie diese Hypothese: Der einfachste Weg, diese Hypothese zu testen, besteht darin, ein Diagramm der Residuen gegen die Zeit (dh die Reihenfolge der Beobachtungen) zu erstellen und zu beobachten, ob ein zufälliger Trend vorliegt oder nicht. Wenn kein Zufallsmuster vorliegt, kann diese Annahme verletzt werden.

Hypothese Nr. 3: Es gibt keine Multikollinearität zwischen den erklärenden Variablen

Bei der logistischen Regression wird davon ausgegangen, dass zwischen den erklärenden Variablen keine ernsthafte Multikollinearität besteht.

Multikollinearität tritt auf, wenn zwei oder mehr erklärende Variablen stark miteinander korrelieren, sodass sie im Regressionsmodell keine eindeutigen oder unabhängigen Informationen liefern. Wenn der Korrelationsgrad zwischen den Variablen hoch genug ist, kann dies zu Problemen bei der Anpassung und Interpretation des Modells führen.

Angenommen, Sie möchten eine logistische Regression durchführen und dabei den maximalen vertikalen Sprung als Antwortvariable und die folgenden Variablen als erklärende Variablen verwenden:

  • Spielergröße
  • Spielergröße
  • Übungsstunden pro Tag

In diesem Fall besteht wahrscheinlich ein enger Zusammenhang zwischen Körpergröße und Schuhgröße, da größere Menschen tendenziell größere Schuhgrößen haben. Dies bedeutet, dass Multikollinearität wahrscheinlich ein Problem darstellt, wenn wir diese beiden Variablen in der Regression verwenden.

So überprüfen Sie diese Annahme: Die gebräuchlichste Methode zur Erkennung von Multikollinearität ist die Verwendung des Varianzinflationsfaktors (VIF), der die Korrelation und Stärke der Korrelation zwischen Prädiktorvariablen in einem Regressionsmodell misst. In diesem Tutorial finden Sie eine ausführliche Erklärung zur Berechnung und Interpretation von VIF-Werten.

Annahme Nr. 4: Es gibt keine extremen Ausreißer

Bei der logistischen Regression wird davon ausgegangen, dass der Datensatz keine extremen Ausreißer oder einflussreichen Beobachtungen enthält.

So überprüfen Sie diese Annahme: Die gebräuchlichste Methode zum Testen auf extreme Ausreißer und einflussreiche Beobachtungen in einem Datensatz besteht darin , die Cook-Distanz für jede Beobachtung zu berechnen. Wenn es tatsächlich Ausreißer gibt, können Sie (1) diese entfernen, (2) sie durch einen Wert wie den Mittelwert oder Median ersetzen oder (3) sie einfach im Modell belassen, sie aber beim Berichten der Regression notieren . Ergebnisse.

Hypothese Nr. 5: Es besteht eine lineare Beziehung zwischen den erklärenden Variablen und dem Logit der Antwortvariablen

Bei der logistischen Regression wird davon ausgegangen, dass zwischen jeder erklärenden Variablen und dem Logit der Antwortvariablen eine lineare Beziehung besteht. Denken Sie daran, dass der Logit wie folgt definiert ist:

Logit(p) = log(p / (1-p)) wobei p die Wahrscheinlichkeit eines positiven Ergebnisses ist.

So testen Sie diese Hypothese: Der einfachste Weg, um festzustellen, ob diese Hypothese wahr ist, ist die Verwendung eines Box-Tidwell-Tests.

Annahme Nr. 6: Die Stichprobengröße ist groß genug

Bei der logistischen Regression wird davon ausgegangen, dass die Stichprobengröße des Datensatzes groß genug ist, um gültige Schlussfolgerungen aus dem angepassten logistischen Regressionsmodell zu ziehen.

So überprüfen Sie diese Hypothese: Als Faustregel sollten Sie für jede erklärende Variable mindestens 10 Fälle mit dem seltensten Ergebnis haben. Wenn Sie beispielsweise drei erklärende Variablen haben und die erwartete Wahrscheinlichkeit des seltensten Ergebnisses 0,20 beträgt, sollten Sie eine Stichprobengröße von mindestens (10*3) / 0,20 = 150 haben.

Annahmen der logistischen Regression vs. Lineare Regression

Im Gegensatz zur linearen Regression erfordert die logistische Regression Folgendes nicht:

  • Eine lineare Beziehung zwischen der/den erklärenden Variablen und der Antwortvariablen.
  • Die Residuen des Modells sollen normalverteilt werden.
  • Residuen müssen eine konstante Varianz aufweisen, was auch als Homoskedastizität bezeichnet wird.

Verwandte Themen: Die vier Annahmen der linearen Regression

Zusätzliche Ressourcen

4 Beispiele für die Verwendung der logistischen Regression im wirklichen Leben
So führen Sie eine logistische Regression in SPSS durch
So führen Sie eine logistische Regression in Excel durch
So führen Sie eine logistische Regression in Stata durch

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert