7 häufige arten der regression (und wann man sie verwendet)


Die Regressionsanalyse ist eine der am häufigsten verwendeten Techniken in der Statistik.

Das grundlegende Ziel der Regressionsanalyse besteht darin, ein Modell anzupassen, das die Beziehung zwischen einer oder mehreren Prädiktorvariablen und einer Antwortvariablen am besten beschreibt.

In diesem Artikel stellen wir die 7 im wirklichen Leben am häufigsten verwendeten Regressionsmodelle vor und geben an, wann die einzelnen Regressionstypen zu verwenden sind.

1. Lineare Regression

Mithilfe der linearen Regression wird ein Regressionsmodell angepasst, das die Beziehung zwischen einer oder mehreren Prädiktorvariablen und einer numerischen Antwortvariablen beschreibt.

Verwenden Sie, wenn:

  • Die Beziehung zwischen der/den Prädiktorvariablen und der Antwortvariablen ist einigermaßen linear.
  • Die Antwortvariable ist eine kontinuierliche numerische Variable.

Beispiel: Ein Einzelhandelsunternehmen kann ein lineares Regressionsmodell verwenden, das Werbeausgaben verwendet, um den Gesamtumsatz vorherzusagen.

Da die Beziehung zwischen diesen beiden Variablen wahrscheinlich linear ist (mehr Geld für Werbung führt im Allgemeinen zu mehr Verkäufen) und die Antwortvariable (Gesamtumsatz) eine kontinuierliche numerische Variable ist, ist es sinnvoll, ein lineares Regressionsmodell anzupassen.

Ressource: Eine Einführung in die multiple lineare Regression

2. Logistische Regression

Mithilfe der logistischen Regression wird ein Regressionsmodell angepasst, das die Beziehung zwischen einer oder mehreren Prädiktorvariablen und einer binären Antwortvariablen beschreibt.

Verwenden Sie, wenn:

  • Die Antwortvariable ist binär: Sie kann nur zwei Werte annehmen.

Beispiel: Medizinische Forscher können ein logistisches Regressionsmodell anhand von Bewegungs- und Rauchgewohnheiten anpassen, um die Wahrscheinlichkeit eines Herzinfarkts bei einer Person vorherzusagen.

Da die Antwortvariable (Herzinfarkt) binär ist – eine Person erleidet entweder einen Herzinfarkt oder nicht – ist es angemessen, ein logistisches Regressionsmodell anzupassen.

Ressource: Eine Einführung in die logistische Regression

3. Polynomielle Regression

Mithilfe der polynomialen Regression wird ein Regressionsmodell angepasst, das die Beziehung zwischen einer oder mehreren Prädiktorvariablen und einer numerischen Antwortvariablen beschreibt.

Verwenden Sie, wenn:

  • Die Beziehung zwischen der/den Prädiktorvariablen und der Antwortvariablen ist nichtlinear.
  • Die Antwortvariable ist eine kontinuierliche numerische Variable.

Beispiel: Psychologen können eine polynomielle Regression anhand der „geleisteten Stunden“ anpassen, um die „Gesamtzufriedenheit“ der Mitarbeiter in einer bestimmten Branche vorherzusagen.

Die Beziehung zwischen diesen beiden Variablen ist wahrscheinlich nichtlinear. Das heißt, mit zunehmender Stundenzahl kann eine Person von größerer Zufriedenheit berichten, jenseits einer bestimmten Anzahl geleisteter Arbeitsstunden nimmt die Gesamtzufriedenheit jedoch wahrscheinlich ab. Da diese Beziehung zwischen der Prädiktorvariablen und der Antwortvariablen nichtlinear ist, ist es sinnvoll, ein polynomiales Regressionsmodell anzupassen.

Ressource: Eine Einführung in die Polynomregression

4. Ridge-Regression

Mithilfe der Ridge-Regression wird ein Regressionsmodell angepasst, das die Beziehung zwischen einer oder mehreren Prädiktorvariablen und einer numerischen Antwortvariablen beschreibt.

Verwenden Sie, wenn:

  • Prädiktorvariablen sind stark korreliert und Multikollinearität wird zum Problem.
  • Die Antwortvariable ist eine kontinuierliche numerische Variable.

Beispiel: Ein Basketball-Datenwissenschaftler könnte ein Ridge-Regressionsmodell mithilfe von Prädiktorvariablen wie Punkten, Assists und Rebounds anpassen, um die Spielergehälter vorherzusagen.

Prädiktorvariablen sind wahrscheinlich stark korreliert, da bessere Spieler tendenziell mehr Punkte, Assists und Rebounds haben. Daher ist Multikollinearität wahrscheinlich ein Problem, daher können wir dieses Problem durch die Verwendung der Ridge-Regression minimieren.

Ressource: Eine Einführung in die Ridge-Regression

5. Lasso-Regression

Die Lasso-Regression ist der Ridge-Regression sehr ähnlich und wird zur Anpassung eines Regressionsmodells verwendet, das die Beziehung zwischen einer oder mehreren Prädiktorvariablen und einer numerischen Antwortvariablen beschreibt.

Verwenden Sie, wenn:

  • Prädiktorvariablen sind stark korreliert und Multikollinearität wird zum Problem.
  • Die Antwortvariable ist eine kontinuierliche numerische Variable.

Beispiel: Ein Wirtschaftswissenschaftler könnte ein Lasso-Regressionsmodell mithilfe von Prädiktorvariablen wie der Gesamtzahl der Schuljahre, der geleisteten Arbeitsstunden und den Lebenshaltungskosten anpassen, um das Haushaltseinkommen vorherzusagen.

Die Prädiktorvariablen sind wahrscheinlich stark korreliert, da besser ausgebildete Personen tendenziell auch in Städten mit höheren Lebenshaltungskosten leben und mehr Stunden arbeiten. Daher ist Multikollinearität wahrscheinlich ein Problem, daher können wir dieses Problem durch die Verwendung der Lasso-Regression minimieren.

Beachten Sie, dass die Lasso-Regression und die Ridge-Regression ziemlich ähnlich sind. Wenn Multikollinearität in einem Datensatz ein Problem darstellt, wird empfohlen, sowohl ein Lasso- als auch ein Ridge-Regressionsmodell anzupassen, um herauszufinden, welches Modell am besten funktioniert.

Ressource: Eine Einführung in die Lasso-Regression

6. Poisson-Regression

Die Poisson-Regression wird verwendet, um ein Regressionsmodell anzupassen, das die Beziehung zwischen einer oder mehreren Prädiktorvariablen und einer Antwortvariablen beschreibt.

Verwenden Sie, wenn:

  • Die Antwortvariable sind „Zähldaten“ – zum Beispiel die Anzahl der Sonnentage pro Woche, die Anzahl der Verkehrsunfälle pro Jahr, die Anzahl der pro Tag getätigten Anrufe usw.

Beispiel: Eine Universität kann die Poisson-Regression verwenden, um die Anzahl der Studenten zu untersuchen, die ein bestimmtes Hochschulprogramm abschließen, basierend auf ihrem GPA bei Eintritt in das Programm und ihrem Geschlecht.

Da die Antwortvariable in diesem Fall Zähldaten sind (wir können die Anzahl der Absolventen „zählen“ – 200, 250, 300, 413 usw.), ist es angemessen, die Poisson-Regression zu verwenden.

Ressource: Eine Einführung in die Poisson-Regression

7. Quantilregression

Mithilfe der Quantilregression wird ein Regressionsmodell angepasst, das die Beziehung zwischen einer oder mehreren Prädiktorvariablen und einer Antwortvariablen beschreibt.

Verwenden Sie, wenn:

  • Wir möchten ein bestimmtes Quantil oder Perzentil der Antwortvariablen schätzen – zum Beispiel das 90. Perzentil, das 95. Perzentil usw.

Beispiel: Ein Professor kann die Quantilregression verwenden, um das erwartete 90. Perzentil der Prüfungsergebnisse basierend auf der Anzahl der gelernten Stunden vorherzusagen:

Da der Professor in diesem Fall ein bestimmtes Perzentil der Antwortvariablen (Prüfungsergebnisse) vorhersagen möchte, ist es sinnvoll, die Quantilregression zu verwenden.

Ressource: Eine Einführung in die Quantilregression

Zusätzliche Ressourcen

4 Beispiele für die Verwendung der linearen Regression im wirklichen Leben
4 Beispiele für die Verwendung der logistischen Regression im wirklichen Leben
ANOVA vs. Regression: Was ist der Unterschied?
Der vollständige Leitfaden: So melden Sie Regressionsergebnisse

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert