Logistische regression vs. lineare regression: die hauptunterschiede

Von Dr. Benjamin Anderson Juli 24, 2023 Führung Keine Kommentare

Zwei der am häufigsten verwendeten Regressionsmodelle sind die lineare Regression und die logistische Regression .

Beide Arten von Regressionsmodellen werden verwendet, um die Beziehung zwischen einer oder mehreren Prädiktorvariablen und einer Antwortvariablen zu quantifizieren. Es gibt jedoch einige wesentliche Unterschiede zwischen den beiden Modellen:

logistische Regression vs. lineare Regression

Hier ist eine Zusammenfassung der Unterschiede:

Unterschied Nr. 1: Antwortvariablentyp

Ein lineares Regressionsmodell wird verwendet, wenn die Antwortvariable einen kontinuierlichen Wert annimmt, sodass:

Preis
Höhe
Alter
Distanz

Umgekehrt wird ein logistisches Regressionsmodell verwendet, wenn die Antwortvariable einen kategorialen Wert annimmt, wie zum Beispiel:

ja oder nein
Männlich oder weiblich
Gewinnen oder nicht gewinnen

Unterschied Nr. 2: verwendete Gleichung

Die lineare Regression verwendet die folgende Gleichung, um die Beziehung zwischen der/den Prädiktorvariablen und der Antwortvariablen zusammenzufassen:

Y = β ₀ + β ₁ X ₁ ₊ β ₂ X ₂ + … + β _p

Gold:

Y: die Antwortvariable
X _j : die j ^-te Vorhersagevariable
β _j : Die durchschnittliche Auswirkung einer Erhöhung von X _j um eine Einheit auf Y, wobei alle anderen Prädiktoren unverändert bleiben

Umgekehrt verwendet die logistische Regression die folgende Gleichung:

p(X) = e ^{β ₀ + _β ₁ _X ₁ ₊ _β} ^{₂ _X ₂ ₊ _… ₊ _β} p

Diese Gleichung wird verwendet, um die Wahrscheinlichkeit vorherzusagen, dass eine einzelne Beobachtung in eine bestimmte Kategorie fällt.

Unterschied Nr. 3: Methode zur Anpassung der Gleichung

Die lineare Regression verwendet eine Methode, die als gewöhnliche kleinste Quadrate bekannt ist, um die am besten passende Regressionsgleichung zu finden.

Umgekehrt verwendet die logistische Regression eine Methode namens Maximum-Likelihood-Schätzung , um die am besten passende Regressionsgleichung zu finden.

Unterschied Nr. 4: Die Ausgabe muss vorhergesagt werden

Die lineare Regression sagt einen kontinuierlichen Wert als Ausgabe voraus. Zum Beispiel:

Preis (150 $, 199 $, 400 $ usw.)
Höhe (14 Zoll, 2 Fuß, 94,32 Zentimeter usw.)
Alter (2 Monate, 6 Jahre, 41,5 Jahre usw.)
Entfernung (1,23 Meilen, 4,5 Kilometer usw.)

Umgekehrt sagt die logistische Regression Wahrscheinlichkeiten als Ergebnis voraus. Zum Beispiel:

40,3 % Chance auf Aufnahme an einer Universität.
93,2 % Chance, ein Spiel zu gewinnen.
34,2 % Chance, dass ein Gesetz verabschiedet wird.

Wann sollte eine logistische oder lineare Regression verwendet werden?

Die folgenden Übungsaufgaben können Ihnen helfen, besser zu verstehen, wann Sie die logistische Regression oder die lineare Regression verwenden sollten.

Problem Nr. 1: Jahreseinkommen

Angenommen, ein Ökonom möchte Prädiktorvariablen (1) wöchentliche Arbeitsstunden und (2) Bildungsjahre verwenden, um das Jahreseinkommen von Einzelpersonen vorherzusagen.

In diesem Szenario würde er die lineare Regression verwenden, da die Antwortvariable (Jahreseinkommen) kontinuierlich ist.

Problem Nr. 2: Hochschulakzeptanz

Angenommen, ein Hochschulzulassungsbeamter möchte die Prädiktorvariablen (1) GPA und (2) ACT-Score verwenden, um die Wahrscheinlichkeit vorherzusagen, mit der ein Student an einer bestimmten Universität angenommen wird.

In diesem Szenario würde sie die logistische Regression verwenden, da die Antwortvariable kategorisch ist und nur zwei Werte annehmen kann: akzeptiert oder nicht akzeptiert.

Problem Nr. 3: Immobilienpreise

Angenommen, ein Immobilienmakler möchte die Prädiktorvariablen (1) Quadratmeterzahl, (2) Anzahl der Schlafzimmer und (3) Anzahl der Badezimmer verwenden, um die Verkaufspreise von Häusern vorherzusagen.

In diesem Szenario würde sie die lineare Regression verwenden, da die Antwortvariable (Preis) kontinuierlich ist.

Problem Nr. 4: Spam-Erkennung

Angenommen, ein Computerprogrammierer möchte die Prädiktorvariablen (1) Wortanzahl und (2) Herkunftsland verwenden, um die Wahrscheinlichkeit vorherzusagen, dass es sich bei einer bestimmten E-Mail um Spam handelt.

In diesem Szenario würde die logistische Regression verwendet, da die Antwortvariable kategorisch ist und nur zwei Werte annehmen kann: Spam oder kein Spam.

Zusätzliche Ressourcen

Die folgenden Tutorials bieten weitere Details zur linearen Regression:

Die folgenden Tutorials bieten weitere Details zur logistischen Regression:

Über den Autor

Dr. Benjamin Anderson

Hallo, ich bin Benjamin, ein pensionierter Statistikprofessor, der sich zum engagierten Statorials-Lehrer entwickelt hat. Mit umfassender Erfahrung und Fachwissen auf dem Gebiet der Statistik bin ich bestrebt, mein Wissen zu teilen, um Studenten durch Statorials zu befähigen. Mehr wissen

Wann sollte eine logistische oder lineare Regression verwendet werden?

Zusätzliche Ressourcen

Über den Autor

Dr. Benjamin Anderson

Einen Kommentar hinzufügen