Regressione logistica vs regressione lineare: le principali differenze


Due dei modelli di regressione più comunemente utilizzati sono la regressione lineare e la regressione logistica .

Entrambi i tipi di modelli di regressione vengono utilizzati per quantificare la relazione tra una o più variabili predittive e una variabile di risposta , ma esistono alcune differenze chiave tra i due modelli:

regressione logistica vs regressione lineare

Ecco un riepilogo delle differenze:

Differenza n. 1: tipo di variabile di risposta

Un modello di regressione lineare viene utilizzato quando la variabile di risposta assume un valore continuo tale che:

  • Prezzo
  • Altezza
  • Età
  • Distanza

Al contrario, un modello di regressione logistica viene utilizzato quando la variabile di risposta assume un valore categoriale come:

  • sì o no
  • Maschio o femmina
  • Vincere o non vincere

Differenza n. 2: equazione utilizzata

La regressione lineare utilizza la seguente equazione per riassumere la relazione tra le variabili predittive e la variabile di risposta:

Y = β 0 + β 1 X 1 + β 2 X 2 + … + β p

Oro:

  • Y: la variabile di risposta
  • X j : la j- esima variabile predittiva
  • β j : L’effetto medio su Y di un aumento di un’unità in X j , mantenendo fissi tutti gli altri predittori

Al contrario, la regressione logistica utilizza la seguente equazione:

p(X) = 0 + β 1 X 1 + β 2 X 2 + + β p

Questa equazione viene utilizzata per prevedere la probabilità che una singola osservazione rientri in una determinata categoria.

Differenza n. 3: metodo utilizzato per adattare l’equazione

La regressione lineare utilizza un metodo noto come minimi quadrati ordinari per trovare l’equazione di regressione più adatta.

Al contrario, la regressione logistica utilizza un metodo noto come stima di massima verosimiglianza per trovare l’equazione di regressione più adatta.

Differenza n. 4: output da prevedere

La regressione lineare prevede un valore continuo come output. Per esempio:

  • Prezzo ($150, $199, $400, ecc.)
  • Altezza (14 pollici, 2 piedi, 94,32 centimetri, ecc.)
  • Età (2 mesi, 6 anni, 41,5 anni, ecc.)
  • Distanza (1,23 miglia, 4,5 chilometri, ecc.)

Al contrario, la regressione logistica prevede le probabilità come risultato. Per esempio:

  • 40,3% di possibilità di essere accettato in un’università.
  • 93,2% di possibilità di vincere una partita.
  • 34,2% di probabilità che venga adottata una legge.

Quando utilizzare la regressione logistica o lineare

I seguenti problemi pratici possono aiutarti a comprendere meglio quando utilizzare la regressione logistica o la regressione lineare.

Problema n. 1: reddito annuo

Supponiamo che un economista voglia utilizzare variabili predittive (1) ore settimanali lavorate e (2) anni di istruzione per prevedere il reddito annuale degli individui.

In questo scenario utilizzerebbe la regressione lineare perché la variabile di risposta (reddito annuo) è continua.

Problema n. 2: accettazione al college

Supponiamo che un funzionario addetto alle ammissioni al college desideri utilizzare le variabili predittive (1) GPA e (2) punteggio ACT per prevedere la probabilità che uno studente venga accettato in una determinata università.

In questo scenario utilizzerebbe la regressione logistica perché la variabile di risposta è categoriale e può assumere solo due valori: accettato o non accettato.

Problema n. 3: prezzi degli immobili

Supponiamo che un agente immobiliare desideri utilizzare le variabili predittive (1) metratura, (2) numero di camere da letto e (3) numero di bagni per prevedere i prezzi di vendita delle case.

In questo scenario utilizzerebbe la regressione lineare perché la variabile di risposta (prezzo) è continua.

Problema n. 4: rilevamento dello spam

Supponiamo che un programmatore di computer voglia utilizzare le variabili predittive (1) conteggio delle parole e (2) paese di origine per prevedere la probabilità che una determinata email sia spam.

In questo scenario, utilizzerebbe la regressione logistica perché la variabile di risposta è categoriale e può assumere solo due valori: spam o non spam.

Risorse addizionali

I seguenti tutorial offrono maggiori dettagli sulla regressione lineare:

Le seguenti esercitazioni offrono maggiori dettagli sulla regressione logistica:

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *