Regressione logistica
Questo articolo spiega cos’è la regressione logistica nelle statistiche. Allo stesso modo, troverai la formula di regressione logistica, quali sono i diversi tipi di regressione logistica e, inoltre, un esercizio di regressione logistica risolto.
Cos’è la regressione logistica?
In statistica, la regressione logistica è un tipo di modello di regressione utilizzato per prevedere il risultato di una variabile categoriale . Cioè, la regressione logistica viene utilizzata per modellare la probabilità che una variabile categoriale assuma un determinato valore in base alle variabili indipendenti.
Il modello di regressione logistica più comune è la regressione logistica binaria, in cui ci sono solo due possibili risultati: “fallimento” o “successo” ( distribuzione di Bernoulli ). Il “fallimento” è rappresentato dal valore 0, mentre il “successo” è rappresentato dal valore 1.
Ad esempio, la probabilità che uno studente superi un esame in base alle ore trascorse a studiare può essere studiata utilizzando un modello di regressione logistica. In questo caso, il fallimento sarebbe il risultato del “fallimento” e, d’altro canto, il successo sarebbe il risultato del “successo”.
Formula di regressione logistica
L’equazione per un modello di regressione logistica è:
Pertanto, in un modello di regressione logistica, la probabilità di ottenere il risultato “successo”, cioè che la variabile dipendente assuma valore 1, si calcola con la seguente formula:
Oro:
-
è la probabilità che la variabile dipendente sia 1.
-
è la costante del modello di regressione logistica.
-
è il coefficiente di regressione della variabile i.
-
è il valore della variabile i.
Esempio di modello di regressione logistica
Ora che conosciamo la definizione di regressione logistica, vediamo un esempio concreto di come creare un modello di questo tipo di regressione.
- Nella tabella seguente sono stati raccolti una serie di 20 dati che riguardano le ore di studio di ciascuno studente e se ha superato o meno un esame di statistica. Esegui un modello di regressione logistica e calcola la probabilità che uno studente passi l’esame se studia per 4 ore.
In questo caso, la variabile esplicativa è il numero di ore di studio e la variabile di risposta è se lo studente è stato bocciato (0) o superato (1). Pertanto nel nostro modello avremo solo il coefficiente
e il coefficiente
, poiché esiste una sola variabile indipendente.
La determinazione manuale dei coefficienti di regressione è molto laboriosa, quindi si consiglia di utilizzare un software per computer come Minitab. Pertanto, i valori dei coefficienti di regressione calcolati utilizzando Minitab sono i seguenti:
Il modello di regressione logistica è quindi il seguente:
Di seguito è possibile vedere graficamente i dati di esempio e l’equazione del modello di regressione logistica:
Pertanto, per calcolare la probabilità che uno studente abbia successo se ha studiato 4 ore, è sufficiente utilizzare l’equazione ottenuta dal modello di regressione logistica:
In breve, se uno studente studia per quattro ore, avrà l’86,99% di probabilità di superare l’esame.
Tipi di regressione logistica
Esistono tre tipi di regressione logistica :
- Regressione logistica binaria : la variabile dipendente può avere solo due valori (0 e 1).
- Regressione logistica multinomiale : la variabile dipendente ha più di due valori possibili.
- Regressione logistica ordinale : i possibili risultati hanno un ordine naturale.
Regressione logistica e regressione lineare
Infine, riassumendo, vedremo qual è la differenza tra una regressione logistica e una regressione lineare, poiché il modello di regressione più utilizzato in statistica è il modello lineare.
La regressione lineare viene utilizzata per modellare le variabili dipendenti numeriche. Inoltre, nella regressione lineare, la relazione tra le variabili esplicative e la variabile di risposta è lineare.
Pertanto, la principale differenza tra regressione logistica e regressione lineare è il tipo di variabile dipendente. In una regressione logistica, la variabile dipendente è categoriale, mentre la variabile dipendente in una regressione lineare è numerica.
Pertanto, la regressione logistica viene utilizzata per prevedere un risultato tra due possibili opzioni, mentre la regressione lineare aiuta a prevedere un risultato numerico.