Le 6 ipotesi di regressione logistica (con esempi)


La regressione logistica è un metodo che possiamo utilizzare per adattare un modello di regressione quando la variabile di risposta è binaria.

Prima di adattare un modello a un set di dati, la regressione logistica parte dai seguenti presupposti:

Presupposto n. 1: la variabile di risposta è binaria

La regressione logistica presuppone che la variabile di risposta abbia solo due possibili risultati. Ecco alcuni esempi:

  • sì o no
  • Maschio o femmina
  • Riuscire o fallire
  • Scritto o non scritto
  • Maligno o benigno

Come verificare questo presupposto: contare semplicemente il numero di risultati unici che si verificano nella variabile di risposta. Se i risultati possibili sono più di due, sarà necessario eseguire invece una regressione ordinale .

Ipotesi n.2: le osservazioni sono indipendenti

La regressione logistica presuppone che le osservazioni nel set di dati siano indipendenti l’una dall’altra. Cioè, le osservazioni non dovrebbero provenire da misurazioni ripetute dello stesso individuo o essere correlate tra loro in alcun modo.

Come testare questa ipotesi: Il modo più semplice per testare questa ipotesi è creare un grafico dei residui rispetto al tempo (cioè l’ordine delle osservazioni) e osservare se esiste o meno una tendenza casuale. Se non esiste uno schema casuale, questa ipotesi potrebbe essere violata.

Ipotesi n.3: non esiste multicollinearità tra le variabili esplicative

La regressione logistica presuppone che non vi sia una seria multicollinearità tra le variabili esplicative .

La multicollinearità si verifica quando due o più variabili esplicative sono altamente correlate tra loro, in modo tale da non fornire informazioni uniche o indipendenti nel modello di regressione. Se il grado di correlazione tra le variabili è sufficientemente elevato, ciò può causare problemi durante l’adattamento e l’interpretazione del modello.

Ad esempio, supponiamo di voler eseguire una regressione logistica utilizzando il salto verticale massimo come variabile di risposta e le seguenti variabili come variabili esplicative:

  • Dimensioni del giocatore
  • Dimensioni del giocatore
  • Ore trascorse a esercitarsi al giorno

In questo caso, l’altezza e il numero di scarpe sono probabilmente altamente correlati poiché le persone più alte tendono ad avere numeri di scarpe più grandi. Ciò significa che la multicollinearità sarà probabilmente un problema se utilizziamo queste due variabili nella regressione.

Come verificare questo presupposto: il modo più comune per rilevare la multicollinearità è utilizzare il fattore di inflazione della varianza (VIF), che misura la correlazione e la forza della correlazione tra le variabili predittive in un modello di regressione. Dai un’occhiata a questo tutorial per una spiegazione dettagliata su come calcolare e interpretare i valori VIF.

Presupposto n. 4: non esistono valori anomali estremi

La regressione logistica presuppone che non vi siano valori anomali estremi o osservazioni influenti nel set di dati.

Come verificare questo presupposto: il modo più comune per verificare la presenza di valori anomali estremi e osservazioni influenti in un set di dati è calcolare la distanza di Cook per ciascuna osservazione. Se sono effettivamente presenti valori anomali, è possibile scegliere di (1) rimuoverli, (2) sostituirli con un valore come la media o la mediana o (3) semplicemente mantenerli nel modello ma prenderne nota quando si riporta la regressione . risultati.

Ipotesi n. 5: esiste una relazione lineare tra le variabili esplicative e il logit della variabile di risposta

La regressione logistica presuppone che esista una relazione lineare tra ciascuna variabile esplicativa e la logit della variabile di risposta. Ricordiamo che il logit è definito come:

Logit(p) = log(p / (1-p)) dove p è la probabilità di un risultato positivo.

Come verificare questa ipotesi: il modo più semplice per verificare se questa ipotesi è vera è utilizzare un test di Box-Tidwell.

Presupposto n. 6: la dimensione del campione è sufficientemente ampia

La regressione logistica presuppone che la dimensione del campione del set di dati sia sufficientemente grande da trarre conclusioni valide dal modello di regressione logistica adattato.

Come verificare questa ipotesi: come regola generale, dovresti avere un minimo di 10 casi con l’esito meno frequente per ciascuna variabile esplicativa. Ad esempio, se hai 3 variabili esplicative e la probabilità prevista del risultato meno frequente è 0,20, allora dovresti avere una dimensione del campione di almeno (10*3) / 0,20 = 150 .

Ipotesi di regressione logistica vs. Regressione lineare

A differenza della regressione lineare, la regressione logistica non richiede:

  • Una relazione lineare tra le variabili esplicative e la variabile di risposta.
  • I residui del modello da distribuire normalmente.
  • I residui devono avere una varianza costante, nota anche come omoschedasticità .

Correlato: I quattro presupposti della regressione lineare

Risorse addizionali

4 esempi di utilizzo della regressione logistica nella vita reale
Come eseguire la regressione logistica in SPSS
Come eseguire la regressione logistica in Excel
Come eseguire la regressione logistica in Stata

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *