Come interpretare la statistica c di un modello di regressione logistica


Questo tutorial fornisce una semplice spiegazione su come interpretare la statistica C di un modello di regressione logistica.

Cos’è la regressione logistica?

La regressione logistica è un metodo statistico che utilizziamo per adattare un modello di regressione quando la variabile di risposta è binaria. Ecco alcuni esempi di utilizzo della regressione logistica:

  • Vogliamo sapere in che modo l’esercizio fisico, la dieta e il peso influiscono sulla probabilità di avere un infarto. La variabile di risposta è l’infarto e ha due esiti potenziali: si verifica un infarto o non si verifica.
  • Vogliamo sapere in che modo GPA, punteggio ACT e numero di corsi AP seguiti influiscono sulla probabilità di essere accettati in una particolare università. La variabile di risposta è l’accettazione e ha due potenziali esiti: accettato o non accettato.
  • Vogliamo sapere se il conteggio delle parole e il titolo dell’e-mail influiscono sulla probabilità che un’e-mail sia spam. La variabile di risposta è spam e ha due possibili esiti: spam o non spam.

Si noti che le variabili predittive possono essere numeriche o categoriali; ciò che è importante è che la variabile di risposta sia binaria. In questo caso, la regressione logistica è un modello appropriato da utilizzare per spiegare la relazione tra le variabili predittive e la variabile di risposta.

Come valutare l’adeguatezza di un modello di regressione logistica

Una volta adattato un modello di regressione logistica a un set di dati, spesso siamo interessati a quanto bene il modello si adatta ai dati. Nello specifico, siamo interessati alla capacità del modello di prevedere con precisione risultati positivi e negativi.

La sensibilità si riferisce alla probabilità che il modello preveda un risultato positivo per un’osservazione quando il risultato è effettivamente positivo.

La specificità si riferisce alla probabilità che il modello preveda un risultato negativo per un’osservazione quando il risultato è effettivamente negativo.

Un modello di regressione logistica è perfetto per classificare le osservazioni se ha sensibilità e specificità del 100%, ma in pratica ciò non accade quasi mai.

Una volta adattato il modello di regressione logistica, esso può essere utilizzato per calcolare la probabilità che una data osservazione abbia un esito positivo, in base ai valori delle variabili predittive.

Per determinare se un’osservazione deve essere classificata come positiva, possiamo scegliere una soglia tale che le osservazioni con una probabilità corretta superiore alla soglia siano classificate come positive e tutte le osservazioni con una probabilità corretta inferiore alla soglia siano classificate come negative. .

Ad esempio, supponiamo di scegliere una soglia pari a 0,5. Ciò significa che qualsiasi osservazione con una probabilità corretta maggiore di 0,5 avrà un risultato positivo, mentre qualsiasi osservazione con una probabilità corretta inferiore o uguale a 0,5 avrà un risultato negativo.

Tracciare la curva ROC

Uno dei modi più comuni per visualizzare la sensibilità rispetto alla specificità di un modello è tracciare una curva ROC (Receiver Operating Characteristic), che è un grafico dei valori di sensibilità rispetto alla specificità 1 come valore della soglia. il punto va da 0 a 1:

Un modello con elevata sensibilità e specificità avrà una curva ROC che si adatta all’angolo superiore sinistro del grafico. Un modello con bassa sensibilità e bassa specificità avrà una curva vicina alla diagonale di 45 gradi.

L’ AUC (area sotto la curva) ci dà un’idea della capacità del modello di distinguere tra risultati positivi e negativi. L’AUC può variare da 0 a 1. Maggiore è l’AUC, migliore è la capacità del modello di classificare correttamente i risultati.

Ciò significa che un modello con una curva ROC che abbraccia l’angolo superiore sinistro del grafico avrebbe un’area sotto la curva elevata e sarebbe quindi un modello che fa un buon lavoro nel classificare correttamente i risultati. Al contrario, un modello con una curva ROC che abbraccia la diagonale di 45 gradi avrebbe un’area sotto la curva bassa e sarebbe quindi un modello che non fa un buon lavoro di classificazione dei risultati.

Comprendere la statistica C

La statistica c , nota anche come statistica di concordanza , è uguale all’AUC (area sotto la curva) e ha le seguenti interpretazioni:

  • Un valore inferiore a 0,5 indica un modello scadente.
  • Un valore pari a 0,5 indica che il modello non è migliore nel classificare i risultati rispetto al caso.
  • Più il valore si avvicina a 1, più il modello è in grado di classificare correttamente i risultati.
  • Un valore pari a 1 significa che il modello è perfetto per classificare i risultati.

Quindi, una statistica C ci dà un’idea di quanto sia efficace un modello nel classificare correttamente i risultati.

In ambito clinico, è possibile calcolare la statistica C prendendo tutte le possibili coppie di individui, ovvero un individuo che ha riscontrato un risultato positivo e un individuo che ha riscontrato un risultato negativo. Quindi la statistica c può essere calcolata come la proporzione di tali coppie in cui l’individuo che ha sperimentato un risultato positivo aveva una probabilità prevista più elevata di sperimentare l’esito rispetto all’individuo che non ha sperimentato l’esito positivo.

Ad esempio, supponiamo di adattare un modello di regressione logistica utilizzando variabili predittive come età e pressione sanguigna per prevedere la probabilità di un attacco cardiaco.

Per trovare la statistica c del modello, siamo stati in grado di identificare tutte le possibili coppie di individui, costituite da un individuo che ha avuto un infarto e un individuo che non ha avuto un infarto. Quindi la statistica c può essere calcolata come la proporzione di queste coppie in cui l’individuo che ha subito l’infarto aveva effettivamente una probabilità prevista più elevata di subire un infarto rispetto all’individuo che non ha subito l’infarto. attacco di cuore.

Conclusione

In questo articolo abbiamo appreso quanto segue:

  • La regressione logistica è un metodo statistico che utilizziamo per adattare un modello di regressione quando la variabile di risposta è binaria.
  • Per valutare la bontà dell’adattamento di un modello di regressione logistica, possiamo esaminare la sensibilità e la specificità , che ci dicono quanto bene il modello è in grado di classificare correttamente i risultati.
  • Per visualizzare sensibilità e specificità, possiamo creare una curva ROC .
  • L’ AUC (area sotto la curva) indica quanto bene il modello è in grado di classificare correttamente i risultati. Quando una curva ROC abbraccia l’angolo superiore sinistro del grafico, indica che il modello sta classificando con successo i risultati.
  • La statistica c è uguale all’AUC (area sotto la curva) e può anche essere calcolata prendendo tutte le possibili coppie di individui, ovvero un individuo che ha riscontrato un risultato positivo e un individuo che ha riscontrato un risultato negativo. Quindi, la statistica c è la proporzione di tali coppie in cui l’individuo che ha sperimentato un risultato positivo aveva una probabilità prevista più elevata di sperimentare l’esito rispetto all’individuo che non ha sperimentato l’esito positivo.
  • Quanto più una statistica C è vicina a 1, tanto più correttamente un modello è in grado di classificare i risultati.

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *