Come creare e interpretare una curva roc in stata
La regressione logistica è un metodo statistico che utilizziamo per adattare un modello di regressione quando la variabile di risposta è binaria. Per valutare quanto bene un modello di regressione logistica si adatta a un set di dati, possiamo esaminare i due parametri seguenti:
- Sensibilità: la probabilità che il modello preveda un risultato positivo per un’osservazione quando il risultato è effettivamente positivo.
- Specificità: la probabilità che il modello preveda un risultato negativo per un’osservazione quando il risultato è effettivamente negativo.
Un modo semplice per visualizzare queste due metriche è creare una curva ROC , ovvero un grafico che mostra la sensibilità e la specificità di un modello di regressione logistica.
Questo tutorial spiega come creare e interpretare una curva ROC in Stata.
Esempio: curva ROC in Stata
Per questo esempio, utilizzeremo un set di dati chiamato lbw , che contiene le seguenti variabili per 189 madri:
- basso – se il bambino ha o meno un basso peso alla nascita. 1 = sì, 0 = no.
- età – età della madre.
- fumo – se la madre ha fumato o meno durante la gravidanza. 1 = sì, 0 = no.
Adatteremo un modello di regressione logistica ai dati utilizzando l’età e il fumo come variabili esplicative e il basso peso alla nascita come variabile di risposta. Successivamente, creeremo una curva ROC per analizzare quanto bene il modello si adatta ai dati.
Passaggio 1: caricare e visualizzare i dati.
Caricare i dati utilizzando il seguente comando:
utilizzare https://www.stata-press.com/data/r13/lbw
Ottieni una rapida comprensione del set di dati utilizzando il seguente comando:
riassumere
Ci sono 11 diverse variabili nel set di dati, ma le uniche tre che ci interessano sono il livello basso, l’età e il fumo.
Passaggio 2: adattare il modello di regressione logistica.
Utilizzare il comando seguente per adattare il modello di regressione logistica:
logit di fumo di bassa età
Passaggio 3: creare la curva ROC.
Possiamo creare la curva ROC per il modello utilizzando il seguente comando:
lroc
Passaggio 4: interpretare la curva ROC.
Quando adattiamo un modello di regressione logistica, esso può essere utilizzato per calcolare la probabilità che una data osservazione abbia un esito positivo, in base ai valori delle variabili predittive.
Per determinare se un’osservazione deve essere classificata come positiva, possiamo scegliere una soglia tale che le osservazioni con una probabilità corretta superiore alla soglia siano classificate come positive e tutte le osservazioni con una probabilità corretta inferiore alla soglia siano classificate come negative. .
Ad esempio, supponiamo di scegliere una soglia pari a 0,5. Ciò significa che qualsiasi osservazione con una probabilità corretta maggiore di 0,5 avrà un risultato positivo, mentre qualsiasi osservazione con una probabilità corretta inferiore o uguale a 0,5 avrà un risultato negativo.
La curva ROC ci mostra i valori di sensibilità rispetto alla specificità 1 quando il valore di soglia cambia da 0 a 1. Un modello con elevata sensibilità e specificità avrà una curva ROC che abbraccia l’angolo superiore sinistro del grafico. Un modello con bassa sensibilità e bassa specificità avrà una curva vicina alla diagonale di 45 gradi.
L’ AUC (area sotto la curva) ci dà un’idea della capacità del modello di distinguere tra risultati positivi e negativi. L’AUC può variare da 0 a 1. Maggiore è l’AUC, migliore è la capacità del modello di classificare correttamente i risultati. Nel nostro esempio, possiamo vedere che l’AUC è 0,6111 .
Possiamo utilizzare l’AUC per confrontare le prestazioni di due o più modelli. Il modello con l’AUC più alta offre le migliori prestazioni.
Risorse addizionali
Come eseguire la regressione logistica in Stata
Come interpretare la curva ROC e AUC di un modello di regressione logistica