Come creare e interpretare una curva roc in spss
La regressione logistica è un metodo statistico che utilizziamo per adattare un modello di regressione quando la variabile di risposta è binaria. Per valutare quanto bene un modello di regressione logistica si adatta a un set di dati, possiamo esaminare i due parametri seguenti:
- Sensibilità: probabilità che il modello preveda un risultato positivo per un’osservazione quando il risultato è effettivamente positivo.
- Specificità: la probabilità che il modello preveda un risultato negativo per un’osservazione quando il risultato è effettivamente negativo.
Un modo semplice per visualizzare queste due metriche è creare una curva ROC , ovvero un grafico che mostra la sensibilità e la specificità di un modello di regressione logistica.
Questo tutorial spiega come creare e interpretare una curva ROC in SPSS.
Esempio: curva ROC in SPSS
Supponiamo di avere il seguente set di dati che mostra se un giocatore di basket è stato arruolato o meno nella NBA (0 = no, 1 = sì) così come la sua media di punti per partita al college:
Per creare una curva ROC per questo set di dati, fare clic sulla scheda Analizza , quindi su Classifica , quindi su Curva ROC :
Nella nuova finestra visualizzata, trascina la bozza della variabile nell’area denominata Variabile di stato. Imposta il valore della variabile di stato su 1 . (Questo è il valore che indica che un giocatore è stato scelto). Trascina i punti variabili nell’area denominata Variabile di prova.
Seleziona le caselle accanto a Con linea di riferimento diagonale e coordinate del punto curva ROC . Quindi fare clic su OK .
Ecco come interpretare il risultato:
Riepilogo dell’elaborazione dei file:
Questa tabella mostra il numero totale di casi positivi e negativi nel set di dati. In questo esempio, 8 giocatori sono stati scelti (risultato positivo) e 6 giocatori non sono stati scelti (risultato negativo):
Curva ROC:
La curva ROC (Receiver Operating Characteristic) è un grafico dei valori di sensibilità rispetto alla specificità 1 quando il valore di soglia cambia da 0 a 1:
Un modello con elevata sensibilità e specificità avrà una curva ROC che si adatta all’angolo superiore sinistro del grafico. Un modello con bassa sensibilità e bassa specificità avrà una curva vicina alla diagonale di 45 gradi.
Possiamo vedere che la curva ROC (la linea blu) in questo esempio abbraccia l’angolo in alto a sinistra del grafico, indicando che il modello sta facendo un buon lavoro nel prevedere se i giocatori verranno draftati o meno, in base ai loro punti medi per partita . .
Area sotto la curva:
L’area sotto la curva ci dà un’idea della capacità del modello di distinguere tra risultati positivi e negativi. L’AUC può variare da 0 a 1. Maggiore è l’AUC, migliore è la capacità del modello di classificare correttamente i risultati.
Possiamo vedere che l’AUC per questo particolare modello di regressione logistica è 0,948 , che è estremamente elevato. Ciò indica che il modello fa un buon lavoro nel prevedere se un giocatore verrà scelto o meno.
Coordinate della curva:
Quest’ultima tabella mostra la sensibilità e la specificità 1 della curva ROC per diverse soglie.
Per esempio:
Se permettiamo che la soglia sia 8,50 , ciò significa che ci aspettiamo che qualsiasi giocatore che segna meno di 8,50 punti a partita non verrà scelto e che qualsiasi giocatore che segna più di 8,50 punti a partita verrà scelto.
Usando questa soglia, la nostra sensibilità sarebbe del 100% (poiché ogni giocatore che ha segnato meno di 8,50 punti a partita non era effettivamente draftato) e la nostra specificità 1 sarebbe del 66,7% (poiché 8 giocatori su 12 che hanno segnato più di 8,50 punti per partita sono stati redatti).
La tabella sopra ci consente di vedere la sensibilità e la specificità 1 per ciascuna soglia potenziale.