Come interpretare una curva roc (con esempi)
La regressione logistica è un metodo statistico che utilizziamo per adattare un modello di regressione quando la variabile di risposta è binaria. Per valutare quanto bene un modello di regressione logistica si adatta a un set di dati, possiamo esaminare i due parametri seguenti:
- Sensibilità: probabilità che il modello preveda un risultato positivo per un’osservazione quando il risultato è effettivamente positivo.
- Specificità: probabilità che il modello preveda un risultato negativo per un’osservazione quando il risultato è effettivamente negativo.
Un modo semplice per visualizzare queste due metriche è creare una curva ROC , ovvero un grafico che mostra la sensibilità e la specificità di un modello di regressione logistica.
Questo tutorial spiega come creare e interpretare una curva ROC.
Come creare una curva ROC
Una volta adattato un modello di regressione logistica, possiamo utilizzare il modello per classificare le osservazioni in una delle due categorie.
Ad esempio, potremmo classificare le osservazioni come “positive” o “negative”.
Il vero tasso positivo rappresenta la proporzione di osservazioni che dovrebbero essere positive quando in realtà lo sono.
Al contrario, il tasso di falsi positivi rappresenta la proporzione di osservazioni che dovrebbero essere positive ma che in realtà sono negative.
Quando creiamo una curva ROC, tracciamo le coppie di tasso di veri positivi rispetto a tasso di falsi positivi per ciascuna possibile soglia decisionale di un modello di regressione logistica.
Come interpretare una curva ROC
Quanto più la curva ROC si avvicina all’angolo superiore sinistro del grafico, tanto meglio il modello è in grado di classificare i dati in categorie.
Per quantificarlo, possiamo calcolare l’ AUC (area sotto la curva) che ci dice quanta parte del grafico si trova sotto la curva.
Più l’AUC è vicino a 1, migliore è il modello.
Un modello con un AUC pari a 0,5 sarebbe una linea perfettamente diagonale e rappresenterebbe un modello che non è migliore di un modello che esegue classificazioni casuali.
È particolarmente utile calcolare l’AUC per modelli di regressione logistica multipla perché ci consente di vedere quale modello è il migliore nel fare previsioni.
Ad esempio, supponiamo di adattare tre diversi modelli di regressione logistica e di tracciare le seguenti curve ROC per ciascun modello:
Supponiamo di calcolare l’AUC per ciascun modello come segue:
- Modello A: AUC = 0,923
- Modello B: AUC = 0,794
- Modello C: AUC = 0,588
Il modello A ha l’AUC più alta, indicando che ha l’area sotto la curva più alta ed è il modello migliore per classificare correttamente le osservazioni in categorie.
Risorse addizionali
I seguenti tutorial spiegano come creare curve ROC utilizzando diversi software statistici: