Come creare una curva roc in excel (passo dopo passo)
La regressione logistica è un metodo statistico che utilizziamo per adattare un modello di regressione quando la variabile di risposta è binaria. Per valutare quanto bene un modello di regressione logistica si adatta a un set di dati, possiamo esaminare i due parametri seguenti:
- Sensibilità: probabilità che il modello preveda un risultato positivo per un’osservazione quando il risultato è effettivamente positivo. Questo è anche chiamato il “vero tasso positivo”.
- Specificità: la probabilità che il modello preveda un risultato negativo per un’osservazione quando il risultato è effettivamente negativo. Questo è anche chiamato “vero tasso negativo”.
Un modo per visualizzare queste due misurazioni è creare una curva ROC , che sta per curva “caratteristica operativa del ricevitore”. Questo è un grafico che mostra la sensibilità e la specificità di un modello di regressione logistica.
Il seguente esempio passo passo mostra come creare e interpretare una curva ROC in Excel.
Passaggio 1: inserisci i dati
Iniziamo inserendo alcuni dati grezzi:
Passaggio 2: calcolare i dati cumulativi
Quindi utilizziamo la seguente formula per calcolare i valori cumulativi per le categorie Pass e Fail:
- Valori di successo cumulativi: =SUM($B$3:B3)
- Valori di errore cumulativi: =SUM($C$3:C3)
Quindi copieremo e incolleremo queste formule in ciascuna cella della colonna D e della colonna E:
Passaggio 3: calcolare il tasso di falsi positivi e il tasso di veri positivi
Successivamente, calcoleremo il tasso di falsi positivi (FPR), il tasso di veri positivi (TPR) e l’area sotto la curva (AUC) utilizzando le seguenti formule:
- FPR: =1-D3/$D$14
- TPR: =1-E3/$E$14
- ASC: =(FA3-FA4)*SOL3
Quindi copieremo e incolleremo queste formule in ciascuna cella delle colonne F, G e H:
Passaggio 4: creare la curva ROC
Per creare la curva ROC, evidenzieremo ciascun valore nell’intervallo F3:G14 .
Successivamente, faremo clic sulla scheda Inserisci lungo la barra multifunzione superiore, quindi faremo clic su Inserisci dispersione (X, Y) per creare il seguente percorso:
Passaggio 5: calcolare l’AUC
Quanto più la curva si avvicina all’angolo superiore sinistro del grafico, tanto meglio il modello è in grado di classificare i dati in categorie.
Come possiamo vedere dal grafico sopra, questo modello di regressione logistica fa un ottimo lavoro nel classificare i dati in categorie.
Per quantificarlo, possiamo calcolare l’AUC (area sotto la curva) che ci dice quanta parte del grafico si trova sotto la curva.
Più l’AUC è vicino a 1, migliore è il modello. Un modello con un’AUC pari a 0,5 non è migliore di un modello che esegue classificazioni casuali.
Per calcolare l’AUC della curva possiamo semplicemente sommare tutti i valori nella colonna H:
L’AUC risulta essere 0.802662 . Questo valore è piuttosto elevato, indicando che il modello fa un buon lavoro nel classificare i dati nelle categorie “Passato” e “Fallito”.
Risorse addizionali
I seguenti tutorial spiegano come creare altri grafici comuni in Excel:
Come tracciare un CDF in Excel
Come creare una curva di sopravvivenza in Excel
Come creare un grafico di controllo statistico del processo in Excel