Cosa è considerato un buon punteggio auc?


La regressione logistica è un metodo che utilizziamo per adattare un modello di regressione quando la variabile di risposta è binaria.

Per valutare quanto bene un modello di regressione logistica si adatta a un set di dati, possiamo esaminare i due parametri seguenti:

  • Sensibilità: probabilità che il modello preveda un risultato positivo per un’osservazione quando il risultato è effettivamente positivo. Questo è anche chiamato il “vero tasso positivo”.
  • Specificità: la probabilità che il modello preveda un risultato negativo per un’osservazione quando il risultato è effettivamente negativo. Questo è anche chiamato “vero tasso negativo”.

Un modo per visualizzare queste due misurazioni è creare una curva ROC , che sta per curva “caratteristica operativa del ricevitore”.

Questo è un grafico che mostra la sensibilità lungo l’asse y e (1 – specificità) lungo l’asse x.

Un modo per quantificare l’efficacia del modello di regressione logistica nella classificazione dei dati è calcolare l’AUC , che sta per “area sotto la curva”.

Il valore AUC varia da 0 a 1. Un modello che ha un AUC pari a 1 è in grado di classificare perfettamente le osservazioni in classi, mentre un modello che ha un AUC pari a 0,5 non fa meglio di un modello che fa ipotesi casuali.

Qual è un buon punteggio AUC?

Una domanda che gli studenti fanno spesso sull’AUC è:

Qual è un buon punteggio AUC?

La risposta:

Non esiste una soglia specifica per ciò che è considerato un buon punteggio AUC.

Ovviamente, maggiore è il punteggio AUC, maggiore è la capacità del modello di classificare le osservazioni in classi.

E sappiamo che un modello con un punteggio AUC pari a 0,5 non è migliore di un modello che fa ipotesi casuali.

Tuttavia, non esiste un numero magico per determinare se un punteggio AUC è buono o cattivo.

Se dobbiamo classificare determinati punteggi come buoni o cattivi, possiamo fare riferimento alla seguente regola pratica di Hosmer e Lemeshow in Applied Logistic Regression (p. 177):

  • 0,5 = Nessuna discriminazione
  • 0,5-0,7 = Cattiva discriminazione
  • 0,7-0,8 = Discriminazione accettabile
  • 0,8-0,9 = Ottima discriminazione
  • >0,9 = Discriminazione eccezionale

Secondo questi standard, un modello con un punteggio AUC inferiore a 0,7 sarebbe considerato scarso e qualsiasi modello più alto sarebbe considerato accettabile o migliore.

Un punteggio AUC “buono” varia a seconda del settore

È importante tenere presente che ciò che è considerato un punteggio AUC “buono” varia a seconda del settore.

Ad esempio, in campo medico, i ricercatori spesso cercano punteggi AUC superiori a 0,95 perché il costo di commettere un errore è molto alto.

Ad esempio, se abbiamo un modello di regressione logistica che prevede se un paziente svilupperà o meno il cancro, il costo di commettere un errore (dire falsamente a un paziente che non ha il cancro e poi che ne ha uno) è così alto che vogliamo un modello che è corretto quasi ogni volta.

Al contrario, in altri settori come il marketing, un punteggio AUC inferiore può essere accettabile per un modello.

Ad esempio, se disponiamo di un modello che prevede se un cliente sarà o meno un cliente abituale, il prezzo di un errore non cambia la vita, quindi un modello con un AUC pari a 0,6 potrebbe comunque essere utile.

Confronta i punteggi AUC con il modello attuale

Nei contesti del mondo reale, spesso confrontiamo i punteggi AUC dei nuovi modelli di regressione logistica con il punteggio AUC del modello attualmente in uso.

Ad esempio, supponiamo che un’azienda utilizzi un modello di regressione logistica per prevedere se i clienti saranno o meno clienti abituali.

Se il modello attuale ha un punteggio AUC di 0,6 e sviluppi un nuovo modello che ha un AUC di 0,65, allora il nuovo modello che hai sviluppato sarà preferibile anche se offre solo un leggero miglioramento e sarebbe considerato “scarso” da Hosmer e Lemeshow standard.

Risorse addizionali

I seguenti tutorial forniscono ulteriori informazioni su come creare e interpretare le curve ROC e i punteggi AUC:

Come interpretare una curva ROC (con esempi)
Come creare una curva ROC in Python
Come creare una curva ROC in R
Come calcolare l’AUC in R

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *