Tasso di errore di classificazione nell'apprendimento automatico: definizione ed esempio
Nell’apprendimento automatico, il tasso di classificazione errata è una metrica che ci indica la percentuale di osservazioni previste in modo errato da unmodello di classificazione .
Viene calcolato come segue:
Tasso di classificazione errata = # previsioni errate / # previsioni totali
Il valore del tasso di errata classificazione può variare da 0 a 1 dove:
- 0 rappresenta un modello che non presentava previsioni errate.
- 1 rappresenta un modello le cui previsioni erano completamente errate.
Minore è il valore del tasso di errata classificazione, migliore è la capacità del modello di classificazione di prevedere i risultati della variabile di risposta .
L’esempio seguente mostra come calcolare nella pratica il tasso di errore di classificazione per un modello di regressione logistica .
Esempio: calcolo del tasso di errore di classificazione per un modello di regressione logistica
Supponiamo di utilizzare un modello di regressione logistica per prevedere se 400 diversi giocatori di basket universitari verranno arruolati o meno nella NBA.
La seguente matrice di confusione riassume le previsioni fatte dal modello:
Ecco come calcolare il tasso di errore di classificazione per il modello:
- Tasso di classificazione errata = # previsioni errate / # previsioni totali
- Tasso di errore di classificazione = (falsi positivi + falsi negativi) / (previsioni totali)
- Tasso di classificazione errata = (70 + 40) / (400)
- Tasso di classificazione errata = 0,275
Il tasso di errore di classificazione per questo modello è 0,275 o 27,5% .
Ciò significa che il modello ha previsto erroneamente il risultato per il 27,5% dei giocatori.
L’opposto del tasso di errore di classificazione sarebbe l’accuratezza, che viene calcolata come segue:
- Accuratezza = 1 – Tasso di errore di classificazione
- Precisione = 1 – 0,275
- Precisione = 0,725
Ciò significa che il modello ha previsto correttamente il risultato per il 72,5% dei giocatori.
Vantaggi e svantaggi del tasso di classificazione errata
Il tasso di classificazione errata offre i seguenti vantaggi :
- È facile da interpretare . Un tasso di errore di classificazione del 10% significa che un modello ha effettuato una previsione errata per il 10% delle osservazioni totali.
- È facile da calcolare . Un tasso di classificazione errata viene calcolato come il numero totale di previsioni errate diviso per il numero totale di previsioni.
Tuttavia, il tasso di errore di classificazione presenta i seguenti svantaggi :
- Ciò non tiene conto di come vengono distribuiti i dati . Ad esempio, supponiamo che il 90% di tutti i giocatori non siano arruolati nella NBA. Se avessimo un modello che prevedesse semplicemente che ogni giocatore non sarebbe stato scelto per il draft, il modello avrebbe un tasso di errore di classificazione solo del 10%. Sembra un valore basso, ma in realtà il modello non è in grado di prevedere correttamente un giocatore che verrà scelto.
In pratica, spesso calcoliamo il tasso di errore di classificazione di un modello con altri parametri come:
- Sensibilità : il “vero tasso di positività”: la percentuale di risultati positivi che il modello è in grado di rilevare.
- Specificità : il “tasso di veri negativi” – la percentuale di risultati negativi che il modello è in grado di rilevare.
- Punteggio F1 : una metrica che ci dice quanto è accurato un modello, rispetto a come vengono distribuiti i dati.
Calcolando il valore di ciascuna di queste metriche, possiamo comprendere appieno quanto bene il modello sia in grado di fare previsioni.
Risorse addizionali
Le seguenti esercitazioni forniscono informazioni aggiuntive sui concetti comuni di machine learning:
Introduzione alla regressione logistica
Cos’è la precisione bilanciata?
Punteggio F1 vs precisione: quale dovresti usare?