Punteggio f1 vs precisione: quale dovresti usare?
Quando si utilizzanomodelli di classificazione nell’apprendimento automatico, due metriche che utilizziamo spesso per valutare la qualità del modello sono il punteggio F1 e l’accuratezza .
Per entrambi i parametri, maggiore è il valore, maggiore è la capacità del modello di classificare le osservazioni in classi.
Tuttavia, ogni metrica viene calcolata utilizzando una formula diversa e il suo utilizzo presenta vantaggi e svantaggi.
L’esempio seguente mostra come calcolare ogni metrica nella pratica.
Esempio: calcolo del punteggio e della precisione F1
Supponiamo di utilizzare un modello di regressione logistica per prevedere se 400 diversi giocatori di basket universitari verranno arruolati o meno nella NBA.
La seguente matrice di confusione riassume le previsioni fatte dal modello:
Ecco come calcolare varie metriche per la matrice di confusione:
Precisione: previsioni positive corrette rispetto alle previsioni positive totali
- Precisione = Vero positivo / (Vero positivo + Falso positivo)
- Precisione = 120 / (120 + 70)
- Precisione = 0,63
Promemoria: correggere le previsioni positive rispetto al totale dei positivi effettivi
- Richiamo = Vero Positivo / (Vero Positivo + Falso Negativo)
- Richiamo = 120 / (120 + 40)
- Richiamo = 0,75
Accuratezza: percentuale di tutte le osservazioni classificate correttamente
- Accuratezza = (Vero positivo + Vero negativo) / (Dimensione totale del campione)
- Precisione = (120 + 170) / (400)
- Precisione = 0,725
Punteggio F1: media armonica di precisione e richiamo
- Punteggio F1 = 2 * (Precisione * Richiamo) / (Precisione + Richiamo)
- Punteggio F1 = 2 * (0,63 * 0,75) / (0,63 + 0,75)
- Punteggio F1 = 0,685
Quando utilizzare il punteggio F1 rispetto alla precisione
Ci sono pro e contro nell’usare il punteggio e la precisione della F1.
Precisione :
Pro : Facile da interpretare. Se diciamo che un modello è accurato al 90%, sappiamo che ha classificato correttamente il 90% delle osservazioni.
Svantaggio : non tiene conto della distribuzione dei dati. Ad esempio, supponiamo che il 90% di tutti i giocatori non siano arruolati nella NBA. Se avessimo un modello che prevedesse semplicemente che ogni giocatore non sarebbe stato scelto per il draft, il modello predirebbe correttamente il risultato per il 90% dei giocatori. Questo valore sembra elevato, ma in realtà il modello non è in grado di prevedere correttamente quali giocatori verranno scelti.
Risultati F1 :
Pro : considera come vengono distribuiti i dati. Ad esempio, se i dati sono molto sbilanciati (ad esempio il 90% di tutti i giocatori non sono pescati e il 10% lo è), allora il punteggio F1 fornirà una migliore valutazione delle prestazioni del modello.
Svantaggio : più difficile da interpretare. Il punteggio F1 è un mix di precisione e richiamo del modello, il che lo rende un po’ più difficile da interpretare.
Generalmente:
Usiamo spesso la precisione quando le classi sono bilanciate e non vi sono grossi svantaggi nel prevedere i falsi negativi.
Usiamo spesso il punteggio F1 quando le classi sono sbilanciate e c’è un grave svantaggio nel prevedere i falsi negativi.
Ad esempio, se utilizziamo un modello di regressione logistica per prevedere se una persona ha o meno il cancro, i falsi negativi sono davvero negativi (ad esempio prevedere che una persona non ha il cancro quando in realtà lo ha), quindi il punteggio F1 penalizzerà i modelli che hanno troppi falsi negativi. più che precisione.
Risorse addizionali
Regressione vs. classificazione: qual è la differenza?
Introduzione alla regressione logistica
Come eseguire la regressione logistica in R
Come eseguire la regressione logistica in Python