Mae contro rmse: quale metrica dovresti utilizzare?


I modelli di regressione vengono utilizzati per quantificare la relazione tra una o più variabili predittive e una variabile di risposta .

Ogni volta che adattiamo un modello di regressione, vogliamo capire quanto bene il modello è in grado di utilizzare i valori delle variabili predittive per prevedere il valore della variabile di risposta.

Due parametri che utilizziamo spesso per quantificare la precisione con cui un modello si adatta a un set di dati sono l’errore medio assoluto (MAE) e l’errore quadratico medio (RMSE), che vengono calcolati come segue:

MAE : una metrica che ci indica la differenza media assoluta tra i valori previsti e i valori effettivi in un set di dati. Più basso è il MAE, migliore è il modello che si adatta al set di dati.

MAE = 1/n * Σ|y i – ŷ i |

Oro:

  • Σ è un simbolo che significa “somma”
  • y i è il valore osservato per l’ i-esima osservazione
  • ŷ i è il valore previsto per l’ iesima osservazione
  • n è la dimensione del campione

RMSE : una metrica che ci indica la radice quadrata della differenza quadratica media tra i valori previsti e i valori effettivi in un set di dati. Più basso è l’RMSE, migliore è l’adattamento del modello al set di dati.

Viene calcolato come segue:

RMSE = √ Σ(y i – ŷ i ) 2 / n

Oro:

  • Σ è un simbolo che significa “somma”
  • ŷ i è il valore previsto per l’ iesima osservazione
  • y i è il valore osservato per l’ i-esima osservazione
  • n è la dimensione del campione

Esempio: calcolo di RMSE e MAE

Supponiamo di utilizzare un modello di regressione per prevedere quanti punti segneranno 10 giocatori in una partita di basket.

La tabella seguente mostra i punti previsti dal modello rispetto ai punti effettivi segnati dai giocatori:

Utilizzando il calcolatore MAE, possiamo calcolare che il MAE è 3,2.

Questo ci dice che la differenza media assoluta tra i valori previsti dal modello e i valori effettivi è 3,2.

Utilizzando il calcolatore RMSE , possiamo calcolare che l’RMSE è uguale a 4 .

Questo ci dice che la radice quadrata della differenza quadratica media tra i punti segnati previsti e i punti segnati effettivi è 4.

Tieni presente che ogni metrica ci dà un’idea della differenza tipica tra il valore previsto dal modello e il valore effettivo nel set di dati, ma l’interpretazione di ciascuna metrica è leggermente diversa.

RMSE vs. MAE: quale metrica dovresti utilizzare?

Se si desidera assegnare più peso alle osservazioni più lontane dalla media (ovvero se una deviazione di 20 è più del doppio di una deviazione di 10), è meglio utilizzare l’RMSE per misurare l’errore, perché l’RMSE è più sensibile alle osservazioni più lontane dalla media.

Tuttavia, se essere “compensato” a 20 è due volte più dannoso che essere “compensato” a 10, allora è meglio usare il MAE.

Per illustrare ciò, supponiamo di avere un giocatore che è un chiaro valore anomalo in termini di numero di punti segnati:

Utilizzando i calcolatori online menzionati in precedenza, possiamo calcolare MAE e RMSE come:

  • MAE : 8
  • RMSE : 16.4356

Si noti che l’RMSE aumenta molto più del MAE.

Questo perché RMSE utilizza le differenze al quadrato nella sua formula e la differenza al quadrato tra il valore osservato di 76 e il valore previsto di 22 è piuttosto ampia. Ciò si traduce in un aumento significativo del valore RMSE.

In pratica, in genere adattiamo più modelli di regressione a un set di dati e calcoliamo solo uno di questi parametri per ciascun modello.

Ad esempio, potremmo adattare tre diversi modelli di regressione e calcolare l’RMSE per ciascun modello. Selezioneremo quindi il modello con il valore RMSE più basso come modello “migliore”, perché è quello che fa le previsioni più vicine ai valori effettivi nel set di dati.

In entrambi i casi, assicurati solo di calcolare la stessa metrica per ciascun modello. Ad esempio, non calcolare il MAE per un modello e l’RMSE per un altro modello e quindi confrontare queste due misurazioni.

Risorse addizionali

I seguenti tutorial spiegano come calcolare il MAE utilizzando diversi software statistici:

Come calcolare l’errore assoluto medio in Excel
Come calcolare l’errore medio assoluto in R
Come calcolare l’errore assoluto medio in Python

I seguenti tutorial spiegano come calcolare l’RMSE utilizzando diversi software statistici:

Come calcolare l’errore quadratico medio in Excel
Come calcolare l’errore quadratico medio in R
Come calcolare l’errore quadratico medio in Python

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *