Mse vs. rmse: quale metrica dovresti utilizzare?


I modelli di regressione vengono utilizzati per quantificare la relazione tra una o più variabili predittive e una variabile di risposta .

Ogni volta che adattiamo un modello di regressione, vogliamo capire quanto bene il modello è in grado di utilizzare i valori delle variabili predittive per prevedere il valore della variabile di risposta.

Due parametri che utilizziamo spesso per quantificare la precisione con cui un modello si adatta a un set di dati sono l’errore quadratico medio (MSE) e l’errore quadratico medio (RMSE), che vengono calcolati come segue:

MSE : una metrica che ci indica la differenza quadratica media tra i valori previsti e i valori effettivi in un set di dati. Più basso è il MSE, migliore è il modello che si adatta al set di dati.

MSE = Σ(ŷ i – y i ) 2 / n

Oro:

  • Σ è un simbolo che significa “somma”
  • ŷ i è il valore previsto per l’ iesima osservazione
  • y i è il valore osservato per l’ i-esima osservazione
  • n è la dimensione del campione

RMSE : una metrica che ci indica la radice quadrata della differenza quadratica media tra i valori previsti e i valori effettivi in un set di dati. Più basso è l’RMSE, migliore è l’adattamento del modello al set di dati.

Viene calcolato come segue:

RMSE = √ Σ(ŷ i – y i ) 2 / n

Oro:

  • Σ è un simbolo che significa “somma”
  • ŷ i è il valore previsto per l’ iesima osservazione
  • y i è il valore osservato per l’ i-esima osservazione
  • n è la dimensione del campione

Tieni presente che le formule sono quasi identiche. In effetti, l’errore quadratico medio è proprio la radice quadrata dell’errore quadratico medio.

RMSE vs. MSE: quale metrica dovresti utilizzare?

Per valutare quanto bene un modello si adatta a un set di dati, utilizziamo più spesso RMSE perché viene misurato nelle stesse unità della variabile di risposta.

Al contrario, MSE è misurato in unità quadrate della variabile di risposta.

Per illustrare ciò, supponiamo di utilizzare un modello di regressione per prevedere quanti punti segneranno 10 giocatori in una partita di basket.

La tabella seguente mostra i punti previsti dal modello rispetto ai punti effettivi segnati dai giocatori:

Calcoleremo l’errore quadratico medio (MSE) come segue:

  • MSE = Σ(ŷ i – y i ) 2 / n
  • MSE = ((14-12) 2 +(15-15) 2 +(18-20) 2 +(19-16) 2 +(25-20) 2 +(18-19) 2 +(12-16) 2 +(12-20) 2 +(15-16) 2 +(22-16) 2 ) / 10
  • MSE = 16

L’errore quadratico medio è 16. Questo ci dice che la differenza quadratica media tra i valori previsti dal modello e i valori effettivi è 16.

L’errore quadratico medio (RMSE) sarebbe semplicemente la radice quadrata dell’MSE:

  • ADE = √ EQM
  • RMSE = √ 16
  • RMSE = 4

L’errore quadratico medio è 4. Ciò ci dice che la deviazione media tra i punti previsti e quelli effettivamente segnati è 4.

Tieni presente che interpretare l’errore quadratico medio è molto più semplice dell’errore quadratico medio, perché stiamo parlando di “punti segnati” anziché di “punti segnati al quadrato”.

Come utilizzare RMSE nella pratica

In pratica, in genere adattiamo più modelli di regressione a un set di dati e calcoliamo l’errore quadratico medio (RMSE) di ciascun modello.

Selezioniamo quindi il modello con il valore RMSE più basso come modello “migliore”, perché è quello che fa le previsioni più vicine ai valori effettivi nel set di dati.

Tieni presente che possiamo anche confrontare i valori MSE di ciascun modello, ma l’RMSE è più semplice da interpretare e quindi viene utilizzato più spesso.

Risorse addizionali

Introduzione alla regressione lineare multipla
RMSE vs. R-Squared: quale metrica dovresti utilizzare?
Calcolatore RMSE

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *