Mse versus rmse: welke maatstaf moet u gebruiken?


Regressiemodellen worden gebruikt om de relatie tussen een of meer voorspellende variabelen en eenresponsvariabele te kwantificeren.

Wanneer we een regressiemodel passen, willen we begrijpen hoe goed het model in staat is de waarden van de voorspellende variabelen te gebruiken om de waarde van de responsvariabele te voorspellen.

Twee maatstaven die we vaak gebruiken om te kwantificeren hoe goed een model bij een dataset past, zijn de Mean Square Error (MSE) en de Root Mean Square Error (RMSE), die als volgt worden berekend:

MSE : een metriek die ons het kwadratisch gemiddelde verschil vertelt tussen voorspelde waarden en werkelijke waarden in een dataset. Hoe lager de MSE, hoe beter een model bij een dataset past.

MSE = Σ(ŷ ik – y ik ) 2 / n

Goud:

  • Σ is een symbool dat “som” betekent
  • ŷ i is de voorspelde waarde voor de i- de waarneming
  • y i is de waargenomen waarde voor de i-de waarneming
  • n is de steekproefomvang

RMSE : Een metriek die ons de vierkantswortel vertelt van het wortelgemiddelde kwadratische verschil tussen de voorspelde waarden en de werkelijke waarden in een dataset. Hoe lager de RMSE, hoe beter een model bij een dataset past.

Het wordt als volgt berekend:

RMSE = √ Σ(ŷ ik – y ik ) 2 / n

Goud:

  • Σ is een symbool dat “som” betekent
  • ŷ i is de voorspelde waarde voor de i- de waarneming
  • y i is de waargenomen waarde voor de i-de waarneming
  • n is de steekproefomvang

Merk op dat de formules vrijwel identiek zijn. In feite is de gemiddelde kwadratische fout slechts de wortel van de gemiddelde kwadratische fout.

RMSE versus MSE: welke statistiek moet u gebruiken?

Om te evalueren hoe goed een model bij een dataset past, gebruiken we vaker RMSE omdat het in dezelfde eenheden wordt gemeten als de responsvariabele.

Omgekeerd wordt MSE gemeten in vierkante eenheden van de responsvariabele.

Om dit te illustreren, stellen we dat we een regressiemodel gebruiken om te voorspellen hoeveel punten 10 spelers zullen scoren in een basketbalwedstrijd.

De volgende tabel toont de door het model voorspelde punten, vergeleken met de daadwerkelijke punten die door de spelers zijn gescoord:

We zouden de gemiddelde kwadratische fout (MSE) als volgt berekenen:

  • MSE = Σ(ŷ ik – y ik ) 2 / n
  • MSE = ((14-12) 2 +(15-15) 2 +(18-20) 2 +(19-16) 2 +(25-20) 2 +(18-19) 2 +(12-16) 2 +(12-20) 2 +(15-16) 2 +(22-16) 2 ) / 10
  • MSE = 16

De root mean square error is 16. Dit vertelt ons dat het root mean square verschil tussen de door het model voorspelde waarden en de werkelijke waarden 16 is.

De root mean square error (RMSE) zou eenvoudigweg de vierkantswortel van de MSE zijn:

  • ADE = √ EQM
  • RMSE = √ 16
  • RMSE = 4

De gemiddelde kwadratische fout is 4. Dit vertelt ons dat de gemiddelde afwijking tussen de voorspelde gescoorde punten en de daadwerkelijk gescoorde punten 4 is.

Merk op dat het interpreteren van de gemiddelde kwadratische fout veel eenvoudiger is dan de gemiddelde kwadratische fout, omdat we het hebben over ‚gescoorde punten‘ in tegenstelling tot ‚gescoorde punten in het kwadraat‘.

Hoe RMSE in de praktijk te gebruiken

In de praktijk passen we doorgaans meerdere regressiemodellen in een dataset en berekenen we de root mean square error (RMSE) van elk model.

Vervolgens selecteren we het model met de laagste RMSE-waarde als het ‘beste’ model, omdat dit het model is dat de voorspellingen doet die het dichtst bij de werkelijke waarden in de dataset liggen.

Merk op dat we ook de MSE-waarden van elk model kunnen vergelijken, maar de RMSE is eenvoudiger te interpreteren en wordt daarom vaker gebruikt.

Aanvullende bronnen

Inleiding tot meervoudige lineaire regressie
RMSE versus R-kwadraat: welke maatstaf moet u gebruiken?
RMSE-calculator

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert