MSE vs RMSE : quelle métrique devriez-vous utiliser ?
Les modèles de régression sont utilisés pour quantifier la relation entre une ou plusieurs variables prédictives et une variable de réponse .
Chaque fois que nous ajustons un modèle de régression, nous voulons comprendre dans quelle mesure le modèle est capable d’utiliser les valeurs des variables prédictives pour prédire la valeur de la variable de réponse.
Deux mesures que nous utilisons souvent pour quantifier dans quelle mesure un modèle s’adapte à un ensemble de données sont l’erreur quadratique moyenne (MSE) et l’erreur quadratique moyenne (RMSE), qui sont calculées comme suit :
MSE : Une métrique qui nous indique la différence quadratique moyenne entre les valeurs prédites et les valeurs réelles dans un ensemble de données. Plus le MSE est bas, mieux un modèle s’adapte à un ensemble de données.
MSE = Σ(ŷ je – y je ) 2 / n
où:
- Σ est un symbole qui signifie « somme »
- ŷ i est la valeur prédite pour la i ème observation
- y i est la valeur observée pour la ième observation
- n est la taille de l’échantillon
RMSE : Une métrique qui nous indique la racine carrée de la différence quadratique moyenne entre les valeurs prédites et les valeurs réelles dans un ensemble de données. Plus le RMSE est bas, mieux un modèle s’adapte à un ensemble de données.
Il est calculé comme suit :
RMSE = √ Σ(ŷ je – y je ) 2 / n
où:
- Σ est un symbole qui signifie « somme »
- ŷ i est la valeur prédite pour la i ème observation
- y i est la valeur observée pour la ième observation
- n est la taille de l’échantillon
Notez que les formules sont presque identiques. En fait, l’erreur quadratique moyenne n’est que la racine carrée de l’erreur quadratique moyenne.
RMSE vs MSE : quelle métrique devriez-vous utiliser ?
Pour évaluer dans quelle mesure un modèle s’adapte à un ensemble de données, nous utilisons plus souvent le RMSE car il est mesuré dans les mêmes unités que la variable de réponse.
À l’inverse, l’EQM est mesurée en unités carrées de la variable de réponse.
Pour illustrer cela, supposons que nous utilisions un modèle de régression pour prédire le nombre de points que 10 joueurs marqueront dans un match de basket-ball.
Le tableau suivant montre les points prédits par le modèle par rapport aux points réels marqués par les joueurs :
Nous calculerions l’erreur quadratique moyenne (MSE) comme suit :
- MSE = Σ(ŷ je – y je ) 2 / n
- MSE = ((14-12) 2 +(15-15) 2 +(18-20) 2 +(19-16) 2 +(25-20) 2 +(18-19) 2 +(12-16) 2 +(12-20) 2 +(15-16) 2 +(22-16) 2 ) / 10
- MSE = 16
L’erreur quadratique moyenne est de 16. Cela nous indique que la différence quadratique moyenne entre les valeurs prédites par le modèle et les valeurs réelles est de 16.
L’erreur quadratique moyenne (RMSE) serait simplement la racine carrée du MSE :
- EQM = √ EQM
- RMSE = √ 16
- RMSE = 4
L’erreur quadratique moyenne est de 4. Cela nous indique que l’écart moyen entre les points marqués prédits et les points réels marqués est de 4.
Notez que l’interprétation de l’erreur quadratique moyenne est beaucoup plus simple que l’erreur quadratique moyenne, car nous parlons de « points marqués » par opposition aux « points marqués au carré ».
Comment utiliser RMSE en pratique
En pratique, nous ajustons généralement plusieurs modèles de régression à un ensemble de données et calculons l’erreur quadratique moyenne (RMSE) de chaque modèle.
Nous sélectionnons ensuite le modèle avec la valeur RMSE la plus basse comme « meilleur » modèle, car c’est celui qui fait les prédictions les plus proches des valeurs réelles de l’ensemble de données.
Notez que nous pouvons également comparer les valeurs MSE de chaque modèle, mais le RMSE est plus simple à interpréter et est donc utilisé plus souvent.
Ressources supplémentaires
Introduction à la régression linéaire multiple
RMSE vs R-Squared : quelle métrique devriez-vous utiliser ?
Calculateur RMSE