Qu’est-ce qui est considéré comme une bonne valeur RMSE ?



Une façon d’évaluer dans quelle mesure un modèle de régression s’adapte à un ensemble de données consiste à calculer l’ erreur quadratique moyenne , qui nous indique la distance moyenne entre les valeurs prédites du modèle et les valeurs réelles de l’ensemble de données.

La formule pour trouver l’erreur quadratique moyenne, souvent abrégée RMSE , est la suivante :

RMSE =Σ(P je – O je ) 2 / n

où:

  • Σ est un symbole fantaisiste qui signifie « somme »
  • P i est la valeur prédite pour la ième observation dans l’ensemble de données
  • O i est la valeur observée pour la ième observation dans l’ensemble de données
  • n est la taille de l’échantillon

Une question que les gens se posent souvent est la suivante : qu’est-ce qu’une bonne valeur RMSE ?

La réponse courte : cela dépend .

Plus le RMSE est bas, plus un modèle donné est capable de « s’adapter » à un ensemble de données. Cependant, la plage de l’ensemble de données avec lequel vous travaillez est importante pour déterminer si une valeur RMSE donnée est « faible » ou non.

Par exemple, considérez les scénarios suivants :

Scénario 1 : Nous aimerions utiliser un modèle de régression pour prédire le prix des maisons dans une certaine ville. Supposons que le modèle ait une valeur RMSE de 500 $. Étant donné que la fourchette typique des prix des maisons se situe entre 70 000 $ et 300 000 $, cette valeur RMSE est extrêmement faible. Cela nous indique que le modèle est capable de prédire avec précision les prix de l’immobilier.

Scénario 2 : Supposons maintenant que nous souhaitions utiliser un modèle de régression pour prédire combien une personne dépensera par mois dans une certaine ville. Supposons que le modèle ait une valeur RMSE de 500 $. Si la fourchette typique des dépenses mensuelles est comprise entre 1 500 $ et 4 000 $, cette valeur RMSE est assez élevée. Cela nous indique que le modèle n’est pas capable de prédire les dépenses mensuelles avec beaucoup de précision.

Ces exemples simples montrent qu’il n’existe pas de « bonne » valeur RMSE universelle. Tout dépend de la plage de valeurs de l’ensemble de données avec lequel vous travaillez.

Normalisation de la valeur RMSE

Une façon de mieux comprendre si une certaine valeur RMSE est « bonne » consiste à la normaliser à l’aide de la formule suivante :

RMSE normalisé = RMSE / (valeur maximale – valeur minimale)

Cela produit une valeur comprise entre 0 et 1, où les valeurs plus proches de 0 représentent des modèles mieux adaptés.

Par exemple, supposons que notre valeur RMSE soit de 500 $ et que notre plage de valeurs soit comprise entre 70 000 $ et 300 000 $. Nous calculerions la valeur RMSE normalisée comme suit :

  • RMSE normalisé = 500 $ / (300 000 $ – 70 000 $) = 0,002

À l’inverse, supposons que notre valeur RMSE soit de 500 $ et que notre plage de valeurs se situe entre 1 500 $ et 4 000 $. Nous calculerions la valeur RMSE normalisée comme suit :

  • RMSE normalisé = 500 $ / (4 000 $ – 1 500 $) = 0,2 .

La première valeur RMSE normalisée est beaucoup plus faible, ce qui indique qu’elle offre un bien meilleur ajustement aux données par rapport à la deuxième valeur RMSE normalisée.

Comparaison du RMSE entre les modèles

Au lieu de choisir un nombre arbitraire pour représenter une « bonne » valeur RMSE, nous pouvons simplement comparer les valeurs RMSE de plusieurs modèles.

Par exemple, supposons que nous ajustions trois modèles de régression différents pour prédire les prix de l’immobilier. Supposons que les trois modèles aient les valeurs RMSE suivantes :

  • RMSE du modèle 1 : 550 $
  • RMSE du modèle 2 : 480 $
  • RMSE du modèle 3 : 1 400 $

Étant donné que la valeur RMSE du modèle 2 est la plus faible, nous sélectionnerions le modèle 2 comme le meilleur modèle pour prédire les prix de l’immobilier puisque la distance moyenne entre les prix prévus et les prix réels est la plus faible pour ce modèle.

Ressources additionnelles

Comment interpréter le RMSE
Comment calculer le RMSE dans Excel
Comment calculer le RMSE dans R
Comment calculer le RMSE en Python
Calculateur RMSE

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *