Comment calculer le RMSE dans R



L’ erreur quadratique moyenne (RMSE) est une mesure qui nous indique à quel point nos valeurs prédites sont éloignées de nos valeurs observées dans une analyse de régression, en moyenne. Il est calculé comme suit :

RMSE = √[ Σ(P i – O i ) 2 / n ]

où:

  • Σ est un symbole fantaisiste qui signifie « somme »
  • P i est la valeur prédite pour la ième observation dans l’ensemble de données
  • O i est la valeur observée pour la ième observation dans l’ensemble de données
  • n est la taille de l’échantillon

Ce didacticiel explique deux méthodes que vous pouvez utiliser pour calculer le RMSE dans R.

Méthode 1 : écrivez votre propre fonction

Supposons que nous ayons un ensemble de données avec une colonne contenant les valeurs de données réelles et une colonne contenant les valeurs de données prédites :

#create dataset
data <- data.frame(actual=c(34, 37, 44, 47, 48, 48, 46, 43, 32, 27, 26, 24),
                   predicted=c(37, 40, 46, 44, 46, 50, 45, 44, 34, 30, 22, 23))

#view dataset
data

   actual predicted
1      34        37
2      37        40
3      44        46
4      47        44
5      48        46
6      48        50
7      46        45
8      43        44
9      32        34
10     27        30
11     26        22
12     24        23

Pour calculer le RMSE, nous pouvons utiliser la fonction suivante :

#calculate RMSE
sqrt(mean((data$actual - data$predicted)^2))

[1] 2.43242

L’erreur quadratique moyenne est de 2,43242 .

Méthode 2 : utiliser un package

Nous pourrions également calculer le RMSE pour le même ensemble de données en utilisant la fonction rmse() du package Metrics , qui utilise la syntaxe suivante :

rmse (réel, prévu)

où:

  • réel : valeurs réelles
  • prédit : valeurs prédites

Voici la syntaxe que nous utiliserions dans notre exemple :

#load Metrics package
library(Metrics)

calculate RMSE
rmse(data$actual, data$predicted)

[1] 2.43242

L’erreur quadratique moyenne est de 2,43242 , ce qui correspond à ce que nous avons calculé précédemment en utilisant notre propre fonction.

Comment interpréter le RMSE

RMSE est un moyen utile de voir dans quelle mesure un modèle de régression est capable de s’adapter à un ensemble de données.

Plus le RMSE est grand, plus la différence entre les valeurs prédites et observées est grande, ce qui signifie que moins le modèle de régression s’adapte aux données. À l’inverse, plus le RMSE est petit, plus le modèle est capable de s’adapter aux données.

Il peut être particulièrement utile de comparer le RMSE de deux modèles différents pour voir quel modèle correspond le mieux aux données.

Ressources additionnelles

Calculateur RMSE
Comment calculer MSE dans R
Comment calculer MAPE dans R

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *