RMSE vs R-Squared : quelle métrique devriez-vous utiliser ?
Les modèles de régression sont utilisés pour quantifier la relation entre une ou plusieurs variables prédictives et une variable de réponse.
Chaque fois que nous ajustons un modèle de régression, nous voulons comprendre dans quelle mesure le modèle « s’adapte » aux données. En d’autres termes, dans quelle mesure le modèle est-il capable d’utiliser les valeurs des variables prédictives pour prédire la valeur de la variable réponse ?
Deux mesures que les statisticiens utilisent souvent pour quantifier dans quelle mesure un modèle s’adapte à un ensemble de données sont l’erreur quadratique moyenne (RMSE) et le R carré (R 2 ), qui sont calculés comme suit :
RMSE : une métrique qui nous indique à quel point les valeurs prédites sont éloignées des valeurs observées dans un ensemble de données, en moyenne. Plus le RMSE est bas, mieux un modèle s’adapte à un ensemble de données.
Il est calculé comme suit :
RMSE = √ Σ(P je – O je ) 2 / n
où:
- Σ est un symbole qui signifie « somme »
- P i est la valeur prédite pour la ième observation
- O i est la valeur observée pour la ième observation
- n est la taille de l’échantillon
R 2 : Une métrique qui nous indique la proportion de la variance de la variable de réponse d’un modèle de régression qui peut être expliquée par les variables prédictives. Cette valeur est comprise entre 0 et 1. Plus la valeur R 2 est élevée, plus le modèle s’adapte à un ensemble de données.
Il est calculé comme suit :
R2 = 1 – (RSS/TSS)
où:
- RSS représente la somme des carrés des résidus
- TSS représente la somme totale des carrés
RMSE vs R 2 : quelle métrique devriez-vous utiliser ?
Lors de l’évaluation de l’adéquation d’un modèle à un ensemble de données, il est utile de calculer à la fois la valeur RMSE et la valeur R 2 , car chaque métrique nous dit quelque chose de différent.
D’une part, RMSE nous indique la distance typique entre la valeur prédite faite par le modèle de régression et la valeur réelle.
D’un autre côté, R 2 nous indique dans quelle mesure les variables prédictives peuvent expliquer la variation de la variable de réponse.
Par exemple, supposons que nous disposions de l’ensemble de données suivant qui affiche des informations sur les maisons d’une certaine ville :
Supposons maintenant que nous souhaitions utiliser la superficie en pieds carrés, le nombre de salles de bains et le nombre de chambres pour prédire le prix d’une maison.
Nous pouvons adapter le modèle de régression suivant :
Prix = β 0 + β 1 (superficie en pieds carrés) + β 2 (# salles de bains) + β 3 (# chambres)
Supposons maintenant que nous ajustions ce modèle, puis calculions les métriques suivantes pour évaluer la qualité de l’ajustement du modèle :
- RMSE : 14 342
- R2 : 0,856
La valeur RMSE nous indique que l’écart moyen entre le prix de l’immobilier prévu par le modèle et le prix réel de l’immobilier est de 14 342 $.
La valeur R 2 nous indique que les variables prédictives du modèle (superficie en pieds carrés, nombre de salles de bains et nombre de chambres) sont capables d’expliquer 85,6 % de la variation des prix des logements.
Pour déterminer si ces valeurs sont « bonnes » ou non, nous pouvons comparer ces mesures à des modèles alternatifs.
Par exemple, supposons que nous ajustions un autre modèle de régression qui utilise un ensemble différent de variables prédictives et calculions les métriques suivantes pour ce modèle :
- RMSE : 19 355
- R2 : 0,765
Nous pouvons voir que la valeur RMSE de ce modèle est supérieure à celle du modèle précédent. On peut également voir que la valeur R 2 de ce modèle est inférieure à celle du modèle précédent. Cela nous indique que ce modèle correspond moins bien aux données que le modèle précédent.
Résumé
Voici les principaux points évoqués dans cet article :
- RMSE et R 2 quantifient dans quelle mesure un modèle de régression s’adapte à un ensemble de données.
- Le RMSE nous indique dans quelle mesure un modèle de régression peut prédire la valeur de la variable de réponse en termes absolus, tandis que R 2 nous indique dans quelle mesure un modèle peut prédire la valeur de la variable de réponse en termes de pourcentage.
- Il est utile de calculer à la fois le RMSE et le R 2 pour un modèle donné car chaque métrique nous donne des informations utiles.
Ressources additionnelles
Introduction à la régression linéaire multiple
R vs R-Carré : quelle est la différence ?
Qu’est-ce qu’une bonne valeur R au carré ?