Personnaliser les préférences

Nous utilisons des cookies pour vous aider à naviguer efficacement et à exécuter certaines fonctions. Vous trouverez ci-dessous des informations détaillées sur tous les cookies sous chaque catégorie de consentement.

Les cookies classés comme « Nécessaires » sont stockés sur votre navigateur car ils sont essentiels pour activer les fonctionnalités de base du site.... 

Toujours actif

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

Aucun cookie à afficher.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

Aucun cookie à afficher.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

Aucun cookie à afficher.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

Aucun cookie à afficher.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

Aucun cookie à afficher.

Comment interpréter l’erreur quadratique moyenne (RMSE)



L’analyse de régression est une technique que nous pouvons utiliser pour comprendre la relation entre une ou plusieurs variables prédictives et une variable de réponse .

Une façon d’évaluer dans quelle mesure un modèle de régression s’adapte à un ensemble de données consiste à calculer l’ erreur quadratique moyenne , qui est une métrique qui nous indique la distance moyenne entre les valeurs prédites du modèle et les valeurs réelles de l’ensemble de données.

Plus le RMSE est bas, plus un modèle donné est capable de « s’adapter » à un ensemble de données.

La formule pour trouver l’erreur quadratique moyenne, souvent abrégée RMSE , est la suivante :

RMSE =Σ(P je – O je ) 2 / n

où:

  • Σ est un symbole fantaisiste qui signifie « somme »
  • P i est la valeur prédite pour la ième observation dans l’ensemble de données
  • O i est la valeur observée pour la ième observation dans l’ensemble de données
  • n est la taille de l’échantillon

L’exemple suivant montre comment interpréter le RMSE pour un modèle de régression donné.

Exemple : Comment interpréter le RMSE pour un modèle de régression

Supposons que nous souhaitions construire un modèle de régression qui utilise les « heures étudiées » pour prédire la « note à l’examen » des étudiants à un examen d’entrée à l’université particulier.

Nous collectons les données suivantes pour 15 étudiants :

Nous utilisons ensuite des logiciels statistiques (comme Excel, SPSS, R, Python), etc. pour trouver le modèle de régression ajusté suivant :

Score d’examen = 75,95 + 3,08* (heures étudiées)

Nous pouvons ensuite utiliser cette équation pour prédire la note à l’examen de chaque étudiant, en fonction du nombre d’heures qu’il a étudié :

Nous pouvons ensuite calculer la différence au carré entre chaque note d’examen prévue et la note réelle de l’examen. On peut alors prendre la racine carrée de la moyenne de ces différences :

Le RMSE de ce modèle de régression s’avère être de 5,681 .

Rappelons que les résidus d’un modèle de régression sont les différences entre les valeurs des données observées et les valeurs prédites du modèle.

Résiduel = (P i – O i )

  • P i est la valeur prédite pour la ième observation dans l’ensemble de données
  • O i est la valeur observée pour la ième observation dans l’ensemble de données

Et rappelons que le RMSE d’un modèle de régression est calculé comme suit :

RMSE =Σ(P je – O je ) 2 / n

Cela signifie que le RMSE représente la racine carrée de la variance des résidus.

C’est une valeur utile à connaître car elle nous donne une idée de la distance moyenne entre les valeurs de données observées et les valeurs de données prédites.

Cela contraste avec le R au carré du modèle, qui nous indique la proportion de la variance de la variable de réponse qui peut être expliquée par la ou les variables prédictives du modèle.

Comparaison des valeurs RMSE de différents modèles

Le RMSE est particulièrement utile pour comparer l’ajustement de différents modèles de régression.

Par exemple, supposons que nous souhaitions construire un modèle de régression pour prédire les résultats des examens des étudiants et que nous souhaitions trouver le meilleur modèle possible parmi plusieurs modèles potentiels.

Supposons que nous ajustions trois modèles de régression différents et trouvions leurs valeurs RMSE correspondantes :

  • RMSE du modèle 1 : 14,5
  • RMSE du modèle 2 : 16,7
  • RMSE du modèle 3 : 9,8

Le modèle 3 a le RMSE le plus bas, ce qui nous indique qu’il est capable d’adapter au mieux l’ensemble de données parmi les trois modèles potentiels.

Ressources additionnelles

Calculateur RMSE
Comment calculer le RMSE dans Excel
Comment calculer le RMSE dans R
Comment calculer le RMSE en Python

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *