Comment interpréter le R-carré ajusté (avec exemples)
Lorsque nous ajustons des modèles de régression linéaire, nous calculons souvent la valeur R au carré du modèle.
La valeur R au carré est la proportion de la variance de la variable de réponse qui peut être expliquée par les variables prédictives du modèle.
La valeur du R au carré peut varier de 0 à 1 où :
- Une valeur de 0 indique que la variable de réponse ne peut pas du tout être expliquée par les variables prédictives.
- Une valeur de 1 indique que la variable de réponse peut être parfaitement expliquée par les variables prédictives.
Bien que cette métrique soit couramment utilisée pour évaluer dans quelle mesure un modèle de régression s’adapte à un ensemble de données, elle présente un sérieux inconvénient :
L’inconvénient du R-carré :
Le R au carré augmentera toujours lorsqu’une nouvelle variable prédictive est ajoutée au modèle de régression.
Même si une nouvelle variable prédictive n’a presque aucun rapport avec la variable de réponse, la valeur R au carré du modèle augmentera, ne serait-ce que d’une petite quantité.
Pour cette raison, il est possible qu’un modèle de régression avec un grand nombre de variables prédictives ait une valeur R au carré élevée, même si le modèle ne s’adapte pas bien aux données.
Heureusement, il existe une alternative au R-carré appelée R-carré ajusté .
Le R-carré ajusté est une version modifiée du R-carré qui s’ajuste au nombre de prédicteurs dans un modèle de régression.
Il est calculé comme suit :
R 2 ajusté = 1 – [(1-R 2 )*(n-1)/(nk-1)]
où:
- R 2 : Le R 2 du modèle
- n : Le nombre d’observations
- k : Le nombre de variables prédictives
Étant donné que le R-carré augmente toujours à mesure que vous ajoutez des prédicteurs à un modèle, le R-carré ajusté peut vous indiquer l’utilité d’un modèle, ajusté en fonction du nombre de prédicteurs dans un modèle .
L’avantage du R-carré ajusté :
Le R au carré ajusté nous indique dans quelle mesure un ensemble de variables prédictives est capable d’expliquer la variation de la variable de réponse, ajustée en fonction du nombre de prédicteurs dans un modèle .
En raison de la façon dont il est calculé, le R-carré ajusté peut être utilisé pour comparer l’ajustement des modèles de régression avec différents nombres de variables prédictives.
Pour mieux comprendre le R au carré ajusté, consultez l’exemple suivant.
Exemple : Comprendre le R-carré ajusté dans les modèles de régression
Supposons qu’un professeur collecte des données sur les étudiants de sa classe et adapte le modèle de régression suivant pour comprendre comment les heures passées à étudier et la note actuelle en classe affectent la note qu’un étudiant obtient à l’examen final.
Score de l’examen = β 0 + β 1 (heures passées à étudier) + β 2 (note actuelle)
Supposons que ce modèle de régression comporte les métriques suivantes :
- R au carré : 0,955
- R-carré ajusté : 0,946
Supposons maintenant que le professeur décide de collecter des données sur une autre variable pour chaque étudiant : la pointure.
Bien que cette variable ne doive avoir aucun rapport avec la note finale de l’examen, il décide d’adapter le modèle de régression suivant :
Score de l’examen = β 0 + β 1 (heures passées à étudier) + β 2 (année actuelle) + β 3 (pointure)
Supposons que ce modèle de régression comporte les métriques suivantes :
- R au carré : 0,965
- R-carré ajusté : 0,902
Si nous regardions uniquement les valeurs R au carré pour chacun de ces deux modèles de régression, nous conclurions que le deuxième modèle est préférable à utiliser car il a une valeur R au carré plus élevée !
Cependant, si nous examinons les valeurs R-carré ajustées , nous arrivons à une conclusion différente : il est préférable d’utiliser le premier modèle car il a une valeur R-carré ajustée plus élevée.
Le deuxième modèle a uniquement une valeur R au carré plus élevée car il comporte plus de variables prédictives que le premier modèle.
Cependant, la variable prédictive que nous avons ajoutée (pointure des chaussures) était un mauvais prédicteur du score à l’examen final, de sorte que la valeur R-carré ajustée a pénalisé le modèle pour l’ajout de cette variable prédictive.
Cet exemple illustre pourquoi le R au carré ajusté est une meilleure mesure à utiliser pour comparer l’ajustement des modèles de régression avec différents nombres de variables prédictives.
Ressources additionnelles
Les didacticiels suivants expliquent comment calculer les valeurs R-carré ajustées à l’aide de différents logiciels statistiques :
Comment calculer le R-carré ajusté en R
Comment calculer le R-carré ajusté dans Excel
Comment calculer le R-carré ajusté en Python