Qu’est-ce qu’une bonne valeur R au carré ?



Le R au carré mesure dans quelle mesure un modèle de régression linéaire « s’adapte » à un ensemble de données. Aussi communément appelé coefficient de détermination , le R au carré est la proportion de la variance de la variable de réponse qui peut être expliquée par la variable prédictive.

La valeur du R au carré peut varier de 0 à 1. Une valeur de 0 indique que la variable de réponse ne peut pas du tout être expliquée par la variable prédictive. Une valeur de 1 indique que la variable de réponse peut être parfaitement expliquée sans erreur par la variable prédictive.

En pratique, vous ne verrez probablement jamais une valeur de 0 ou 1 pour le R au carré. Au lieu de cela, vous rencontrerez probablement une valeur comprise entre 0 et 1.

Par exemple, supposons que vous disposiez d’un ensemble de données contenant la taille de la population et le nombre de fleuristes dans 30 villes différentes. Vous ajustez un modèle de régression linéaire simple à l’ensemble de données, en utilisant la taille de la population comme variable prédictive et les fleuristes comme variable de réponse. Dans le résultat des résultats de régression, vous voyez que R 2 = 0,2. Cela indique que 20 % de la variation du nombre de fleuristes peut être expliquée par la taille de la population.

Cela nous amène à une question importante : est-ce une « bonne » valeur pour le R au carré ?

La réponse à cette question dépend de votre objectif pour le modèle de régression. À savoir:

1. Souhaitez-vous expliquer la relation entre le ou les prédicteurs et la variable de réponse ?

OU

2. Souhaitez-vous prédire la variable de réponse ?

Selon l’objectif, la réponse à la question « Qu’est-ce qu’une bonne valeur pour le R au carré ?  » sera différent.

Expliquer la relation entre le ou les prédicteurs et la variable de réponse

Si votre objectif principal pour votre modèle de régression est d’expliquer la relation entre le ou les prédicteurs et la variable de réponse, le R au carré n’est pratiquement pas pertinent.

Par exemple, supposons que dans l’exemple de régression ci-dessus, vous voyez que le coefficient de la taille de la population prédictive est de 0,005 et qu’il est statistiquement significatif. Cela signifie qu’une augmentation d’un de la population est associée à une augmentation moyenne de 0,005 du nombre de fleuristes dans une ville donnée. En outre, la taille de la population est un indicateur statistiquement significatif du nombre de fleuristes dans une ville.

Que la valeur R au carré de ce modèle de régression soit de 0,2 ou de 0,9 ne change pas cette interprétation. Puisque vous êtes simplement intéressé par la relation entre la taille de la population et le nombre de fleuristes, vous n’avez pas à vous soucier outre mesure de la valeur R carré du modèle.

Prédire la variable de réponse

Si votre objectif principal est de prédire avec précision la valeur de la variable de réponse à l’aide de la variable prédictive, alors le R au carré est important.

En général, plus la valeur R au carré est grande, plus les variables prédictives sont capables de prédire avec précision la valeur de la variable de réponse.

La valeur requise pour la valeur R au carré dépend de la précision dont vous avez besoin. Par exemple, dans les études scientifiques, il peut être nécessaire que le R au carré soit supérieur à 0,95 pour qu’un modèle de régression soit considéré comme fiable. Dans d’autres domaines, un R carré de seulement 0,3 peut suffire s’il existe une variabilité extrême dans l’ensemble de données.

Pour savoir ce qui est considéré comme une « bonne » valeur R au carré, vous devrez explorer quelles valeurs R au carré sont généralement acceptées dans votre domaine d’études particulier. Si vous effectuez une analyse de régression pour un client ou une entreprise, vous pourrez peut-être leur demander ce qui est considéré comme une valeur R au carré acceptable.

Intervalles de prédiction

Un intervalle de prédiction spécifie une plage dans laquelle une nouvelle observation pourrait se situer, en fonction des valeurs des variables prédictives. Des intervalles de prédiction plus étroits indiquent que les variables prédictives peuvent prédire la variable de réponse avec plus de précision.

Souvent, un intervalle de prédiction peut être plus utile qu’une valeur R au carré, car il vous donne une plage exacte de valeurs dans laquelle une nouvelle observation pourrait se situer. Ceci est particulièrement utile si votre objectif principal de régression est de prédire de nouvelles valeurs de la variable de réponse.

Par exemple, supposons qu’une population de 40 000 habitants produise un intervalle de prévision de 30 à 35 fleuristes dans une ville particulière. Cela peut ou non être considéré comme une plage de valeurs acceptable, selon l’utilisation du modèle de régression.

Conclusion

En général, plus la valeur R au carré est grande, plus les variables prédictives sont capables de prédire avec précision la valeur de la variable de réponse.

Le niveau auquel doit être une valeur R au carré pour être considéré comme « bon » varie en fonction du domaine. Certains champs nécessitent une précision plus élevée que d’autres.

Pour savoir ce qui est considéré comme une « bonne » valeur R au carré, considérez ce qui est généralement accepté dans le domaine dans lequel vous travaillez, demandez à quelqu’un ayant des connaissances spécifiques dans un domaine spécifique ou demandez au client/à l’entreprise pour laquelle vous effectuez l’analyse de régression. pour ce qu’ils considèrent comme acceptable.

Si vous souhaitez expliquer la relation entre le prédicteur et la variable de réponse, le R au carré n’est en grande partie pas pertinent car il n’a pas d’impact sur l’interprétation du modèle de régression.

Si vous souhaitez prédire la variable de réponse, les intervalles de prédiction sont généralement plus utiles que les valeurs R au carré.

Lectures complémentaires :

Coefficient de corrélation de Pearson
Introduction à la régression linéaire simple

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *