Comprendre l’erreur type de la régression
Lorsque nous ajustons un modèle de régression à un ensemble de données, nous nous intéressons souvent à la manière dont le modèle de régression « s’adapte » à l’ensemble de données. Deux mesures couramment utilisées pour mesurer la qualité de l’ajustement incluent le R au carré (R 2 ) et l’ erreur standard de la régression , souvent notée S .
Ce didacticiel explique comment interpréter l’erreur type de la régression (S) ainsi que pourquoi elle peut fournir des informations plus utiles que R 2 .
Erreur standard par rapport au R-carré dans la régression
Supposons que nous disposions d’un ensemble de données simple qui montre combien d’heures 12 étudiants ont étudié par jour pendant un mois précédant un examen important, ainsi que leur résultat à l’examen :
Si nous ajustons un modèle de régression linéaire simple à cet ensemble de données dans Excel, nous recevons le résultat suivant :
R au carré est la proportion de la variance de la variable de réponse qui peut être expliquée par la variable prédictive. Dans ce cas, 65,76 % de la variance des résultats des examens peut s’expliquer par le nombre d’heures passées à étudier.
L’erreur standard de la régression est la distance moyenne entre les valeurs observées et la droite de régression. Dans ce cas, les valeurs observées s’éloignent en moyenne de 4,89 unités de la droite de régression.
Si nous traçons les points de données réels avec la droite de régression, nous pouvons voir cela plus clairement :
Notez que certaines observations se situent très près de la droite de régression, tandis que d’autres ne le sont pas aussi. Mais en moyenne, les valeurs observées s’éloignent de 4,19 unités de la droite de régression.
L’erreur type de la régression est particulièrement utile car elle peut être utilisée pour évaluer la précision des prédictions. Environ 95 % de l’observation devrait se situer à +/- deux erreurs standard de la régression, ce qui constitue une approximation rapide d’un intervalle de prédiction de 95 %.
Si nous souhaitons faire des prédictions à l’aide du modèle de régression, l’erreur standard de la régression peut être une mesure plus utile à connaître que le R au carré, car elle nous donne une idée de la précision de nos prédictions en termes d’unités.
Pour illustrer pourquoi l’erreur type de la régression peut être une mesure plus utile pour évaluer « l’adéquation » d’un modèle, prenons un autre exemple d’ensemble de données qui montre combien d’heures 12 étudiants ont étudié par jour pendant un mois précédant un examen important ainsi que leur résultat à l’examen :
Notez qu’il s’agit exactement du même ensemble de données qu’avant, sauf que toutes les valeurs s sont réduites de moitié . Ainsi, les étudiants de cet ensemble de données ont étudié exactement la moitié du temps que les étudiants de l’ensemble de données précédent et ont reçu exactement la moitié de la note de l’examen.
Si nous ajustons un modèle de régression linéaire simple à cet ensemble de données dans Excel, nous recevons le résultat suivant :
Notez que le R au carré de 65,76 % est exactement le même que dans l’exemple précédent.
Cependant, l’erreur type de la régression est de 2,095 , ce qui est exactement la moitié de l’erreur type de la régression dans l’exemple précédent.
Si nous traçons les points de données réels avec la droite de régression, nous pouvons voir cela plus clairement :
Remarquez comment les observations sont regroupées beaucoup plus étroitement autour de la droite de régression. En moyenne, les valeurs observées se situent à 2,095 unités de la droite de régression.
Ainsi, même si les deux modèles de régression ont un R au carré de 65,76 % , nous savons que le deuxième modèle fournirait des prédictions plus précises car il a une erreur type de régression plus faible.
Les avantages de l’utilisation de l’erreur standard
L’erreur type de la régression (S) est souvent plus utile à connaître que le R carré du modèle car elle nous fournit les unités réelles. Si nous souhaitons utiliser un modèle de régression pour produire des prédictions, S peut nous dire très facilement si un modèle est suffisamment précis pour être utilisé à des fins de prédiction.
Par exemple, supposons que nous souhaitions produire un intervalle de prédiction de 95 % dans lequel nous pouvons prédire les résultats des examens à 6 points près du score réel.
Notre premier modèle a un R au carré de 65,76 %, mais cela ne nous dit rien sur la précision de notre intervalle de prédiction. Heureusement, nous savons aussi que le premier modèle a un S de 4,19. Cela signifie qu’un intervalle de prédiction de 95 % aurait une largeur d’environ 2*4,19 = +/- 8,38 unités, ce qui est trop large pour notre intervalle de prédiction.
Notre deuxième modèle a également un R au carré de 65,76 %, mais encore une fois, cela ne nous dit rien sur la précision de notre intervalle de prédiction. On sait cependant que le deuxième modèle a un S de 2,095. Cela signifie qu’un intervalle de prédiction de 95 % aurait une largeur d’environ 2*2,095 = +/- 4,19 unités, ce qui est inférieur à 6 et donc suffisamment précis pour être utilisé pour produire des intervalles de prédiction.
Lectures complémentaires
Introduction à la régression linéaire simple
Qu’est-ce qu’une bonne valeur R au carré ?