Comment interpréter les coefficients de régression
En statistique, l’analyse de régression est une technique qui peut être utilisée pour analyser la relation entre des variables prédictives et une variable de réponse.
Lorsque vous utilisez un logiciel (comme R , Stata , SPSS , etc.) pour effectuer une analyse de régression, vous recevrez en sortie un tableau de régression résumant les résultats de la régression.
Les nombres les plus importants dans le résultat du tableau de régression sont sans doute les coefficients de régression . Pourtant, malgré leur importance, de nombreuses personnes ont du mal à interpréter correctement ces chiffres.
Ce didacticiel présente un exemple d’analyse de régression et fournit une explication détaillée de la manière d’interpréter les coefficients de régression résultant de la régression.
Connexe : Comment lire et interpréter une table de régression entière
Un exemple d’analyse de régression
Supposons que nous souhaitions effectuer une analyse de régression en utilisant les variables suivantes :
Variables prédictives
- Nombre total d’heures étudiées ( variable continue – entre 0 et 20 )
- Si l’élève a eu recours ou non à un tuteur ( variable catégorielle – « oui » ou « non » )
Variable de réponse
- Note à l’examen (variable continue – entre 1 et 100 )
Nous souhaitons examiner la relation entre les variables prédictives et la variable de réponse pour savoir si les heures étudiées et si un étudiant a eu recours ou non à un tuteur ont réellement un impact significatif sur sa note à l’examen.
Supposons que nous effectuions une analyse de régression et obtenions le résultat suivant :
Terme | Coefficient | Erreur standard | t Statistique | Valeur P |
---|---|---|---|---|
Intercepter | 48.56 | 14h32 | 3.39 | 0,002 |
Heures étudiées | 2.03 | 0,67 | 3.03 | 0,009 |
Tuteur | 8.34 | 5,68 | 1,47 | 0,138 |
Voyons comment interpréter chaque coefficient de régression.
Interprétation de l’interception
Le terme d’origine dans un tableau de régression nous indique la valeur moyenne attendue pour la variable de réponse lorsque toutes les variables prédictives sont égales à zéro.
Dans cet exemple, le coefficient de régression pour l’origine est égal à 48,56 . Cela signifie que pour un étudiant qui a étudié zéro heure ( Heures étudiées = 0) et n’a pas fait appel à un tuteur ( Tuteur = 0), la note moyenne attendue à l’examen est de 48,56.
Il est important de noter que le coefficient de régression pour l’ordonnée à l’origine n’est significatif que s’il est raisonnable que toutes les variables prédictives du modèle puissent en réalité être égales à zéro. Dans cet exemple, il est certainement possible qu’un étudiant ait étudié zéro heure ( Heures étudiées = 0) et qu’il n’ait pas non plus eu recours à un tuteur ( Tuteur = 0). Ainsi, l’interprétation du coefficient de régression de l’ordonnée à l’origine est significative dans cet exemple.
Dans certains cas, cependant, le coefficient de régression pour l’ordonnée à l’origine n’est pas significatif. Par exemple, supposons que nous ayons effectué une analyse de régression en utilisant la superficie en pieds carrés comme variable prédictive et la valeur de la maison comme variable de réponse.
Dans le tableau de régression de sortie, le coefficient de régression pour le terme d’origine n’aurait pas d’interprétation significative puisque la superficie en pieds carrés d’une maison ne peut jamais être égale à zéro. Dans ce cas, le coefficient de régression pour le terme d’origine ancre simplement la ligne de régression au bon endroit.
Interprétation du coefficient d’une variable prédictive continue
Pour une variable prédictive continue, le coefficient de régression représente la différence entre la valeur prédite de la variable de réponse pour chaque changement d’une unité dans la variable prédictive, en supposant que toutes les autres variables prédictives restent constantes.
Dans cet exemple, les heures étudiées sont une variable prédictive continue qui va de 0 à 20 heures. Dans certains cas, un étudiant n’a étudié que zéro heure et dans d’autres cas, un étudiant a étudié jusqu’à 20 heures.
À partir du résultat de la régression, nous pouvons voir que le coefficient de régression pour les heures étudiées est de 2,03 . Cela signifie qu’en moyenne, chaque heure supplémentaire étudiée est associée à une augmentation de 2,03 points à l’examen final, en supposant que la variable prédictive Tuteur soit maintenue constante.
Par exemple, considérons l’étudiant A qui étudie pendant 10 heures et utilise un tuteur. Pensez également à l’étudiant B qui étudie pendant 11 heures et utilise également un tuteur. Selon nos résultats de régression, l’étudiant B devrait obtenir une note à l’examen supérieure de 2,03 points à celle de l’étudiant A.
La valeur p du tableau de régression nous indique si ce coefficient de régression est réellement statistiquement significatif ou non. Nous pouvons voir que la valeur p pour les heures étudiées est de 0,009 , ce qui est statistiquement significatif à un niveau alpha de 0,05.
Remarque : Le niveau alpha doit être choisi avant d’effectuer l’analyse de régression – les choix courants pour le niveau alpha sont 0,01, 0,05 et 0,10.
Article connexe : Une explication des valeurs P et de leur signification statistique
Interprétation du coefficient d’une variable prédictive catégorielle
Pour une variable prédictive catégorielle, le coefficient de régression représente la différence de la valeur prédite de la variable de réponse entre la catégorie pour laquelle la variable prédictive = 0 et la catégorie pour laquelle la variable prédictive = 1.
Dans cet exemple, Tutor est une variable prédictive catégorielle qui peut prendre deux valeurs différentes :
- 1 = l’étudiant a fait appel à un tuteur pour préparer l’examen
- 0 = l’étudiant n’a pas fait appel à un tuteur pour préparer l’examen
À partir du résultat de la régression, nous pouvons voir que le coefficient de régression pour Tutor est de 8,34 . Cela signifie qu’en moyenne, un étudiant qui a eu recours à un tuteur a obtenu 8,34 points de plus à l’examen qu’un étudiant qui n’a pas eu recours à un tuteur, en supposant que la variable prédictive Heures étudiées reste constante.
Par exemple, considérons l’étudiant A qui étudie pendant 10 heures et utilise un tuteur. Pensez également à l’étudiant B qui étudie pendant 10 heures et n’a pas recours à un tuteur. Selon nos résultats de régression, l’étudiant A devrait obtenir un score à l’examen supérieur de 8,34 points à celui de l’étudiant B.
La valeur p du tableau de régression nous indique si ce coefficient de régression est réellement statistiquement significatif ou non. Nous pouvons voir que la valeur p pour Tutor est de 0,138 , ce qui n’est pas statistiquement significatif à un niveau alpha de 0,05. Cela indique que même si les étudiants qui ont eu recours à un tuteur ont obtenu de meilleurs résultats à l’examen, cette différence pourrait être due au hasard.
Interpréter tous les coefficients à la fois
Nous pouvons utiliser tous les coefficients du tableau de régression pour créer l’équation de régression estimée suivante :
Note attendue à l’examen = 48,56 + 2,03*(Heures étudiées) + 8,34*(Tuteur)
Remarque : Gardez à l’esprit que la variable prédictive « Tuteur » n’était pas statistiquement significative au niveau alpha 0,05, vous pouvez donc choisir de supprimer ce prédicteur du modèle et de ne pas l’utiliser dans l’équation de régression estimée finale.
À l’aide de cette équation de régression estimée, nous pouvons prédire la note à l’examen final d’un étudiant en fonction de son nombre total d’heures d’études et du fait qu’il ait ou non eu recours à un tuteur.
Par exemple, un étudiant qui a étudié pendant 10 heures et qui a fait appel à un tuteur devrait recevoir une note à l’examen de :
Note attendue à l’examen = 48,56 + 2,03*(10) + 8,34*(1) = 77,2
Prise en compte de la corrélation lors de l’interprétation des coefficients de régression
Il est important de garder à l’esprit que les variables prédictives peuvent s’influencer mutuellement dans un modèle de régression. Par exemple, la plupart des variables prédictives seront au moins quelque peu liées les unes aux autres (par exemple, un étudiant qui étudie davantage est également plus susceptible de faire appel à un tuteur).
Cela signifie que les coefficients de régression changeront lorsque différentes variables prédictives seront ajoutées ou supprimées du modèle.
Un bon moyen de voir si la corrélation entre les variables prédictives est suffisamment sévère pour influencer sérieusement le modèle de régression est de vérifier le VIF entre les variables prédictives .
Cela vous indiquera si la corrélation entre les variables prédictives constitue ou non un problème qui doit être résolu avant de décider d’interpréter les coefficients de régression.
Si vous exécutez un modèle de régression linéaire simple avec un seul prédicteur, les variables prédictives corrélées ne poseront pas de problème.