Comment interpréter l’interception dans un modèle de régression : avec des exemples
L’ ordonnée à l’origine (parfois appelée « constante ») dans un modèle de régression représente la valeur moyenne de la variable de réponse lorsque toutes les variables prédictives du modèle sont égales à zéro.
Ce didacticiel explique comment interpréter la valeur d’origine dans les modèles de régression linéaire simple et de régression linéaire multiple.
Interprétation de l’intersection dans la régression linéaire simple
Un modèle de régression linéaire simple prend la forme suivante :
ŷ = β 0 + β 1 (x)
où:
- ŷ : la valeur prédite pour la variable de réponse
- β 0 : La valeur moyenne de la variable de réponse lorsque x = 0
- β 1 : La variation moyenne de la variable de réponse pour une augmentation d’une unité de x
- x : la valeur de la variable prédictive
Dans certains cas, il est judicieux d’interpréter la valeur de l’ordonnée à l’origine dans un modèle de régression linéaire simple, mais pas toujours. Les exemples suivants illustrent cela.
Exemple 1 : L’interception a du sens à interpréter
Supposons que nous souhaitions ajuster un modèle de régression linéaire simple en utilisant les heures étudiées comme variable prédictive et les résultats à l’examen comme variable de réponse.
Nous collectons ces données pour 50 étudiants dans un certain cours universitaire et ajustons le modèle de régression suivant :
Note à l’examen = 65,4 + 2,67 (heures)
La valeur du terme d’origine dans ce modèle est 65,4 . Cela signifie que la note moyenne à l’examen est de 65,4 lorsque le nombre d’heures étudiées est égal à zéro.
Cela a du sens à interpréter puisqu’il est plausible qu’un étudiant étudie pendant zéro heure en vue d’un examen.
Exemple 2 : l’interception n’a pas de sens à interpréter
Supposons que nous souhaitions ajuster un modèle de régression linéaire simple en utilisant le poids (en livres) comme variable prédictive et la taille (en pouces) comme variable de réponse.
Nous collectons ces données pour 50 individus et appliquons le modèle de régression suivant :
Hauteur = 22,3 + 0,28 (livres)
La valeur du terme d’origine dans ce modèle est 22,3 . Cela signifierait que la taille moyenne d’une personne est de 22,3 pouces lorsque son poids est égal à zéro.
Cela n’a aucun sens à interpréter puisqu’il n’est pas possible pour une personne de peser zéro livre.
Cependant, nous devons toujours conserver le terme d’origine dans le modèle afin de pouvoir utiliser le modèle pour faire des prédictions. L’interception n’a tout simplement aucune interprétation significative pour ce modèle.
Interprétation de l’intersection dans la régression linéaire multiple
Un modèle de régression linéaire multiple prend la forme suivante :
ŷ = β 0 + β 1 (x 1 ) + β 2 (x 2 ) + β 3 (x 3 ) + … + β k (x k )
où:
- ŷ : la valeur prédite pour la variable de réponse
- β 0 : La valeur moyenne de la variable de réponse lorsque toutes les variables prédictives sont nulles
- β j : variation moyenne de la variable de réponse pour une augmentation d’une unité de la j ème variable prédictive, en supposant que toutes les autres variables prédictives restent constantes.
- x j : la valeur de la j ème variable prédictive
Semblable à la régression linéaire simple, il est parfois logique d’interpréter la valeur de l’ordonnée à l’origine dans un modèle de régression linéaire multiple, mais pas toujours. Les exemples suivants illustrent cela.
Exemple 1 : L’interception a du sens à interpréter
Supposons que nous souhaitions adapter un modèle de régression linéaire multiple en utilisant les heures d’études et les examens préparatoires passés comme variables prédictives et les résultats de l’examen comme variable de réponse.
Nous collectons ces données pour 50 étudiants dans un certain cours universitaire et ajustons le modèle de régression suivant :
Score d’examen = 58,4 + 2,23 (heures) + 1,34 (nombre d’examens préparatoires)
La valeur du terme d’origine dans ce modèle est 58,4 . Cela signifie que la note moyenne à l’examen est de 58,4 lorsque le nombre d’heures étudiées et le nombre d’examens préparatoires passés sont tous deux égaux à zéro.
Cela a du sens à interpréter puisqu’il est plausible qu’un étudiant étudie pendant zéro heure et ne passe aucun examen préparatoire avant l’examen lui-même.
Exemple 2 : l’interception n’a pas de sens à interpréter
Supposons que nous souhaitions ajuster un modèle de régression linéaire multiple utilisant la superficie en pieds carrés et le nombre de chambres comme variables prédictives et le prix de vente comme variable de réponse.
Nous collectons ces données pour 100 maisons dans une certaine ville et appliquons le modèle de régression suivant :
Prix = 87 244 + 3,44 (pieds carrés) + 843,45 (nombre de chambres)
La valeur du terme d’origine dans ce modèle est 87 244 . Cela signifierait que le prix de vente moyen d’une maison est de 87 244 $ lorsque la superficie en pieds carrés et le nombre de chambres d’une maison sont tous deux égaux à zéro.
Cela n’a pas de sens à interpréter puisqu’il n’est pas possible pour une maison d’avoir zéro superficie en pieds carrés et zéro chambre.
Cependant, nous devons toujours conserver le terme d’origine dans le modèle afin de l’utiliser pour faire des prédictions. L’interception n’a tout simplement aucune interprétation significative pour ce modèle.
Ressources additionnelles
Introduction à la régression linéaire simple
Introduction à la régression linéaire multiple
Comment interpréter les coefficients de régression partielle