Coefficients de régression standardisés et non standardisés



La régression linéaire multiple est un moyen utile de quantifier la relation entre deux ou plusieurs variables prédictives et une variable de réponse .

Généralement, lorsque nous effectuons une régression linéaire multiple, les coefficients de régression résultants ne sont pas standardisés , ce qui signifie qu’ils utilisent les données brutes pour trouver la droite la mieux ajustée.

Cependant, lorsque les variables prédictives sont mesurées à des échelles radicalement différentes, il peut être utile d’effectuer une régression linéaire multiple à l’aide de données standardisées, ce qui aboutit à des coefficients standardisés .

Pour vous aider à comprendre cette idée, passons en revue un exemple simple.

Exemple : Coefficients de régression standardisés et non standardisés

Supposons que nous disposions de l’ensemble de données suivant contenant des informations sur l’âge, la superficie en pieds carrés et le prix de vente de 12 maisons :

Supposons que nous effectuions ensuite une régression linéaire multiple, en utilisant l’âge et la superficie en pieds carrés comme variables prédictives et le prix comme variable de réponse.

Voici le résultat de la régression :

Exemple de coefficients de régression non standardisés

Les coefficients de régression de ce tableau ne sont pas standardisés , ce qui signifie qu’ils ont utilisé les données brutes pour ajuster ce modèle de régression. À première vue, il semble que l’âge ait un effet beaucoup plus important sur le prix de l’immobilier puisque son coefficient dans le tableau de régression est de -409,833 , contre seulement 100,866 pour la variable prédictive superficie en pieds carrés .

Cependant, l’erreur type est beaucoup plus grande pour l’âge que pour la superficie en pieds carrés, c’est pourquoi la valeur p correspondante est en réalité grande pour l’âge (p = 0,520) et petite pour la superficie en pieds carrés (p = 0,000).

La raison des différences extrêmes dans les coefficients de régression est due aux différences extrêmes dans les échelles pour les deux variables :

  • Les valeurs pour l’âge vont de 4 à 44 ans.
  • Les valeurs de superficie en pieds carrés varient de 1 200 à 2 800.

Supposons que nous normalisions plutôt les données brutes d’origine en convertissant chaque valeur de données d’origine en un score z :

Standardiser les données dans Excel

Si nous effectuons ensuite une régression linéaire multiple en utilisant les données standardisées, nous obtiendrons le résultat de régression suivant :

Coefficients de régression standardisés

Les coefficients de régression de ce tableau sont standardisés , ce qui signifie qu’ils ont utilisé des données standardisées pour s’adapter à ce modèle de régression. La façon d’interpréter les coefficients du tableau est la suivante :

  • Une augmentation de l’ âge d’un écart type est associée à une diminution de 0,092 écart type du prix de l’immobilier, en supposant que la superficie en pieds carrés reste constante.
  • Une augmentation d’un écart type de la superficie en pieds carrés est associée à une augmentation de 0,885 écart type du prix de l’immobilier, en supposant que l’âge reste constant.

Nous pouvons immédiatement constater que la superficie en pieds carrés a un effet beaucoup plus important sur le prix de l’immobilier que l’âge. Notez également que les valeurs p pour chaque variable prédictive sont exactement les mêmes que celles du modèle de régression précédent.

Connexe : Comment calculer les scores Z dans Excel

Quand utiliser des coefficients de régression standardisés ou non standardisés

Les coefficients de régression standardisés et non standardisés peuvent tous deux être utiles selon la situation. En particulier:

Les coefficients de régression non standardisés sont utiles lorsque vous souhaitez interpréter l’effet qu’un changement d’une unité sur une variable prédictive a sur une variable de réponse. Dans l’exemple ci-dessus, nous pourrions utiliser les coefficients de régression non standardisés de la première régression pour comprendre la relation exacte entre les variables prédictives et la variable de réponse :

  • Une augmentation d’une unité en âge était associée à une diminution moyenne de 409 $ du prix de l’immobilier, en supposant que la superficie en pieds carrés restait constante. Ce coefficient s’est avéré non statistiquement significatif (p=0,520).
  • Une augmentation d’une unité de superficie en pieds carrés était associée à une augmentation moyenne de 100 $ du prix de l’immobilier, en supposant que l’âge restait constant. Ce coefficient s’est également révélé statistiquement significatif (p=0,000).

Les coefficients de régression standardisés sont utiles lorsque vous souhaitez comparer l’effet de différentes variables prédictives sur une variable de réponse. Puisque chaque variable est standardisée, vous pouvez voir quelle variable a le plus grand effet sur la variable de réponse.

L’inconvénient des coefficients de régression standardisés est qu’ils sont un peu plus difficiles à interpréter. Par exemple, il est plus facile de comprendre l’effet d’une augmentation d’une unité d’âge sur le prix de l’immobilier que l’effet d’une augmentation d’un écart type sur le prix de l’immobilier.

Ressources additionnelles

Comment lire et interpréter un tableau de régression
Comment interpréter les coefficients de régression
Comment effectuer une régression linéaire multiple dans Excel

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *