Comment calculer les résidus dans l’analyse de régression
La régression linéaire simple est une méthode statistique que vous pouvez utiliser pour comprendre la relation entre deux variables, x et y.
Une variable, x , est connue sous le nom de variable prédictive. L’autre variable, y , est connue sous le nom de variable de réponse .
Par exemple, supposons que nous disposions de l’ensemble de données suivant avec le poids et la taille de sept individus :
Laissez le poids être la variable prédictive et laissez la taille être la variable de réponse.
Si nous représentons graphiquement ces deux variables à l’aide d’un nuage de points , avec le poids sur l’axe des x et la hauteur sur l’axe des y, voici à quoi cela ressemblerait :
À partir du nuage de points, nous pouvons clairement voir qu’à mesure que le poids augmente, la taille a également tendance à augmenter, mais pour quantifier réellement cette relation entre le poids et la taille, nous devons utiliser la régression linéaire.
En utilisant la régression linéaire, nous pouvons trouver la droite qui « correspond » le mieux à nos données :
La formule de cette droite de meilleur ajustement s’écrit :
ŷ = b 0 + b 1 x
où ŷ est la valeur prédite de la variable de réponse, b 0 est l’ordonnée à l’origine, b 1 est le coefficient de régression et x est la valeur de la variable prédictive.
Dans cet exemple, la ligne la mieux ajustée est :
taille = 32,783 + 0,2001*(poids)
Comment calculer les résidus
Notez que les points de données de notre nuage de points ne correspondent pas toujours exactement à la ligne de meilleur ajustement :
Cette différence entre le point de données et la ligne est appelée le résidu . Pour chaque point de données, nous pouvons calculer le résidu de ce point en prenant la différence entre sa valeur réelle et la valeur prédite à partir de la ligne de meilleur ajustement.
Exemple 1 : Calcul d’un résidu
Par exemple, rappelez-vous le poids et la taille des sept individus de notre ensemble de données :
Le premier individu pèse 140 livres. et une hauteur de 60 pouces.
Pour connaître la taille prévue de cet individu, nous pouvons insérer son poids dans la droite de l’équation du meilleur ajustement :
taille = 32,783 + 0,2001*(poids)
Ainsi, la taille prédite de cet individu est :
hauteur = 32,783 + 0,2001*(140)
hauteur = 60,797 pouces
Ainsi, le résidu pour ce point de données est 60 – 60,797 = -0,797 .
Exemple 2 : Calcul d’un résidu
Nous pouvons utiliser exactement le même processus que celui utilisé ci-dessus pour calculer le résidu pour chaque point de données. Par exemple, calculons le résidu pour le deuxième individu de notre ensemble de données :
Le deuxième individu pèse 155 livres. et une hauteur de 62 pouces.
Pour connaître la taille prévue de cet individu, nous pouvons insérer son poids dans la droite de l’équation du meilleur ajustement :
taille = 32,783 + 0,2001*(poids)
Ainsi, la taille prédite de cet individu est :
hauteur = 32,783 + 0,2001*(155)
hauteur = 63,7985 pouces
Ainsi, le résidu pour ce point de données est 62 – 63,7985 = -1,7985 .
Calculer tous les résidus
En utilisant la même méthode que les deux exemples précédents, nous pouvons calculer les résidus pour chaque point de données :
Notez que certains résidus sont positifs et d’autres négatifs. Si nous additionnons tous les résidus, leur total sera nul.
En effet, la régression linéaire trouve la ligne qui minimise le carré total des résidus, c’est pourquoi la ligne traverse parfaitement les données, certains points de données se trouvant au-dessus de la ligne et d’autres en dessous de la ligne.
Visualiser les résidus
Rappelez-vous qu’un résidu est simplement la distance entre la valeur réelle des données et la valeur prédite par la droite de régression du meilleur ajustement. Voici à quoi ressemblent visuellement ces distances sur un nuage de points :
Notez que certains résidus sont plus grands que d’autres. De plus, certains résidus sont positifs et d’autres négatifs, comme nous l’avons mentionné précédemment.
Création d’un tracé résiduel
L’intérêt du calcul des résidus est de voir dans quelle mesure la droite de régression s’ajuste aux données.
Des résidus plus grands indiquent que la droite de régression ne correspond pas bien aux données, c’est-à-dire que les points de données réels ne se rapprochent pas de la droite de régression.
Des résidus plus petits indiquent que la droite de régression s’ajuste mieux aux données, c’est-à-dire que les points de données réels se rapprochent de la droite de régression.
Un type de tracé utile pour visualiser tous les résidus à la fois est un tracé des résidus. Un tracé résiduel est un type de tracé qui affiche les valeurs prédites par rapport aux valeurs résiduelles pour un modèle de régression.
Ce type de graphique est souvent utilisé pour évaluer si un modèle de régression linéaire est approprié ou non pour un ensemble de données donné et pour vérifier l’ hétéroscédasticité des résidus.
Consultez ce didacticiel pour découvrir comment créer un tracé résiduel pour un modèle de régression linéaire simple dans Excel.