Ligne de régression

Cet article explique ce qu’est la ligne de régression dans les statistiques. Ainsi, vous trouverez comment calculer la droite de régression entre deux variables, un exercice résolu et, en plus, une calculatrice en ligne pour calculer la droite de régression pour n’importe quel échantillon de données.

Quelle est la droite de régression ?

En statistique, la droite de régression est la droite obtenue à partir d’un modèle de régression linéaire simple . Plus précisément, la droite de régression est la droite qui correspond le mieux à un nuage de points et, par conséquent, décrit le mieux un ensemble de données statistiques.

Ainsi, l’équation de la droite de régression relie mathématiquement la variable indépendante X et la variable dépendante Y d’un ensemble de données. Bien que la droite de régression ne soit généralement pas capable de déterminer avec précision la valeur de chaque observation, elle permet d’obtenir une approximation de sa valeur.

ligne de régression

Comme vous pouvez le voir dans le graphique précédent, la droite de régression nous aide à voir la tendance d’un ensemble de données et quel type de relation existe entre la variable indépendante et la variable dépendante. Ci-dessous, nous examinerons les applications de la droite de régression.

Formule de droite de régression

Maintenant que nous connaissons la définition de la droite de régression, voyons comment calculer l’équation de la droite d’un modèle de régression linéaire.

Comme toute droite, l’équation de la droite de régression est formée d’une constante (b 0 ) et d’une pente (b 1 ) :

y=b_0+b_1x

Ainsi, les formules pour calculer les coefficients de la droite de régression linéaire sont les suivantes :

\begin{array}{c}b_1=\cfrac{\displaystyle \sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})}{\displaystyle \sum_{i=1}^n (x_i-\overline{x})^2}\\[12ex]b_0=\overline{y}-b_1\overline{x}\end{array}

Où:

  • b_0 est la constante de la droite de régression.
  • b_1 est la pente de la droite de régression.
  • x_i est la valeur de la variable indépendante X des données i.
  • y_i est la valeur de la variable dépendante Y des données i.
  • \overline{x} est la moyenne des valeurs de la variable indépendante X.
  • \overline{y} est la moyenne des valeurs de la variable dépendante Y.

👉 Vous pouvez utiliser la calculatrice ci-dessous pour calculer la droite de régression pour n’importe quel ensemble de données.

Exemple concret de la droite de régression

Pour approfondir le concept de droite de régression, vous trouverez ci-dessous un exemple concret de la façon de créer une droite de régression.

  • Après avoir passé un examen de statistiques, il a été demandé à cinq étudiants combien d’heures d’études ils avaient consacré à l’examen, les données sont présentées dans le tableau ci-dessous. Calculez la droite de régression des données statistiques collectées pour relier linéairement les heures d’études à la note obtenue. Ensuite, déterminez quelle note obtiendra un étudiant qui a étudié 8 heures.

Pour trouver la droite de régression pour l’échantillon de données, nous devons déterminer les coefficients b 0 et b 1 de l’équation et, pour ce faire, nous devons utiliser les formules vues dans la section ci-dessus.

Cependant, pour appliquer les formules de la droite de régression linéaire, nous devons d’abord calculer la moyenne de la variable indépendante et la moyenne de la variable dépendante :

\begin{array}{c}\overline{x}=\cfrac{11+5+10+12+7}{5}=9\\[4ex]\overline{y}=\cfrac{7+4+5+8+6}{5}=6\end{array}

Maintenant que l’on connaît les moyennes des variables, on calcule le coefficient b 1 du modèle à l’aide de sa formule correspondante :

\begin{array}{c}b_1=\cfrac{\displaystyle \sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})}{\displaystyle \sum_{i=1}^n (x_i-\overline{x})^2}\\[10ex] b_1=\cfrac{\begin{array}{c}(11-9)(7-6)+(5-9)(4-6)+(10-9)(5-6)+\\+(12-9)(8-6)+(7-9)(6-6)\end{array}}{(11-9)^2+(5-9)^2+(10-9)^2+(12-9)^2+(7-9)^2}\\[6ex]b_1=0,4412\end{array}

Enfin, on calcule le coefficient b 0 du modèle à l’aide de sa formule correspondante :

\begin{array}{l}b_0=\overline{y}-b_1\overline{x}\\[3ex]b_0=6-0,4412\cdot 9 \\[3ex]b_0=2,0294\end{array}

En bref, l’équation de la droite de régression linéaire du problème est la suivante :

y=2,0294+0,4412x

Ci-dessous, vous pouvez voir la représentation graphique de l’échantillon de données ainsi que la ligne droite du modèle de régression linéaire simple :

exemple de ligne de régression linéaire

Une fois que nous avons calculé la droite de régression, pour prédire la note qu’obtiendra un étudiant qui a étudié 8 heures, il suffit de substituer cette valeur dans l’équation de la droite de régression obtenue :

y=2,0294+0,4412\cdot 8=5,56

Ainsi, selon le modèle de régression linéaire réalisé, si un étudiant a étudié huit heures, il obtiendra une note de 5,56 à l’examen.

A quoi sert une droite de régression ?

Principalement, la droite de régression a deux utilisations : la droite de régression est utilisée pour déterminer quel type de relation existe entre deux variables et, d’autre part, la droite de régression permet également de faire une prédiction sur la valeur d’une nouvelle observation.

La pente de la droite de régression nous indique comment se situe la corrélation entre la variable indépendante et la variable dépendante. Si la pente est positive, cela signifie que la variable dépendante est directement proportionnelle à la variable indépendante, tandis que si la pente est négative, cela implique que les variables sont inversement proportionnelles. Enfin, si le coefficient de pente est très proche de zéro, cela signifie que la corrélation entre les deux variables est très faible.

De plus, si l’équation de la droite de régression est connue, la valeur de la variable dépendante peut être prédite pour une nouvelle valeur de la variable indépendante, comme nous l’avons fait dans l’exemple ci-dessus. Ainsi, plus la droite de régression est adaptée, meilleures sont les prédictions qu’elle fera.

Calculateur de droite de régression

Entrez un échantillon de données dans la calculatrice suivante pour calculer la ligne de régression entre les deux variables. Vous devez séparer les paires de données, de sorte que dans la première case il n’y ait que les valeurs de la variable indépendante X et dans la deuxième case il n’y ait que les valeurs de la variable dépendante Y.

Les données doivent être séparées par un espace et saisies en utilisant le point comme séparateur décimal.

  • Variable indépendante X :

  • Variable dépendante Y :

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *