Équation de régression

Par Pr Amélia Rodriguez août 2, 2023 Statistiques 0 commentaire

Cet article explique ce qu’est une équation de régression et à quoi elle sert. De même, vous découvrirez comment trouver une équation de régression, un exercice résolu et, enfin, une calculatrice en ligne pour calculer l’équation de régression pour n’importe quel ensemble de données.

Quelle est l’équation de régression ?

L’ équation de régression est l’équation qui correspond le mieux à un diagramme de points, c’est-à-dire que l’équation de régression est la meilleure approximation d’un ensemble de données.

L’équation de régression est de la forme y=β ₀ +β ₁ x, où β ₀ est la constante de l’équation et β ₁ est la pente de l’équation.

$y=\beta_0+\beta_1x$

Si vous regardez l’équation de régression, c’est l’équation d’une droite. Cela signifie que la relation entre la variable indépendante X et la variable dépendante Y est modélisée comme une relation linéaire, puisque la ligne représente une relation linéaire.

Ainsi, l’équation de régression nous permet de relier mathématiquement la variable indépendante et la variable dépendante d’un ensemble de données. Bien que l’équation de régression ne soit généralement pas capable de déterminer avec précision la valeur de chaque observation, elle sert néanmoins à obtenir une approximation de sa valeur.

Comme vous pouvez le voir dans le graphique précédent, l’équation de régression nous aide à voir la tendance d’un ensemble de données et quel type de relation existe entre la variable indépendante et la variable dépendante.

Comment calculer l’équation de régression

Les formules pour calculer les coefficients de l’équation de régression linéaire simple sont les suivantes :

$\begin{array}{c}\beta_1=\cfrac{\displaystyle \sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})}{\displaystyle \sum_{i=1}^n (x_i-\overline{x})^2}\\[12ex]\beta_0=\overline{y}-\beta_1\overline{x}\end{array}$

Où:

$\beta_0$ est la constante de l’équation de régression.
$\beta_1$ est la pente de l’équation de régression.
$x_i$ est la valeur de la variable indépendante X des données i.
$y_i$ est la valeur de la variable dépendante Y des données i.
$\overline{x}$ est la moyenne des valeurs de la variable indépendante X.
$\overline{y}$ est la moyenne des valeurs de la variable dépendante Y.

Exemple de calcul de l’équation de régression

Après avoir passé un examen de statistiques, il a été demandé à cinq étudiants combien d’heures d’études ils avaient consacré à l’examen, les données sont présentées dans le tableau ci-dessous. Calculer l’équation de régression des données statistiques collectées pour relier linéairement les heures d’études à la note obtenue. Ensuite, déterminez quelle note obtiendra un étudiant qui a étudié 8 heures.

Pour trouver l’équation de régression pour l’échantillon de données, nous devons déterminer les coefficients b ₀ et b ₁ de l’équation et, pour ce faire, nous devons utiliser les formules vues dans la section ci-dessus.

Cependant, afin d’appliquer les formules de l’équation de régression linéaire, nous devons d’abord calculer la moyenne de la variable indépendante et la moyenne de la variable dépendante :

$\begin{array}{c}\overline{x}=\cfrac{11+5+10+12+7}{5}=9\\[4ex]\overline{y}=\cfrac{7+4+5+8+6}{5}=6\end{array}$

Maintenant que l’on connaît les moyennes des variables, on calcule le coefficient β ₁ du modèle à l’aide de sa formule correspondante :

$\begin{array}{c}\beta_1=\cfrac{\displaystyle \sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})}{\displaystyle \sum_{i=1}^n (x_i-\overline{x})^2}\\[10ex] \beta_1=\cfrac{\begin{array}{c}(11-9)(7-6)+(5-9)(4-6)+(10-9)(5-6)+\\+(12-9)(8-6)+(7-9)(6-6)\end{array}}{(11-9)^2+(5-9)^2+(10-9)^2+(12-9)^2+(7-9)^2}\\[6ex]\beta_1=0,4412\end{array}$

Enfin, nous calculons le coefficient β ₀ du modèle à l’aide de sa formule correspondante :

$\begin{array}{l}\beta_0=\overline{y}-\beta_1\overline{x}\\[3ex]\beta_0=6-0,4412\cdot 9 \\[3ex]\beta_0=2,0294\end{array}$

En bref, l’équation de la droite de régression linéaire du problème est la suivante :

$y=2,0294+0,4412x$

Ci-dessous, vous pouvez voir la représentation graphique de l’échantillon de données ainsi que l’équation du modèle de régression linéaire simple :

Une fois que nous avons calculé l’équation de régression, pour prédire la note qu’obtiendra un étudiant qui a étudié 8 heures, il suffit de substituer cette valeur dans l’équation de régression obtenue :

$y=2,0294+0,4412\cdot 8=5,56$

Ainsi, selon le modèle de régression linéaire réalisé, si un étudiant a étudié huit heures, il obtiendra une note de 5,56 à l’examen.

Calculateur d’équation de régression

Branchez un échantillon de données dans la calculatrice ci-dessous pour calculer votre équation de régression. Vous devez séparer les paires de données, de sorte que dans la première case il n’y ait que les valeurs de la variable indépendante X et dans la deuxième case il n’y ait que les valeurs de la variable dépendante Y.

Les données doivent être séparées par un espace et saisies en utilisant le point comme séparateur décimal.

Équation de régression linéaire multiple

Nous venons de voir ce qu’est l’équation de régression linéaire simple, cependant, le modèle de régression peut également être un modèle de régression linéaire multiple, qui comprend deux ou plusieurs variables indépendantes. Ainsi, la régression linéaire multiple permet de relier de manière linéaire plusieurs variables explicatives à une variable de réponse.

L’ équation du modèle de régression linéaire multiple est la suivante :

$y=\beta_0+\beta_1 x_1+\beta_2 x_2+\dots+\beta_m x_m+\varepsilon$

Où:

$y$ est la variable dépendante.
$x_i$ est la variable indépendante je.
$\beta_0$ est la constante de l’équation de régression linéaire multiple.
$\beta_i$ est le coefficient de régression associé à la variable $x_i$ .
$\bm{\varepsilon}$ est l’erreur ou résidu, c’est-à-dire la différence entre la valeur observée et la valeur estimée par le modèle.
$m$ est le nombre total de variables dans le modèle.

Donc si nous avons un échantillon avec un total de

$n$ observations, nous pouvons poser le modèle de régression linéaire multiple sous forme matricielle :

$\begin{pmatrix}y_1\\y_2\\\vdots\\y_n\end{pmatrix}=\begin{pmatrix}1&x_{11}&\dots&x_{1m}\\1&x_{21}&\dots&x_{2m}\\ \vdots&\vdots&\ddots&\vdots\\1&x_{n1}&\dots&x_{nm}\end{pmatrix}\cdot\begin{pmatrix}\beta_0\\\beta_1\\\vdots\\\beta_m\end{pmatrix}+\begin{pmatrix}\varepsilon_1\\\varepsilon_2\\\vdots\\\varepsilon_n\end{pmatrix}$

L’expression matricielle ci-dessus peut être réécrite en attribuant une lettre à chaque matrice :

$Y=X\beta+\varepsilon$

Ainsi, en appliquant le critère des moindres carrés, on peut arriver à la formule pour estimer les coefficients d’une équation de régression linéaire multiple :

$\widehat{\beta}=\left(X^tX\right)^{-1}X^tY$

Cependant, l’application de cette formule est très laborieuse et prend du temps, c’est pourquoi en pratique, il est recommandé d’utiliser un logiciel informatique (tel que Minitab ou Excel) qui permet de créer un modèle de régression multiple beaucoup plus rapidement.

➤ Voir : Qu’est-ce que la régression linéaire multiple ?

à propos de l'auteur

Pr Amélia Rodriguez

En mettant l'accent sur l'apprentissage interactif et les applications pratiques, la professeure Amélia Rodriguez propose des tutoriels complets et des exemples concrets pour rendre les concepts de probabilité accessibles et pertinents pour la vie de ses étudiants. Lire plus