Régression linéaire

Cet article explique ce qu’est la régression linéaire et à quoi elle sert en statistiques. De plus, vous pourrez voir comment les deux types de régression linéaire sont calculés : la régression linéaire simple et la régression linéaire multiple.

Qu’est-ce que la régression linéaire ?

La régression linéaire est un modèle statistique qui relie une ou plusieurs variables indépendantes à une variable dépendante. Autrement dit, la régression linéaire est une technique utilisée pour trouver une équation qui se rapproche de la relation entre une ou plusieurs variables explicatives et une variable de réponse.

Par exemple, l’équation y=2+5x 1 -3x 2 +8x 3 est un modèle de régression linéaire, car elle relie mathématiquement trois variables indépendantes (x 1 , x 2 , x 3 ) avec une variable dépendante (y) et, de plus , la relation entre les variables est linéaire.

Types de régression linéaire

Il existe deux types de régression linéaire :

  • Régression linéaire simple : Une seule variable indépendante est liée à une variable dépendante. L’équation de ce type de modèle de régression linéaire est donc de la forme y=β 01 x 1 .
  • Régression linéaire multiple : Le modèle de régression comporte plusieurs variables explicatives et une variable de réponse. Par conséquent, l’équation de ce type de modèle de régression linéaire est de la forme y=β 01 x 12 x 2 …+β m x m .

régression linéaire simple

La régression linéaire simple est utilisée pour relier une variable indépendante aux deux variables.

L’équation d’un modèle de régression linéaire simple est une droite, elle est donc composée de deux coefficients : la constante de l’équation (β 0 ) et le coefficient de corrélation entre les deux variables (β 1 ). Par conséquent, l’équation d’un modèle de régression linéaire simple est y=β 01 x.

y=\beta_0+\beta_1x

Les formules pour calculer les coefficients de régression linéaire simple sont les suivantes :

\begin{array}{c}\beta_1=\cfrac{\displaystyle \sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})}{\displaystyle \sum_{i=1}^n (x_i-\overline{x})^2}\\[12ex]\beta_0=\overline{y}-\beta_1\overline{x}\end{array}

Où:

  • \beta_0 est la constante de la droite de régression.
  • \beta_1 est la pente de la droite de régression.
  • x_i est la valeur de la variable indépendante X des données i.
  • y_i est la valeur de la variable dépendante Y des données i.
  • \overline{x} est la moyenne des valeurs de la variable indépendante X.
  • \overline{y} est la moyenne des valeurs de la variable dépendante Y.

La régression linéaire multiple

Dans un modèle de régression linéaire multiple , au moins deux variables indépendantes sont incluses. Autrement dit, la régression linéaire multiple permet de relier de manière linéaire plusieurs variables explicatives à une variable de réponse.

L’équation d’un modèle de régression linéaire multiple est y=β 01 x 12 x 2 +…+β m x m +ε.

y=\beta_0+\beta_1 x_1+\beta_2 x_2+\dots+\beta_m x_m+\varepsilon

Où:

  • y est la variable dépendante.
  • x_i est la variable indépendante je.
  • \beta_0 est la constante de l’équation de régression linéaire multiple.
  • \beta_i est le coefficient de régression associé à la variablex_i .
  • \bm{\varepsilon} est l’erreur ou résidu, c’est-à-dire la différence entre la valeur observée et la valeur estimée par le modèle.
  • m est le nombre total de variables dans le modèle.

Donc si nous avons un échantillon avec un total de

n observations, nous pouvons poser le modèle de régression linéaire multiple sous forme matricielle :

\begin{pmatrix}y_1\\y_2\\\vdots\\y_n\end{pmatrix}=\begin{pmatrix}1&x_{11}&\dots&x_{1m}\\1&x_{21}&\dots&x_{2m}\\ \vdots&\vdots&\ddots&\vdots\\1&x_{n1}&\dots&x_{nm}\end{pmatrix}\cdot\begin{pmatrix}\beta_0\\\beta_1\\\vdots\\\beta_m\end{pmatrix}+\begin{pmatrix}\varepsilon_1\\\varepsilon_2\\\vdots\\\varepsilon_n\end{pmatrix}

L’expression matricielle ci-dessus peut être réécrite en attribuant une lettre à chaque matrice :

Y=X\beta+\varepsilon

Ainsi, en appliquant le critère des moindres carrés, on peut arriver à la formule pour estimer les coefficients d’un modèle de régression linéaire multiple :

\widehat{\beta}=\left(X^tX\right)^{-1}X^tY

Cependant, l’application de cette formule est très laborieuse et prend du temps, c’est pourquoi en pratique, il est recommandé d’utiliser un logiciel informatique (tel que Minitab ou Excel) qui permet de créer un modèle de régression multiple beaucoup plus rapidement.

Hypothèses de régression linéaire

Dans un modèle de régression linéaire, les conditions suivantes doivent être remplies pour que le modèle soit valide :

  • Indépendance : Les résidus doivent être indépendants les uns des autres. Une manière courante de garantir l’indépendance du modèle consiste à ajouter du caractère aléatoire au processus d’échantillonnage.
  • Homoscédasticité : il doit y avoir une homogénéité dans les variances des résidus, c’est-à-dire que la variabilité des résidus doit être constante.
  • Non-multicolinéarité : les variables explicatives incluses dans le modèle ne peuvent pas être liées entre elles ou, du moins, leur relation doit être très faible.
  • Normalité : les résidus doivent être distribués normalement, ou en d’autres termes, ils doivent suivre une distribution normale de moyenne 0.
  • Linéarité : on suppose que la relation entre la variable de réponse et les variables explicatives est linéaire.

A quoi sert la régression linéaire ?

La régression linéaire a essentiellement deux utilisations : la régression linéaire est utilisée pour expliquer la relation entre les variables explicatives et la variable de réponse et, de même, la régression linéaire est utilisée pour prédire la valeur de la variable dépendante pour une nouvelle observation.

En obtenant l’équation du modèle de régression linéaire, nous pouvons savoir quel type de relation existe entre les variables du modèle. Si le coefficient de régression d’une variable indépendante est positif, la variable dépendante augmentera lorsqu’elle augmentera. Tandis que si le coefficient de régression d’une variable indépendante est négatif, la variable dépendante diminuera lorsqu’elle augmentera.

D’autre part, l’équation calculée en régression linéaire permet également de faire des prédictions de valeur. Ainsi, en introduisant les valeurs des variables explicatives dans l’équation du modèle, nous pouvons calculer la valeur de la variable dépendante pour une nouvelle donnée.

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *