Analyse de régression

Cet article explique ce qu’est l’analyse de régression et à quoi elle sert en statistiques. De plus, vous pourrez voir quels sont les différents types d’analyse de régression.

Qu’est-ce que l’analyse de régression ?

En statistique, l’analyse de régression est un processus dans lequel la relation entre deux ou plusieurs variables est étudiée. Plus précisément, l’analyse de régression consiste à calculer une équation qui relie mathématiquement les variables de l’étude.

Le modèle construit dans une analyse de régression est appelé modèle de régression, tandis que l’équation qui relie les variables étudiées est appelée équation de régression.

Par exemple, si vous souhaitez étudier la relation entre l’inflation d’un pays et son PIB, vous pouvez effectuer une analyse de régression pour analyser la relation entre les deux variables. Dans ce cas, l’équation obtenue à partir de l’analyse de régression serait une droite de régression.

analyse de régression

Ainsi, une analyse de régression consiste à collecter un échantillon de données et, à partir des données collectées, une équation est calculée qui permet de relier mathématiquement les variables étudiées.

Dans les analyses de régression, il est important de faire la distinction entre les deux types de variables qui peuvent être incluses dans le modèle de régression :

  • Variable dépendante (ou variable de réponse) : c’est le facteur que l’on veut analyser, donc un modèle de régression sera construit pour voir comment la valeur de cette variable varie en fonction de la valeur d’autres variables.
  • Variable indépendante (ou variable explicative) : c’est un facteur que l’on considère comme susceptible d’influencer la variable que l’on souhaite analyser. Autrement dit, la valeur de la variable indépendante affecte la valeur de la variable dépendante.

Types d’analyse de régression

Fondamentalement, il existe trois types d’analyse de régression :

  • Analyse de régression linéaire simple : Le modèle de régression a une variable indépendante et une variable dépendante et elles sont liées de manière linéaire.
  • Analyse de régression linéaire multiple : deux variables indépendantes ou plus sont liées linéairement à une variable dépendante.
  • Analyse de régression non linéaire : la relation entre la variable indépendante et la variable dépendante est modélisée à l’aide d’une fonction non linéaire.

Analyse de régression linéaire simple

La régression linéaire simple est utilisée pour relier une variable indépendante aux deux variables à l’aide d’une équation linéaire.

L’équation d’un modèle de régression linéaire simple est une droite, elle est donc composée de deux coefficients : la constante de l’équation (β 0 ) et le coefficient de corrélation entre les deux variables (β 1 ). Par conséquent, l’équation d’un modèle de régression linéaire simple est y=β 01 x.

y=\beta_0+\beta_1x

Les formules pour calculer les coefficients de la régression linéaire simple sont les suivantes :

\begin{array}{c}\beta_1=\cfrac{\displaystyle \sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})}{\displaystyle \sum_{i=1}^n (x_i-\overline{x})^2}\\[12ex]\beta_0=\overline{y}-\beta_1\overline{x}\end{array}

Où:

  • \beta_0 est la constante de la droite de régression.
  • \beta_1 est la pente de la droite de régression.
  • x_i est la valeur de la variable indépendante X des données i.
  • y_i est la valeur de la variable dépendante Y des données i.
  • \overline{x} est la moyenne des valeurs de la variable indépendante X.
  • \overline{y} est la moyenne des valeurs de la variable dépendante Y.

Analyse de régression linéaire multiple

Dans un modèle de régression linéaire multiple , au moins deux variables indépendantes sont incluses. Autrement dit, la régression linéaire multiple permet de relier de manière linéaire plusieurs variables explicatives à une variable de réponse. Par conséquent, l’équation d’un modèle de régression linéaire multiple est la suivante :

y=\beta_0+\beta_1 x_1+\beta_2 x_2+\dots+\beta_m x_m+\varepsilon

Où:

  • y est la variable dépendante.
  • x_i est la variable indépendante je.
  • \beta_0 est la constante de l’équation de régression linéaire multiple.
  • \beta_i est le coefficient de régression associé à la variablex_i .
  • \bm{\varepsilon} est l’erreur ou résidu, c’est-à-dire la différence entre la valeur observée et la valeur estimée par le modèle.
  • m est le nombre total de variables dans le modèle.

Donc si nous avons un échantillon avec un total de

n observations, nous pouvons poser le modèle de régression linéaire multiple sous forme matricielle :

\begin{pmatrix}y_1\\y_2\\\vdots\\y_n\end{pmatrix}=\begin{pmatrix}1&x_{11}&\dots&x_{1m}\\1&x_{21}&\dots&x_{2m}\\ \vdots&\vdots&\ddots&\vdots\\1&x_{n1}&\dots&x_{nm}\end{pmatrix}\cdot\begin{pmatrix}\beta_0\\\beta_1\\\vdots\\\beta_m\end{pmatrix}+\begin{pmatrix}\varepsilon_1\\\varepsilon_2\\\vdots\\\varepsilon_n\end{pmatrix}

L’expression matricielle ci-dessus peut être réécrite en attribuant une lettre à chaque matrice :

Y=X\beta+\varepsilon

Ainsi, en appliquant le critère des moindres carrés, on peut arriver à la formule pour estimer les coefficients d’un modèle de régression linéaire multiple :

\widehat{\beta}=\left(X^tX\right)^{-1}X^tY

Cependant, l’application de cette formule est très laborieuse et prend du temps, c’est pourquoi en pratique, il est recommandé d’utiliser un logiciel informatique (tel que Minitab ou Excel) qui permet de créer un modèle de régression multiple beaucoup plus rapidement.

Analyse de régression non linéaire

En statistique, la régression non linéaire est un type de régression dans lequel une fonction non linéaire est utilisée comme modèle de l’équation de régression. Par conséquent, l’équation d’un modèle de régression non linéaire est une fonction non linéaire.

Logiquement, la régression non linéaire est utilisée pour relier la variable indépendante à la variable dépendante lorsque la relation entre les deux variables n’est pas linéaire. Ainsi, si lors de la représentation graphique de l’échantillon de données, nous observons qu’elles n’ont pas de relation linéaire, c’est-à-dire qu’elles ne forment pas approximativement une ligne droite, il est préférable d’utiliser un modèle de régression non linéaire.

Par exemple, l’équation y=3-5x-8x 2 +x 3 est un modèle de régression non linéaire, car elle relie mathématiquement la variable indépendante X à la variable dépendante Y via une fonction cubique.

On distingue principalement trois types de régression non linéaire :

  • Régression polynomiale – Régression non linéaire dont l’équation se présente sous la forme d’un polynôme.
  • y=\beta_0+\beta_1 x+\beta_2 x^2+\beta_3 x^3+\dots+\beta_m x^m

  • Régression logarithmique – Régression non linéaire dans laquelle la variable indépendante est logarithmisée.
  • y=\beta_0+\beta_1\cdot \ln(x)

  • Régression exponentielle – Régression non linéaire dans laquelle la variable indépendante réside dans l’exposant de l’équation.
  • y=\beta_0\cdot e^{\beta_1\cdot x}

A quoi sert l’analyse de régression ?

L’analyse de régression a essentiellement deux utilisations : l’analyse de régression est utilisée pour expliquer la relation entre les variables explicatives et la variable de réponse et, de même, l’analyse de régression est utilisée pour prédire la valeur de la variable dépendante pour une nouvelle observation.

En obtenant l’équation du modèle de régression, nous pouvons savoir quel type de relation existe entre les variables du modèle. Si le coefficient de régression d’une variable indépendante est positif, la variable dépendante augmentera lorsqu’elle augmentera. Tandis que si le coefficient de régression d’une variable indépendante est négatif, la variable dépendante diminuera lorsqu’elle augmentera.

D’autre part, l’équation mathématique obtenue à partir de l’analyse de régression nous permet également de faire des prédictions de valeur. Ainsi, en introduisant les valeurs des variables explicatives dans l’équation du modèle de régression, on peut calculer la valeur de la variable dépendante pour une nouvelle donnée.

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *