Multicolinéarité

Cet article explique ce qu’est la multicolinéarité dans les statistiques. Ainsi, vous découvrirez quand la multicolinéarité existe, quelles sont les conséquences de la multicolinéarité, comment identifier la multicolinéarité et, enfin, comment résoudre ce problème.

Qu’est-ce que la multicolinéarité ?

La multicolinéarité est une situation qui se produit lorsque deux ou plusieurs variables explicatives dans un modèle de régression ont une forte corrélation. Autrement dit, dans un modèle de régression, la multicolinéarité existe lorsque la relation entre deux ou plusieurs variables du modèle est très forte.

Par exemple, si nous réalisons un modèle de régression qui relie l’espérance de vie d’un pays à la taille de sa population et à son PIB, une multicolinéarité se produira sûrement entre la taille de la population et le PIB, puisque ces deux variables sont généralement fortement corrélées. corrélée. Il sera donc difficile d’analyser l’effet de chaque variable sur l’espérance de vie.

Logiquement, les variables d’un modèle seront toujours corrélées entre elles ; ce n’est que dans un processus idyllique qu’une non-corrélation se produit entre les variables. Cependant, ce qui nous intéresse, c’est que la corrélation entre les variables soit faible, sinon nous ne pouvons pas connaître l’effet de chaque variable explicative sur la variable réponse.

Les principales causes de multicolinéarité sont généralement la petite taille de l’échantillon, l’existence d’une relation causale entre les variables explicatives ou la faible variabilité des observations.

Types de multicolinéarité

Il existe deux types de multicolinéarité :

  • Multicolinéarité exacte : lorsqu’une ou plusieurs variables sont une combinaison linéaire d’autres variables. Dans ce cas, le coefficient de corrélation entre les variables multicolinéaires est égal à 1.
  • Multicolinéarité approximative : Il n’y a pas de combinaison linéaire entre variables, mais le coefficient de détermination entre deux ou plusieurs variables est très proche de 1 et donc elles sont fortement corrélées.

Conséquences de la multicolinéarité

  • La valeur des coefficients de régression du modèle change lorsque l’on ajoute des variables corrélées, ce qui rend difficile l’interprétation du modèle de régression obtenu.
  • La précision de l’estimation des paramètres est réduite, de sorte que l’erreur type des coefficients de régression augmente.
  • Certaines des variables à l’origine de la multicolinéarité sont sûrement redondantes et il n’est donc pas nécessaire de les inclure dans le modèle.
  • Il est probable que vous tombiez dans une situation de surajustement, c’est-à-dire que le modèle est trop ajusté et, pour cette raison, n’est pas utile pour faire des prédictions.
  • Les valeurs p des coefficients de régression deviennent moins fiables. Par conséquent, il est plus difficile de déterminer quelles variables inclure et quelles variables supprimer dans le modèle de régression.

Comment détecter la multicolinéarité

Une façon d’identifier la multicolinéarité consiste à calculer la matrice de corrélation , car elle contient le coefficient de corrélation entre toutes les variables et, par conséquent, elle peut être observée si une paire de variables est fortement corrélée.

Cependant, avec la matrice de corrélation, vous pouvez seulement savoir si deux variables sont liées entre elles, mais vous ne pouvez pas savoir s’il existe une combinaison entre un ensemble de variables. Pour ce faire, le facteur d’inflation de la variance est généralement calculé.

Le facteur d’inflation de la variance (VIF) , également appelé facteur d’inflation de la variance (VIF) , est un coefficient statistique calculé pour chaque variable explicative et indique la corrélation des autres variables avec une variable explicative donnée. Concrètement, sa formule est la suivante :

FIV_i=\cfrac{1}{1-R_i^2}

FIV_i est le facteur d’inflation de la variance de la variable iyR_i^2 est le coefficient de détermination du modèle de régression qui a la variable i comme variable dépendante et le reste des variables comme variables indépendantes.

Ainsi, en fonction de la valeur des facteurs d’inflation de la variance obtenue, il est possible de savoir s’il y a multicolinéarité ou non :

  • VIF = 1 : Lorsque le facteur d’inflation de la variance est égal à 1, cela signifie qu’il n’y a pas de corrélation entre la variable dépendante et les autres variables.
  • 1 < FIV < 5 : il existe une corrélation entre les variables, mais elle est modérée. En principe, il n’est nécessaire d’appliquer aucune action pour corriger la multicolinéarité.
  • FIV > 5 : si un facteur d’inflation de variance est supérieur à 1, cela signifie que la multicolinéarité du modèle est élevée et, par conséquent, il faut tenter de le résoudre.

En pratique, les facteurs d’inflation de la variance sont généralement calculés à l’aide d’un logiciel informatique, car la création d’un modèle de régression pour chaque variable, puis la recherche manuelle de la valeur du coefficient prendrait beaucoup de temps.

Corriger la multicolinéarité

Les mesures suivantes peuvent s’avérer utiles pour résoudre les problèmes de multicolinéarité d’un modèle de régression :

  • Si la taille de l’échantillon est petite, l’augmentation du nombre de données peut réduire la multicolinéarité approximative.
  • Supprimez toutes les variables qui produisent la multicolinéarité. Si les variables sont fortement corrélées, peu d’informations seront perdues dans le modèle et la multicolinéarité sera réduite.
  • Réaliser le modèle de régression en appliquant le critère des moindres carrés partiels (PLS).
  • Parfois, vous pouvez laisser le modèle de régression tel quel, avec multicolinéarité. Par exemple, si nous voulons simplement créer un modèle pour faire des prédictions et que nous n’avons pas besoin de l’interpréter, nous pouvons utiliser l’équation du modèle pour prédire la valeur de la variable dépendante avec une nouvelle observation, en supposant que le modèle de multicolinéarité se répète dans les nouvelles observations.

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *