Un guide sur la multicolinéarité & VIF en régression



La multicolinéarité dans l’analyse de régression se produit lorsque deux ou plusieurs variables prédictives sont fortement corrélées les unes aux autres, de sorte qu’elles ne fournissent pas d’informations uniques ou indépendantes dans le modèle de régression.

Si le degré de corrélation est suffisamment élevé entre les variables, cela peut poser des problèmes lors de l’ajustement et de l’interprétation du modèle de régression.

Par exemple, supposons que vous exécutiez une analyse de régression à l’aide de la variable de réponse max vertical jump et des variables prédictives suivantes :

  • hauteur
  • pointure
  • heures passées à pratiquer par jour

Dans ce cas, la taille et la pointure sont probablement fortement corrélées, car les personnes de grande taille ont tendance à avoir des pointures plus grandes. Cela signifie que la multicolinéarité est susceptible de poser problème dans cette régression.

Ce didacticiel explique pourquoi la multicolinéarité constitue un problème, comment la détecter et comment la résoudre.

Pourquoi la multicolinéarité est un problème

L’un des principaux objectifs de l’analyse de régression est d’isoler la relation entre chaque variable prédictive et la variable de réponse.

En particulier, lorsque nous effectuons une analyse de régression, nous interprétons chaque coefficient de régression comme la variation moyenne de la variable de réponse, en supposant que toutes les autres variables prédictives du modèle restent constantes.

Cela signifie que nous supposons que nous sommes capables de modifier les valeurs d’une variable prédictive donnée sans modifier les valeurs des autres variables prédictives.

Cependant, lorsque deux ou plusieurs variables prédictives sont fortement corrélées, il devient difficile de modifier une variable sans en modifier une autre.

Cela rend difficile pour le modèle de régression d’estimer indépendamment la relation entre chaque variable prédictive et la variable de réponse, car les variables prédictives ont tendance à changer à l’unisson.

En général, la multicolinéarité pose deux types de problèmes :

  • Les estimations des coefficients du modèle (et même les signes des coefficients) peuvent fluctuer considérablement en fonction des autres variables prédictives incluses dans le modèle.
  • La précision des estimations des coefficients est réduite, ce qui rend les valeurs p peu fiables. Il est donc difficile de déterminer quelles variables prédictives sont réellement statistiquement significatives.

Comment détecter la multicolinéarité

Le moyen le plus courant de détecter la multicolinéarité consiste à utiliser le facteur d’inflation de la variance (VIF) , qui mesure la corrélation et la force de la corrélation entre les variables prédictives dans un modèle de régression.

Utilisation du facteur d’inflation de variance (VIF)

La plupart des logiciels statistiques ont la capacité de calculer le VIF pour un modèle de régression. La valeur de VIF commence à 1 et n’a pas de limite supérieure. Une règle générale pour interpréter les VIF est la suivante :

  • Une valeur de 1 indique qu’il n’existe aucune corrélation entre une variable prédictive donnée et toute autre variable prédictive du modèle.
  • Une valeur comprise entre 1 et 5 indique une corrélation modérée entre une variable prédictive donnée et d’autres variables prédictives du modèle, mais elle n’est souvent pas suffisamment grave pour nécessiter une attention particulière.
  • Une valeur supérieure à 5 indique une corrélation potentiellement grave entre une variable prédictive donnée et d’autres variables prédictives du modèle. Dans ce cas, les estimations des coefficients et les valeurs p dans les résultats de la régression ne sont probablement pas fiables.

Par exemple, supposons que nous effectuions une analyse de régression en utilisant les variables prédictives taille , pointure et heures passées à s’entraîner par jour pour prédire le saut vertical maximal des joueurs de basket-ball et recevoir le résultat suivant :

Dans la dernière colonne, nous pouvons voir que les valeurs VIF pour la taille et la pointure sont toutes deux supérieures à 5. Cela indique qu’elles souffrent probablement de multicolinéarité et que leurs estimations de coefficients et leurs valeurs p ne sont probablement pas fiables.

Si nous examinons l’estimation du coefficient pour la pointure, le modèle nous dit que pour chaque augmentation supplémentaire d’une unité de pointure, l’augmentation moyenne du saut vertical maximal est de -0,67498 pouces, en supposant que la hauteur et les heures de pratique restent constantes.

Cela ne semble pas avoir de sens, étant donné que nous nous attendrions à ce que les joueurs avec des chaussures plus grandes soient plus grands et aient ainsi un saut vertical maximum plus élevé.

Il s’agit d’un exemple classique de multicolinéarité qui donne l’impression que les estimations des coefficients sont un peu farfelues et peu intuitives.

Comment résoudre la multicolinéarité

Si vous détectez une multicolinéarité, l’étape suivante consiste à décider si vous devez la résoudre d’une manière ou d’une autre. Selon l’objectif de votre analyse de régression, vous n’aurez peut-être pas besoin de résoudre la multicolinéarité.

À savoir:

1. S’il n’y a qu’une multicolinéarité modérée, vous n’aurez probablement pas besoin de la résoudre de quelque manière que ce soit.

2. La multicolinéarité n’affecte que les variables prédictives corrélées les unes aux autres. Si vous êtes intéressé par une variable prédictive dans le modèle qui ne souffre pas de multicolinéarité, alors la multicolinéarité n’est pas un problème.

3. La multicolinéarité a un impact sur les estimations des coefficients et les valeurs p, mais elle n’a pas d’impact sur les prédictions ou les statistiques d’adéquation. Cela signifie que si votre objectif principal avec la régression est de faire des prédictions et que vous ne souhaitez pas comprendre la relation exacte entre les variables prédictives et la variable de réponse, alors la multicolinéarité n’a pas besoin d’être résolue.

Si vous déterminez que vous devez corriger la multicolinéarité, certaines solutions courantes incluent :

1. Supprimez une ou plusieurs des variables hautement corrélées. Il s’agit de la solution la plus rapide dans la plupart des cas et constitue souvent une solution acceptable car les variables que vous supprimez sont de toute façon redondantes et ajoutent peu d’informations uniques ou indépendantes au modèle.

2. Combinez linéairement les variables prédictives d’une manière ou d’une autre, par exemple en les ajoutant ou en les soustrayant d’une manière. Ce faisant, vous pouvez créer une nouvelle variable qui englobe les informations des deux variables et vous n’avez plus de problème de multicolinéarité.

3. Effectuez une analyse conçue pour prendre en compte des variables hautement corrélées, telles que l’analyse en composantes principales ou la régression des moindres carrés partiels (PLS) . Ces techniques sont spécifiquement conçues pour gérer des variables prédictives hautement corrélées.

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *