Comment tester la multicolinéarité dans SPSS



La multicolinéarité dans l’analyse de régression se produit lorsque deux ou plusieurs variables prédictives sont fortement corrélées les unes aux autres, de sorte qu’elles ne fournissent pas d’informations uniques ou indépendantes dans le modèle de régression. Si le degré de corrélation est suffisamment élevé entre les variables, cela peut poser des problèmes lors de l’ajustement et de l’interprétation du modèle de régression.

Une façon de détecter la multicolinéarité consiste à utiliser une métrique connue sous le nom de facteur d’inflation de la variance (VIF) , qui mesure la corrélation et la force de la corrélation entre les variables prédictives dans un modèle de régression.

Ce didacticiel explique comment utiliser VIF pour détecter la multicolinéarité dans une analyse de régression dans SPSS.

Exemple : multicolinéarité dans SPSS

Supposons que nous ayons l’ensemble de données suivant qui montre la note à l’examen de 10 étudiants ainsi que le nombre d’heures qu’ils ont passé à étudier, le nombre d’examens préparatoires qu’ils ont passés et leur note actuelle dans le cours :

Nous aimerions effectuer une régression linéaire en utilisant score comme variable de réponse et hours , prep_exams et current_grade comme variables prédictives, mais nous voulons nous assurer que les trois variables prédictives ne sont pas fortement corrélées.

Pour déterminer si la multicolinéarité pose un problème, nous pouvons produire des valeurs VIF pour chacune des variables prédictives.

Pour cela, cliquez sur l’onglet Analyser , puis Régression , puis Linéaire :

Dans la nouvelle fenêtre qui apparaît, faites glisser le score dans la case intitulée Dépendant et faites glisser les trois variables prédictives dans la case intitulée Indépendant(s). Cliquez ensuite sur Statistiques et assurez-vous que la case est cochée à côté de Diagnostics de colinéarité . Cliquez ensuite sur Continuer . Cliquez ensuite sur OK .

Une fois que vous avez cliqué sur OK , le tableau suivant s’affiche et indique la valeur VIF pour chaque variable prédictive :

VIF dans SPSS

Les valeurs VIF pour chacune des variables prédictives sont les suivantes :

  • heures: 1.169
  • prep_exams : 1,403
  • note_actuelle : 1,522

La valeur de VIF commence à 1 et n’a pas de limite supérieure. Une règle générale pour interpréter les VIF est la suivante :

  • Une valeur de 1 indique qu’il n’existe aucune corrélation entre une variable prédictive donnée et toute autre variable prédictive du modèle.
  • Une valeur comprise entre 1 et 5 indique une corrélation modérée entre une variable prédictive donnée et d’autres variables prédictives du modèle, mais elle n’est souvent pas suffisamment grave pour nécessiter une attention particulière.
  • Une valeur supérieure à 5 indique une corrélation potentiellement grave entre une variable prédictive donnée et d’autres variables prédictives du modèle. Dans ce cas, les estimations des coefficients et les valeurs p dans les résultats de la régression ne sont probablement pas fiables.

Nous pouvons voir qu’aucune des valeurs VIF pour les variables prédictives dans cet exemple n’est supérieure à 5, ce qui indique que la multicolinéarité ne sera pas un problème dans le modèle de régression.

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *