Qu’est-ce que le piège variable factice ? (Définition & #038; Exemple)
La régression linéaire est une méthode que nous pouvons utiliser pour quantifier la relation entre une ou plusieurs variables prédictives et une variable de réponse .
Nous utilisons généralement la régression linéaire avec des variables quantitatives . Parfois appelées variables « numériques », ce sont des variables qui représentent une quantité mesurable. Les exemples comprennent:
- Nombre de pieds carrés dans une maison
- Taille de la population d’une ville
- Âge d’un individu
Cependant, nous souhaitons parfois utiliser des variables catégorielles comme variables prédictives. Ce sont des variables qui prennent des noms ou des étiquettes et peuvent entrer dans des catégories. Les exemples comprennent:
- Couleur des yeux (par exemple « bleu », « vert », « marron »)
- Sexe (par exemple « homme », « femme »)
- État civil (par exemple « marié », « célibataire », « divorcé »)
Lorsque vous utilisez des variables catégorielles, cela n’a pas de sens d’attribuer simplement des valeurs comme 1, 2, 3 à des valeurs comme « bleu », « vert » et « marron », car cela n’a pas de sens de dire que le vert est double. aussi coloré que le bleu ou que le marron est trois fois plus coloré que le bleu.
Au lieu de cela, la solution consiste à utiliser des variables factices . Il s’agit de variables que nous créons spécifiquement pour l’analyse de régression et qui prennent l’une des deux valeurs suivantes : zéro ou un.
Le nombre de variables factices que nous devons créer est égal à k -1 où k est le nombre de valeurs différentes que la variable catégorielle peut prendre.
Par exemple, supposons que nous disposions de l’ensemble de données suivant et que nous souhaitions utiliser l’état civil et l’âge pour prédire le revenu :
Pour utiliser l’état civil comme variable prédictive dans un modèle de régression, nous devons le convertir en variable muette.
Puisqu’il s’agit actuellement d’une variable catégorielle qui peut prendre trois valeurs différentes (« Célibataire », « Marié » ou « Divorcé »), nous devons créer k -1 = 3-1 = 2 variables muettes.
Pour créer cette variable factice, nous pouvons laisser « Single » comme valeur de base car elle apparaît le plus souvent. Ainsi, voici comment nous convertirions l’état civil en variables fictives :
Nous pourrions alors utiliser Age , Marié et Divorcé comme variables prédictives dans un modèle de régression.
Lors de la création de variables factices, un problème qui peut survenir est connu sous le nom de piège à variables factices . Cela se produit lorsque nous créons k variables factices au lieu de k -1 variables factices.
Lorsque cela se produit, au moins deux des variables muettes souffriront d’ une multicolinéarité parfaite. Autrement dit, ils seront parfaitement corrélés. Cela entraîne des calculs incorrects des coefficients de régression et de leurs valeurs p correspondantes.
Piège des variables factices : lorsque le nombre de variables factices créées est égal au nombre de valeurs que la valeur catégorielle peut prendre. Cela conduit à une multicolinéarité, qui entraîne des calculs incorrects des coefficients de régression et des valeurs p.
Par exemple, supposons que nous convertissions l’état civil en variables fictives suivantes :
Dans ce cas, Célibataire et Marié sont parfaitement corrélés et ont un coefficient de corrélation de -1.
Ainsi, lorsque nous effectuerons une régression linéaire multiple, les calculs des coefficients de régression seront incorrects.
Comment éviter le piège des variables factices
Il vous suffit de retenir une règle pour éviter le piège des variables factices :
Si une variable catégorielle peut prendre k valeurs différentes, vous ne devez créer que k-1 variables fictives à utiliser dans le modèle de régression.
Par exemple, supposons que vous souhaitiez convertir une variable catégorielle « année scolaire » en variables fictives. Supposons que cette variable prenne les valeurs suivantes :
- Étudiant de première année
- Étudiant en deuxième année
- Junior
- Senior
Puisque cette variable peut prendre 4 valeurs différentes, nous ne créerons que 3 variables fictives. Par exemple, nos variables factices pourraient être :
- X 1 = 1 si étudiant en deuxième année ; 0 sinon
- X 2 = 1 si Junior ; 0 sinon
- X 3 = 1 si Senior ; 0 sinon
Étant donné que le nombre de variables muettes est inférieur d’une unité au nombre de valeurs que « l’année scolaire » peut prendre, nous pouvons éviter le piège des variables muettes et le problème de la multicolinéarité.
Ressources additionnelles
Comment utiliser des variables factices dans l’analyse de régression
Introduction à la régression linéaire multiple
Un guide sur la multicolinéarité en régression