Comment créer des variables factices dans Excel (étape par étape)
Une variable factice est un type de variable que nous créons dans l’analyse de régression afin de pouvoir représenter une variable catégorielle comme une variable numérique qui prend l’une des deux valeurs suivantes : zéro ou un.
Par exemple, supposons que nous disposions de l’ensemble de données suivant et que nous souhaitions utiliser l’âge et l’état civil pour prédire le revenu :
Pour utiliser l’état civil comme variable prédictive dans un modèle de régression, nous devons le convertir en variable muette.
Puisqu’il s’agit actuellement d’une variable catégorielle qui peut prendre trois valeurs différentes (« Célibataire », « Marié » ou « Divorcé »), nous devons créer k -1 = 3-1 = 2 variables muettes.
Pour créer cette variable factice, nous pouvons laisser « Single » comme valeur de base car elle apparaît le plus souvent. Voici comment nous convertirions l’état civil en variables fictives :
Ce didacticiel fournit un exemple étape par étape de la façon de créer des variables fictives pour cet ensemble de données exact dans Excel, puis d’effectuer une analyse de régression en utilisant ces variables fictives comme prédicteurs.
Étape 1 : Créer les données
Tout d’abord, créons l’ensemble de données dans Excel :
Étape 2 : Créer les variables factices
Ensuite, nous pouvons copier les valeurs des colonnes A et B dans les colonnes E et F, puis utiliser la fonction IF() dans Excel pour définir deux nouvelles variables fictives : Marié et Divorcé.
Voici la formule que nous avons utilisée dans la cellule G2 , que nous avons copiée dans le reste des cellules de la colonne G :
=IF(C2 = "Married", 1, 0)
Et voici la formule que nous avons utilisée dans la cellule H2 , que nous avons copiée dans le reste des cellules de la colonne H :
=IF(C2 = "Divorced", 1, 0)
Ensuite, nous pouvons utiliser ces variables fictives dans un modèle de régression pour prédire le revenu.
Étape 3 : Effectuer une régression linéaire
Pour effectuer une régression linéaire multiple, nous devons cliquer sur l’onglet Données le long du ruban supérieur, puis sur Analyse des données dans la section Analyse :
Si cette option n’est pas disponible, vous devez d’abord charger Analysis Toolpak .
Dans la fenêtre qui apparaît, cliquez sur Régression puis cliquez sur OK .
Ensuite, remplissez les informations suivantes, puis cliquez sur OK .
Cela produit le résultat suivant :
À partir du résultat, nous pouvons voir que la droite de régression ajustée est :
Revenu = 14 276,12 + 1 471,67*(âge) + 2 479,75*(marié) – 8 397,40*(divorcé)
Nous pouvons utiliser cette équation pour trouver le revenu estimé d’un individu en fonction de son âge et de son état civil. Par exemple, une personne âgée de 35 ans et mariée aurait un revenu estimé à 68 264 $ :
Revenu = 14 276,12 + 1 471,67*(35) + 2 479,75*(1) – 8 397,40*(0) = 68 264 $
Voici comment interpréter les coefficients de régression du tableau :
- Interception : L’ordonnée à l’origine représente le revenu moyen d’une personne célibataire âgée de zéro an. Puisqu’un individu ne peut pas avoir zéro an, cela n’a pas de sens d’interpréter l’ordonnée à l’origine par elle-même dans ce modèle de régression particulier.
- Âge : Chaque année d’augmentation de l’âge est associée à une augmentation moyenne de 1 471,67 $ du revenu. Puisque la valeur p (0,004) est inférieure à 0,05, l’âge est un prédicteur statistiquement significatif du revenu.
- Marié : Une personne mariée gagne en moyenne 2 479,75 $ de plus qu’une personne célibataire. Puisque la valeur p (0,800) n’est pas inférieure à 0,05, cette différence n’est pas statistiquement significative.
- Divorcé : Une personne divorcée gagne en moyenne 8 397,40 $ de moins qu’une personne célibataire. Puisque la valeur p (0,532) n’est pas inférieure à 0,05, cette différence n’est pas statistiquement significative.
Étant donné que les deux variables fictives n’étaient pas statistiquement significatives, nous pourrions supprimer l’état matrimonial comme prédicteur du modèle, car il ne semble pas ajouter de valeur prédictive au revenu.
Ressources additionnelles
Comment effectuer une régression linéaire simple dans Excel
Comment calculer la somme résiduelle des carrés dans Excel
Comment effectuer une régression polynomiale dans Excel
Comment créer un tracé résiduel dans Excel