Qu’est-ce que la sélection arrière ? (Définition & #038; Exemple)
En statistiques, la sélection pas à pas est une procédure que nous pouvons utiliser pour construire un modèle de régression à partir d’un ensemble de variables prédictives en entrant et en supprimant des prédicteurs de manière étape par étape dans le modèle jusqu’à ce qu’il n’y ait plus de raison statistiquement valable d’en saisir ou d’en supprimer davantage.
L’objectif de la sélection par étapes est de créer un modèle de régression qui inclut toutes les variables prédictives qui sont statistiquement significativement liées à la variable de réponse .
L’une des méthodes de sélection pas à pas les plus couramment utilisées est connue sous le nom de sélection arrière , qui fonctionne comme suit :
Étape 1 : Ajustez un modèle de régression en utilisant toutes les p variables prédictives. Calculez la valeur AIC * pour le modèle.
Étape 2 : Supprimez la variable prédictive qui entraîne la plus grande réduction de l’AIC et entraîne également une réduction statistiquement significative de l’AIC par rapport au modèle avec toutes les p variables prédictives.
Étape 3 : Supprimez la variable prédictive qui entraîne la plus grande réduction de l’AIC et entraîne également une réduction statistiquement significative de l’AIC par rapport au modèle avec des variables prédictives p-1 .
Répétez le processus jusqu’à ce que la suppression de toute variable prédictive ne conduise plus à une réduction statistiquement significative de l’AIC.
* Il existe plusieurs mesures que vous pouvez utiliser pour calculer la qualité de l’ajustement d’un modèle de régression, notamment l’erreur de prédiction de validation croisée, Cp, BIC, AIC ou R 2 ajusté. Dans l’exemple ci-dessous, nous choisissons d’utiliser AIC.
L’exemple suivant montre comment effectuer une sélection arrière dans R.
Exemple : sélection arrière dans R
Pour cet exemple, nous utiliserons l’ ensemble de données mtcars intégré dans R :
#view first six rows of mtcars
head(mtcars)
mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1
Nous ajusterons un modèle de régression linéaire multiple en utilisant mpg (miles par gallon) comme variable de réponse et les 10 autres variables de l’ensemble de données comme variables prédictives potentielles.
Le code suivant montre comment effectuer une sélection pas à pas vers l’arrière :
#define intercept-only model intercept_only <- lm(mpg ~ 1, data=mtcars) #define model with all predictors all <- lm(mpg ~ ., data=mtcars) #perform backward stepwise regression backward <- step(all, direction='backward', scope=formula(all), trace=0) #view results of backward stepwise regression backward$anova Step Df Deviance Resid. Df Resid. Dev AIC 1 NA NA 21 147.4944 70.89774 2 - cyl 1 0.07987121 22 147.5743 68.91507 3 - vs 1 0.26852280 23 147.8428 66.97324 4 - carb 1 0.68546077 24 148.5283 65.12126 5 - gear 1 1.56497053 25 150.0933 63.45667 6 - drat 1 3.34455117 26 153.4378 62.16190 7 - disp 1 6.62865369 27 160.0665 61.51530 8 - hp 1 9.21946935 28 169.2859 61.30730 #view final model backward$coefficients (Intercept) wt qsec am 9.617781 -3.916504 1.225886 2.935837
Voici comment interpréter les résultats :
Tout d’abord, nous ajustons un modèle en utilisant les 10 variables prédictives et calculons l’AIC du modèle.
Ensuite, nous avons supprimé la variable ( cyl ) qui entraînait la plus grande réduction de l’AIC et obtenions également une réduction statistiquement significative de l’AIC par rapport au modèle à 10 variables prédictives.
Ensuite, nous avons supprimé la variable ( vs ) qui conduisait à la plus grande réduction de l’AIC et avons également obtenu une réduction statistiquement significative de l’AIC par rapport au modèle de variables prédictives à 9 prédicteurs.
Ensuite, nous avons supprimé la variable ( carb ) qui entraînait la plus grande réduction de l’AIC et avons également obtenu une réduction statistiquement significative de l’AIC par rapport au modèle de variable à 8 prédicteurs.
Nous avons répété ce processus jusqu’à ce que la suppression de toute variable n’entraîne plus une réduction statistiquement significative de l’AIC.
Le modèle final s’avère être :
mpg = 9,62 – 3,92*poids + 1,23*qsec + 2,94*am
Une note sur l’utilisation d’AIC
Dans l’exemple précédent, nous avons choisi d’utiliser l’AIC comme métrique pour évaluer l’ajustement de divers modèles de régression.
AIC signifie critère d’information Akaike et est calculé comme suit :
AIC = 2K – 2 ln (L)
où:
- K : Le nombre de paramètres du modèle.
- ln (L) : La log-vraisemblance du modèle. Cela nous indique la probabilité du modèle, compte tenu des données.
Cependant, il existe d’autres mesures que vous pouvez choisir d’utiliser pour évaluer l’ajustement des modèles de régression, notamment l’erreur de prédiction de validation croisée, Cp, BIC, AIC ou R 2 ajusté.
Heureusement, la plupart des logiciels statistiques vous permettent de spécifier la métrique que vous souhaitez utiliser lors d’une sélection rétrospective.
Ressources additionnelles
Les didacticiels suivants fournissent des informations supplémentaires sur les modèles de régression :
Introduction à la sélection directe
Un guide sur la multicolinéarité et le VIF en régression
Qu’est-ce qui est considéré comme une bonne valeur AIC ?