Qu’est-ce que la sélection arrière ? (Définition & #038; Exemple)



En statistiques, la sélection pas à pas est une procédure que nous pouvons utiliser pour construire un modèle de régression à partir d’un ensemble de variables prédictives en entrant et en supprimant des prédicteurs de manière étape par étape dans le modèle jusqu’à ce qu’il n’y ait plus de raison statistiquement valable d’en saisir ou d’en supprimer davantage.

L’objectif de la sélection par étapes est de créer un modèle de régression qui inclut toutes les variables prédictives qui sont statistiquement significativement liées à la variable de réponse .

L’une des méthodes de sélection pas à pas les plus couramment utilisées est connue sous le nom de sélection arrière , qui fonctionne comme suit :

Étape 1 : Ajustez un modèle de régression en utilisant toutes les p variables prédictives. Calculez la valeur AIC * pour le modèle.

Étape 2 : Supprimez la variable prédictive qui entraîne la plus grande réduction de l’AIC et entraîne également une réduction statistiquement significative de l’AIC par rapport au modèle avec toutes les p variables prédictives.

Étape 3 : Supprimez la variable prédictive qui entraîne la plus grande réduction de l’AIC et entraîne également une réduction statistiquement significative de l’AIC par rapport au modèle avec des variables prédictives p-1 .

Répétez le processus jusqu’à ce que la suppression de toute variable prédictive ne conduise plus à une réduction statistiquement significative de l’AIC.

* Il existe plusieurs mesures que vous pouvez utiliser pour calculer la qualité de l’ajustement d’un modèle de régression, notamment l’erreur de prédiction de validation croisée, Cp, BIC, AIC ou R 2 ajusté. Dans l’exemple ci-dessous, nous choisissons d’utiliser AIC.

L’exemple suivant montre comment effectuer une sélection arrière dans R.

Exemple : sélection arrière dans R

Pour cet exemple, nous utiliserons l’ ensemble de données mtcars intégré dans R :

#view first six rows of mtcars
head(mtcars)

                   mpg cyl disp  hp drat    wt  qsec vs am gear carb
Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
Valiant           18.1   6  225 105 2.76 3.460 20.22  1  0    3    1

Nous ajusterons un modèle de régression linéaire multiple en utilisant mpg (miles par gallon) comme variable de réponse et les 10 autres variables de l’ensemble de données comme variables prédictives potentielles.

Le code suivant montre comment effectuer une sélection pas à pas vers l’arrière :

#define intercept-only model
intercept_only <- lm(mpg ~ 1, data=mtcars)

#define model with all predictors
all <- lm(mpg ~ ., data=mtcars)

#perform backward stepwise regression
backward <- step(all, direction='backward', scope=formula(all), trace=0)

#view results of backward stepwise regression
backward$anova

    Step Df   Deviance Resid. Df Resid. Dev      AIC
1        NA         NA        21   147.4944 70.89774
2  - cyl  1 0.07987121        22   147.5743 68.91507
3   - vs  1 0.26852280        23   147.8428 66.97324
4 - carb  1 0.68546077        24   148.5283 65.12126
5 - gear  1 1.56497053        25   150.0933 63.45667
6 - drat  1 3.34455117        26   153.4378 62.16190
7 - disp  1 6.62865369        27   160.0665 61.51530
8   - hp  1 9.21946935        28   169.2859 61.30730

#view final model
backward$coefficients

(Intercept)          wt        qsec          am 
   9.617781   -3.916504    1.225886    2.935837

Voici comment interpréter les résultats :

Tout d’abord, nous ajustons un modèle en utilisant les 10 variables prédictives et calculons l’AIC du modèle.

Ensuite, nous avons supprimé la variable ( cyl ) qui entraînait la plus grande réduction de l’AIC et obtenions également une réduction statistiquement significative de l’AIC par rapport au modèle à 10 variables prédictives.

Ensuite, nous avons supprimé la variable ( vs ) qui conduisait à la plus grande réduction de l’AIC et avons également obtenu une réduction statistiquement significative de l’AIC par rapport au modèle de variables prédictives à 9 prédicteurs.

Ensuite, nous avons supprimé la variable ( carb ) qui entraînait la plus grande réduction de l’AIC et avons également obtenu une réduction statistiquement significative de l’AIC par rapport au modèle de variable à 8 prédicteurs.

Nous avons répété ce processus jusqu’à ce que la suppression de toute variable n’entraîne plus une réduction statistiquement significative de l’AIC.

Le modèle final s’avère être :

mpg = 9,62 – 3,92*poids + 1,23*qsec + 2,94*am

Une note sur l’utilisation d’AIC

Dans l’exemple précédent, nous avons choisi d’utiliser l’AIC comme métrique pour évaluer l’ajustement de divers modèles de régression.

AIC signifie critère d’information Akaike et est calculé comme suit :

AIC = 2K – 2 ln (L)

où:

  • K : Le nombre de paramètres du modèle.
  • ln (L) : La log-vraisemblance du modèle. Cela nous indique la probabilité du modèle, compte tenu des données.

Cependant, il existe d’autres mesures que vous pouvez choisir d’utiliser pour évaluer l’ajustement des modèles de régression, notamment l’erreur de prédiction de validation croisée, Cp, BIC, AIC ou R 2 ajusté.

Heureusement, la plupart des logiciels statistiques vous permettent de spécifier la métrique que vous souhaitez utiliser lors d’une sélection rétrospective.

Ressources additionnelles

Les didacticiels suivants fournissent des informations supplémentaires sur les modèles de régression :

Introduction à la sélection directe
Un guide sur la multicolinéarité et le VIF en régression
Qu’est-ce qui est considéré comme une bonne valeur AIC ?

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *