Qu’est-ce que la sélection directe ? (Définition & #038; Exemple)



En statistiques, la sélection pas à pas est une procédure que nous pouvons utiliser pour construire un modèle de régression à partir d’un ensemble de variables prédictives en entrant et en supprimant des prédicteurs de manière étape par étape dans le modèle jusqu’à ce qu’il n’y ait plus de raison statistiquement valable d’en saisir ou d’en supprimer davantage.

L’objectif de la sélection par étapes est de créer un modèle de régression qui inclut toutes les variables prédictives qui sont statistiquement significativement liées à la variable de réponse .

L’une des méthodes de sélection pas à pas les plus couramment utilisées est connue sous le nom de sélection directe , qui fonctionne comme suit :

Étape 1 : Ajustez un modèle de régression à l’origine uniquement sans variables prédictives. Calculez la valeur AIC * pour le modèle.

Étape 2 : Ajustez tous les modèles de régression à un prédicteur possibles. Identifiez le modèle qui a produit l’AIC le plus bas et qui a également présenté une réduction statistiquement significative de l’AIC par rapport au modèle à l’origine uniquement.

Étape 3 : Ajustez tous les modèles de régression à deux prédicteurs possibles. Identifiez le modèle qui a produit l’AIC le plus bas et qui a également présenté une réduction statistiquement significative de l’AIC par rapport au modèle à un prédicteur.

Répétez le processus jusqu’à ce que l’ajustement d’un modèle de régression avec plus de variables prédictives ne conduise plus à une réduction statistiquement significative de l’AIC.

* Il existe plusieurs mesures que vous pouvez utiliser pour calculer la qualité de l’ajustement d’un modèle de régression, notamment l’erreur de prédiction de validation croisée, Cp, BIC, AIC ou R 2 ajusté. Dans l’exemple ci-dessous, nous choisissons d’utiliser AIC.

L’exemple suivant montre comment effectuer une sélection directe dans R.

Exemple : sélection directe dans R

Pour cet exemple, nous utiliserons l’ ensemble de données mtcars intégré dans R :

#view first six rows of mtcars
head(mtcars)

                   mpg cyl disp  hp drat    wt  qsec vs am gear carb
Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
Valiant           18.1   6  225 105 2.76 3.460 20.22  1  0    3    1

Nous ajusterons un modèle de régression linéaire multiple en utilisant mpg (miles par gallon) comme variable de réponse et les 10 autres variables de l’ensemble de données comme variables prédictives potentielles.

Le code suivant montre comment effectuer une sélection étape par étape :

#define intercept-only model
intercept_only <- lm(mpg ~ 1, data=mtcars)

#define model with all predictors
all <- lm(mpg ~ ., data=mtcars)

#perform forward stepwise regression
forward <- step(intercept_only, direction='forward', scope=formula(all), trace=0)

#view results of forward stepwise regression
forward$anova

   Step Df  Deviance Resid. Df Resid. Dev       AIC
1       NA        NA        31  1126.0472 115.94345
2  + wt -1 847.72525        30   278.3219  73.21736
3 + cyl -1  87.14997        29   191.1720  63.19800
4  + hp -1  14.55145        28   176.6205  62.66456

#view final model
forward$coefficients

(Intercept)          wt         cyl          hp 
 38.7517874  -3.1669731  -0.9416168  -0.0180381 

Voici comment interpréter les résultats :

Tout d’abord, nous ajustons le modèle d’interception uniquement. Ce modèle avait un AIC de 115,94345 .

Ensuite, nous adaptons tous les modèles possibles à un prédicteur. Le modèle qui a produit l’AIC le plus bas et a également présenté une réduction statistiquement significative de l’AIC par rapport au modèle à l’origine uniquement a utilisé le prédicteur wt . Ce modèle avait un AIC de 73,21736 .

Ensuite, nous ajustons tous les modèles possibles à deux prédicteurs. Le modèle qui a produit l’AIC le plus bas et présentait également une réduction statistiquement significative de l’AIC par rapport au modèle à prédicteur unique a ajouté le prédicteur cyl . Ce modèle avait un AIC de 63,19800 .

Ensuite, nous ajustons tous les modèles possibles à trois prédicteurs. Le modèle qui a produit l’AIC le plus bas et a également présenté une réduction statistiquement significative de l’AIC par rapport au modèle à deux prédicteurs a ajouté le prédicteur hp . Ce modèle avait un AIC de 62,66456 .

Ensuite, nous adaptons tous les modèles possibles à quatre prédicteurs. Il s’est avéré qu’aucun de ces modèles ne produisait une réduction significative de l’AIC, nous avons donc arrêté la procédure.

Le modèle final s’avère donc être :

mpg = 38,75 – 3,17*poids – 0,94*cyl – 0,02*hyp

Il s’avère que tenter d’ajouter davantage de variables prédictives au modèle ne conduit pas à une réduction statistiquement significative de l’AIC.

Ainsi, nous concluons que le meilleur modèle est celui comportant trois variables prédictives : wt, cyl et hp.

Une note sur l’utilisation d’AIC

Dans l’exemple précédent, nous avons choisi d’utiliser l’AIC comme métrique pour évaluer l’ajustement de divers modèles de régression.

AIC signifie critère d’information Akaike et est calculé comme suit :

AIC = 2K – 2 ln (L)

où:

  • K : Le nombre de paramètres du modèle.
  • ln (L) : La log-vraisemblance du modèle. Cela nous indique la probabilité que le modèle soit basé sur les données.

Cependant, il existe d’autres mesures que vous pouvez choisir d’utiliser pour évaluer l’ajustement des modèles de régression, notamment l’erreur de prédiction de validation croisée, Cp, BIC, AIC ou R 2 ajusté.

Heureusement, la plupart des logiciels statistiques vous permettent de spécifier la métrique que vous souhaitez utiliser lors de la sélection directe.

Ressources additionnelles

Les didacticiels suivants fournissent des informations supplémentaires sur les modèles de régression :

Un guide sur la multicolinéarité et le VIF en régression
Qu’est-ce qui est considéré comme une bonne valeur AIC ?

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *