Qu’est-ce que la sélection par étapes ? (Explication & Exemples)



Dans le domaine de l’apprentissage automatique, notre objectif est de créer un modèle capable d’utiliser efficacement un ensemble de variables prédictives pour prédire la valeur d’une variable de réponse .

Étant donné un ensemble de p variables prédictives totales, il existe de nombreux modèles que nous pourrions potentiellement construire. Une méthode que nous pouvons utiliser pour sélectionner le meilleur modèle est connue sous le nom de sélection du meilleur sous-ensemble , qui tente de choisir le meilleur modèle parmi tous les modèles possibles qui pourraient être construits avec l’ensemble de prédicteurs.

Malheureusement cette méthode souffre de deux inconvénients :

  • Cela peut être intense en termes de calcul. Pour un ensemble de p variables prédictives, il existe 2 p modèles possibles. Par exemple, avec 10 variables prédictives, il y a 2 10 = 1 000 modèles possibles à considérer.
  • Parce qu’il prend en compte un très grand nombre de modèles, il pourrait potentiellement trouver un modèle qui fonctionne bien sur les données d’entraînement mais pas sur les données futures. Cela pourrait entraîner un surapprentissage .

Une alternative à la sélection du meilleur sous-ensemble est connue sous le nom de sélection par étapes , qui compare un ensemble de modèles beaucoup plus restreint.

Il existe deux types de méthodes de sélection pas à pas : la sélection pas à pas vers l’avant et la sélection pas à pas vers l’arrière.

Sélection pas à pas vers l’avant

La sélection pas à pas vers l’avant fonctionne comme suit :

1. Soit M 0 le modèle nul, qui ne contient aucune variable prédictive.

2. Pour k = 0, 2, … p-1 :

  • Ajustez tous les modèles pk qui augmentent les prédicteurs dans M k avec une variable prédictive supplémentaire.
  • Choisissez le meilleur parmi ces modèles pk et appelez-le M k+1 . Définissez « meilleur » comme le modèle avec le R 2 le plus élevé ou, de manière équivalente, le RSS le plus bas.

3. Sélectionnez un seul meilleur modèle parmi M 0 … M p en utilisant l’erreur de prédiction de validation croisée, Cp, BIC, AIC ou R 2 ajusté.

Sélection pas à pas en arrière

La sélection pas à pas vers l’arrière fonctionne comme suit :

1. Soit M p le modèle complet, qui contient toutes les p variables prédictives.

2. Pour k = p, p-1, … 1 :

  • Ajustez tous les k modèles qui contiennent tous les prédicteurs sauf un dans M k , pour un total de k-1 variables prédictives.
  • Choisissez le meilleur parmi ces k modèles et appelez-le M k-1 . Définissez « meilleur » comme le modèle avec le R 2 le plus élevé ou, de manière équivalente, le RSS le plus bas.

3. Sélectionnez un seul meilleur modèle parmi M 0 … M p en utilisant l’erreur de prédiction de validation croisée, Cp, BIC, AIC ou R 2 ajusté.

Critères de choix du « meilleur » modèle

La dernière étape de la sélection pas à pas vers l’avant et vers l’arrière consiste à choisir le modèle présentant l’erreur de prédiction la plus faible, le Cp le plus faible, le BIC le plus bas, l’AIC le plus bas ou le R 2 ajusté le plus élevé.

Voici les formules utilisées pour calculer chacune de ces métriques :

Cp : (RSS+2dσ̂) / n

AIC : (RSS+2dσ̂ 2 ) / (nσ̂ 2 )

BIC : (RSS+log(n)dσ̂ 2 ) / n

R 2 ajusté : 1 – ( (RSS/(nd-1)) / (TSS / (n-1)) )

où:

  • d : Le nombre de prédicteurs
  • n : Observations totales
  • σ̂ : Estimation de la variance de l’erreur associée à chaque mesure de réponse dans un modèle de régression
  • RSS : Somme des carrés résiduelle du modèle de régression
  • TSS : Somme totale des carrés du modèle de régression

Avantages et inconvénients de la sélection par étapes

La sélection par étapes offre les avantages suivants :

Cette méthode est plus efficace sur le plan informatique que la sélection du meilleur sous-ensemble. Étant donné p variables prédictives, la sélection du meilleur sous-ensemble doit correspondre à 2 p modèles.

À l’inverse, la sélection par étapes ne doit s’adapter qu’aux modèles 1+p(p+ 1)/2. Pour p = 10 variables prédictives, la sélection du meilleur sous-ensemble doit s’adapter à 1 000 modèles, tandis que la sélection par étapes ne doit s’adapter qu’à 56 modèles.

Cependant, la sélection par étapes présente l’ inconvénient potentiel suivant :

Il n’est pas garanti de trouver le meilleur modèle possible parmi tous les modèles potentiels 2p .

Par exemple, supposons que nous ayons un ensemble de données avec p = 3 prédicteurs. Le meilleur modèle possible à un prédicteur peut contenir x 1 et le meilleur modèle possible à deux prédicteurs peut contenir à la place x 1 et x 2 .

Dans ce cas, la sélection pas à pas vers l’avant ne parviendra pas à sélectionner le meilleur modèle à deux prédicteurs possible car M 1 contiendra x 1 , donc M 2 doit également contenir x 1 ainsi qu’une autre variable.

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *