Meilleure sélection de sous-ensembles en apprentissage automatique (explication et exemples)



Dans le domaine de l’apprentissage automatique, nous souhaitons souvent créer des modèles utilisant un ensemble de variables prédictives et une variable de réponse . Notre objectif est de construire un modèle capable d’utiliser efficacement les variables prédictives pour prédire la valeur de la variable de réponse.

Étant donné un ensemble de p variables prédictives totales, il existe de nombreux modèles que nous pourrions potentiellement construire. Une méthode que nous pouvons utiliser pour choisir le meilleur modèle est connue sous le nom de sélection du meilleur sous-ensemble et fonctionne comme suit :

1. Soit M 0 le modèle nul, qui ne contient aucune variable prédictive.

2. Pour k = 1, 2, … p :

  • Ajustez tous les modèles p C k qui contiennent exactement k prédicteurs.
  • Choisissez le meilleur parmi ces modèles p C k et appelez-le M k . Définissez « meilleur » comme le modèle avec le R 2 le plus élevé ou, de manière équivalente, le RSS le plus bas.

3. Sélectionnez un seul meilleur modèle parmi M 0 … M p en utilisant l’erreur de prédiction de validation croisée, Cp, BIC, AIC ou R 2 ajusté.

Notez que pour un ensemble de p variables prédictives, il existe 2 p modèles possibles.

Exemple de sélection du meilleur sous-ensemble

Supposons que nous ayons un ensemble de données avec p = 3 variables prédictives et une variable de réponse, y. Pour effectuer la meilleure sélection de sous-ensemble avec cet ensemble de données, nous ajusterions les modèles 2 p = 2 3 = 8 suivants :

  • Un modèle sans prédicteurs
  • Un modèle avec prédicteur x 1
  • Un modèle avec prédicteur x 2
  • Un modèle avec prédicteur x 3
  • Un modèle avec des prédicteurs x 1 , x 2
  • Un modèle avec des prédicteurs x 1 , x 3
  • Un modèle avec des prédicteurs x 2 , x 3
  • Un modèle avec des prédicteurs x 1 , x 2 , x 3

Ensuite, nous choisirions le modèle avec le R 2 le plus élevé parmi chaque ensemble de modèles avec k prédicteurs. Par exemple, nous pourrions finir par choisir :

  • Un modèle sans prédicteurs
  • Un modèle avec prédicteur x 2
  • Un modèle avec des prédicteurs x 1 , x 2
  • Un modèle avec des prédicteurs x 1 , x 2 , x 3

Ensuite, nous effectuerions une validation croisée et choisirions le meilleur modèle comme étant celui qui entraîne l’erreur de prédiction la plus faible, Cp, BIC, AIC ou R 2 ajusté.

Par exemple, nous pourrions finir par choisir le modèle suivant comme « meilleur » modèle car il a produit l’erreur de prédiction à validation croisée la plus faible :

  • Un modèle avec des prédicteurs x 1 , x 2

Critères de choix du « meilleur » modèle

La dernière étape de la sélection du meilleur sous-ensemble consiste à choisir le modèle présentant l’erreur de prédiction la plus faible, le Cp le plus faible, le BIC le plus bas, l’AIC le plus bas ou le R 2 ajusté le plus élevé.

Voici les formules utilisées pour calculer chacune de ces métriques :

Cp : (RSS+2dσ̂) / n

AIC : (RSS+2dσ̂ 2 ) / (nσ̂ 2 )

BIC : (RSS+log(n)dσ̂ 2 ) / n

R 2 ajusté : 1 – ( (RSS/(nd-1)) / (TSS / (n-1)) )

où:

  • d : Le nombre de prédicteurs
  • n : Observations totales
  • σ̂ : Estimation de la variance de l’erreur associée à chaque mesure de réponse dans un modèle de régression
  • RSS : Somme des carrés résiduelle du modèle de régression
  • TSS : Somme totale des carrés du modèle de régression

Avantages et inconvénients de la meilleure sélection de sous-ensembles

La sélection du meilleur sous-ensemble offre les avantages suivants :

  • C’est une approche simple à comprendre et à interpréter.
  • Cela nous permet d’identifier le meilleur modèle possible puisque nous considérons toutes les combinaisons de variables prédictives.

Cependant, cette méthode présente les inconvénients suivants :

  • Cela peut être intense en termes de calcul. Pour un ensemble de p variables prédictives, il existe 2 p modèles possibles. Par exemple, avec 10 variables prédictives, il y a 2 10 = 1 000 modèles possibles à considérer.
  • Parce qu’il prend en compte un très grand nombre de modèles, il pourrait potentiellement trouver un modèle qui fonctionne bien sur les données d’entraînement mais pas sur les données futures. Cela pourrait entraîner un surapprentissage .

Conclusion

Bien que la sélection du meilleur sous-ensemble soit simple à mettre en œuvre et à comprendre, elle peut s’avérer irréalisable si vous travaillez avec un ensemble de données contenant un grand nombre de prédicteurs et cela pourrait potentiellement conduire à un surapprentissage.

Une alternative à cette méthode est connue sous le nom de sélection pas à pas , qui est plus efficace sur le plan informatique.

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *