Une introduction simple aux forêts aléatoires



Lorsque la relation entre un ensemble de variables prédictives et une variable de réponse est très complexe, nous utilisons souvent des méthodes non linéaires pour modéliser la relation entre elles.

L’une de ces méthodes est celle des arbres de classification et de régression (souvent abrégés CART), qui utilisent un ensemble de variables prédictives pour créer des arbres de décision qui prédisent la valeur d’une variable de réponse.

Exemple d’arbre de régression qui utilise des années d’expérience et des circuits moyens pour prédire le salaire d’un joueur de baseball professionnel.

L’avantage des arbres de décision est qu’ils sont faciles à interpréter et à visualiser. Le problème est qu’ils ont tendance à souffrir d’ une variance élevée . Autrement dit, si nous divisons un ensemble de données en deux moitiés et appliquons un arbre de décision aux deux moitiés, les résultats pourraient être très différents.

Une façon de réduire la variance des arbres de décision consiste à utiliser une méthode connue sous le nom de bagging , qui fonctionne comme suit :

1. Prenez b échantillons bootstrapés à partir de l’ensemble de données d’origine.

2. Créez un arbre de décision pour chaque échantillon bootstrap.

3. Faites la moyenne des prédictions de chaque arbre pour obtenir un modèle final.

L’avantage de cette approche est qu’un modèle groupé offre généralement une amélioration du taux d’erreur de test par rapport à un arbre de décision unique.

L’inconvénient est que les prédictions issues de la collecte d’arbres ensachés peuvent être fortement corrélées s’il existe un prédicteur très puissant dans l’ensemble de données. Dans ce cas, la plupart ou la totalité des arbres mis en sac utiliseront ce prédicteur pour la première division, ce qui donnera des arbres similaires les uns aux autres et ayant des prédictions hautement corrélées.

Ainsi, lorsque nous faisons la moyenne des prédictions de chaque arbre pour aboutir à un modèle final, il est possible que ce modèle ne réduise pas réellement la variance par rapport à un seul arbre de décision.

Une façon de contourner ce problème consiste à utiliser une méthode connue sous le nom de forêts aléatoires .

Que sont les forêts aléatoires ?

Semblables à l’ensachage, les forêts aléatoires prélèvent également des échantillons bootstrapés à partir d’un ensemble de données original.

Cependant, lors de la construction d’un arbre de décision pour chaque échantillon bootstrap, chaque fois qu’une division dans un arbre est considérée, seul un échantillon aléatoire de m prédicteurs est considéré comme candidat à la division parmi l’ensemble complet de p prédicteurs.

Voici donc la méthode complète utilisée par les forêts aléatoires pour créer un modèle :

1. Prenez b échantillons bootstrapés à partir de l’ensemble de données d’origine.

2. Créez un arbre de décision pour chaque échantillon bootstrap.

  • Lors de la construction de l’arbre, chaque fois qu’une division est prise en compte, seul un échantillon aléatoire de m prédicteurs est considéré comme candidat à la division parmi l’ensemble complet des p prédicteurs.

3. Faites la moyenne des prédictions de chaque arbre pour obtenir un modèle final.

En utilisant cette méthode, la collecte d’arbres dans une forêt aléatoire est décorrélée par rapport aux arbres produits par ensachage.

Ainsi, lorsque nous prenons les prédictions moyennes de chaque arbre pour arriver à un modèle final, celui-ci a tendance à avoir moins de variabilité et entraîne un taux d’erreur de test inférieur à celui d’un modèle en sac.

Lorsque nous utilisons des forêts aléatoires, nous considérons généralement les prédicteurs m = √ p comme des candidats divisés chaque fois que nous divisons un arbre de décision.

Par exemple, si nous avons p = 16 prédicteurs au total dans un ensemble de données, nous considérons généralement uniquement m = √16 = 4 prédicteurs comme candidats potentiels à chaque division.

Note technique :

Il est intéressant de noter que si nous choisissons m = p (c’est-à-dire que nous considérons tous les prédicteurs comme des candidats à chaque division), cela équivaut simplement à utiliser le bagging.

Estimation des erreurs hors sac

Semblable à l’ensachage, nous pouvons calculer l’erreur de test d’un modèle de forêt aléatoire en utilisant l’estimation hors sac .

On peut montrer que chaque échantillon bootstrap contient environ les 2/3 des observations de l’ensemble de données d’origine. Le tiers restant des observations non utilisées pour ajuster l’arbre est appelé observations hors sac (OOB) .

Nous pouvons prédire la valeur de la ième observation dans l’ensemble de données d’origine en prenant la prédiction moyenne de chacun des arbres dans lesquels cette observation était OOB.

Nous pouvons utiliser cette approche pour faire une prédiction pour toutes les n observations de l’ensemble de données d’origine et ainsi calculer un taux d’erreur, qui est une estimation valide de l’erreur de test.

L’avantage d’utiliser cette approche pour estimer l’erreur de test est qu’elle est beaucoup plus rapide que la validation croisée k fois , en particulier lorsque l’ensemble de données est volumineux.

Les avantages et les inconvénients des forêts aléatoires

Les forêts aléatoires offrent les avantages suivants :

  • Dans la plupart des cas, les forêts aléatoires offriront une amélioration en termes de précision par rapport aux modèles en sac et surtout par rapport aux arbres de décision uniques.
  • Les forêts aléatoires sont résistantes aux valeurs aberrantes.
  • Aucun prétraitement n’est requis pour utiliser des forêts aléatoires.

Cependant, les forêts aléatoires présentent les inconvénients potentiels suivants :

  • Ils sont difficiles à interpréter.
  • Ils peuvent nécessiter beaucoup de calculs (c’est-à-dire lents) pour s’appuyer sur de grands ensembles de données.

En pratique, les data scientists utilisent généralement des forêts aléatoires pour maximiser la précision prédictive, de sorte que le fait qu’elles ne soient pas facilement interprétables n’est généralement pas un problème.

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *