Personnaliser les préférences

Nous utilisons des cookies pour vous aider à naviguer efficacement et à exécuter certaines fonctions. Vous trouverez ci-dessous des informations détaillées sur tous les cookies sous chaque catégorie de consentement.

Les cookies classés comme « Nécessaires » sont stockés sur votre navigateur car ils sont essentiels pour activer les fonctionnalités de base du site.... 

Toujours actif

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

Aucun cookie à afficher.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

Aucun cookie à afficher.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

Aucun cookie à afficher.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

Aucun cookie à afficher.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

Aucun cookie à afficher.

Une introduction simple à la stimulation de l’apprentissage automatique



La plupart des algorithmes d’apprentissage automatique supervisé sont basés sur l’utilisation d’un modèle prédictif unique comme la régression linéaire , la régression logistique , la régression de crête , etc.

Cependant, des méthodes telles que le bagging et les forêts aléatoires construisent de nombreux modèles différents basés sur des échantillons bootstrapés répétés de l’ensemble de données d’origine. Les prédictions sur les nouvelles données sont faites en prenant la moyenne des prédictions faites par les modèles individuels.

Ces méthodes ont tendance à offrir une amélioration de la précision des prédictions par rapport aux méthodes qui n’utilisent qu’un seul modèle prédictif, car elles utilisent le processus suivant :

Une autre méthode qui tend à offrir une amélioration encore plus grande de la précision prédictive est connue sous le nom de boosting .

Qu’est-ce que le Boosting ?

Le boosting est une méthode qui peut être utilisée avec tout type de modèle, mais elle est le plus souvent utilisée avec des arbres de décision.

L’idée derrière le boosting est simple :

1. Tout d’abord, construisez un modèle faible.

  • Un modèle « faible » est un modèle dont le taux d’erreur n’est que légèrement meilleur qu’une estimation aléatoire.
  • En pratique, il s’agit généralement d’un arbre de décision comportant seulement une ou deux divisions.

2. Ensuite, construisez un autre modèle faible basé sur les résidus du modèle précédent.

  • En pratique, nous utilisons les résidus du modèle précédent (c’est-à-dire les erreurs dans nos prédictions) pour ajuster un nouveau modèle qui améliore légèrement le taux d’erreur global.

3. Continuez ce processus jusqu’à ce que la validation croisée k-fold nous dise d’arrêter.

En utilisant cette méthode, nous pouvons commencer avec un modèle faible et continuer à « améliorer » ses performances en construisant séquentiellement de nouveaux arbres qui améliorent les performances de l’arbre précédent jusqu’à ce que nous obtenions un modèle final doté d’une grande précision prédictive.

Booster l’apprentissage automatique

Pourquoi le boosting fonctionne-t-il ?

Il s’avère que le boosting est capable de produire certains des modèles les plus puissants de tout l’apprentissage automatique.

Dans de nombreux secteurs, les modèles boostés sont utilisés comme modèles de référence en production car ils ont tendance à surpasser tous les autres modèles.

La raison pour laquelle les modèles boostés fonctionnent si bien se résume à la compréhension d’une idée simple :

1. Premièrement, les modèles améliorés construisent un arbre de décision faible qui a une faible précision prédictive. On dit que cet arbre de décision a une faible variance et un biais élevé.

2. À mesure que les modèles améliorés suivent le processus d’amélioration séquentielle des arbres de décision précédents, le modèle global est capable de réduire lentement le biais à chaque étape sans augmenter considérablement la variance.

3. Le modèle ajusté final a tendance à avoir un biais et une variance suffisamment faibles, ce qui conduit à un modèle capable de produire de faibles taux d’erreur de test sur de nouvelles données.

Avantages et inconvénients du boosting

L’avantage évident du boosting est qu’il est capable de produire des modèles dotés d’une précision prédictive élevée par rapport à presque tous les autres types de modèles.

Un inconvénient potentiel est qu’un modèle amélioré ajusté est très difficile à interpréter. Bien qu’il puisse offrir une formidable capacité à prédire les valeurs de réponse de nouvelles données, il est difficile d’expliquer le processus exact qu’il utilise pour y parvenir.

En pratique, la plupart des data scientists et des praticiens du machine learning créent des modèles améliorés car ils souhaitent pouvoir prédire avec précision les valeurs de réponse des nouvelles données. Ainsi, le fait que les modèles améliorés soient difficiles à interpréter n’est généralement pas un problème.

Booster en pratique

Dans la pratique, il existe de nombreux types d’algorithmes utilisés pour le boosting, notamment :

En fonction de la taille de votre ensemble de données et de la puissance de traitement de votre machine, l’une de ces méthodes peut être préférable à l’autre.

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *