Échantillonnage avec remplacement ou sans remplacement
Souvent, dans les statistiques, nous souhaitons collecter des données afin de pouvoir répondre à certaines questions de recherche.
Par exemple, nous pourrions vouloir répondre aux questions suivantes :
1. Quel est le revenu médian des ménages à Cincinnati, Ohio ?
2. Quel est le poids moyen d’une certaine population de tortues ?
3. Quel pourcentage de résidents d’un certain comté soutiennent une certaine loi ?
Dans chaque scénario, nous souhaitons répondre à une question sur une population , qui représente tous les éléments individuels possibles que nous souhaitons mesurer.
Cependant, au lieu de collecter des données sur chaque individu d’une population, nous collectons généralement uniquement des données sur un échantillon de la population, qui représente une partie de la population.
Il existe deux manières différentes de collecter des échantillons : l’échantillonnage avec remplacement et l’échantillonnage sans remplacement .
Ce didacticiel explique la différence entre les deux méthodes ainsi que des exemples d’utilisation pratique de chacune.
Échantillonnage avec remplacement
Supposons que nous ayons les noms de 5 élèves dans un chapeau :
- Andy
- Karl
- Tyler
- Becca
- Jessica
Supposons que nous souhaitions prendre un échantillon de 2 étudiants avec remplacement.
Lors du premier tirage au sort, nous pourrions sélectionner le nom de Tyler. Nous remettrions ensuite son nom dans le chapeau et dessinions à nouveau. Lors du deuxième tirage, nous pourrions sélectionner à nouveau le nom de Tyler. Ainsi, notre échantillon serait : {Tyler, Tyler}
Ceci est un exemple d’obtention d’un échantillon avec remplacement car on remplace le nom que l’on choisit après chaque tirage au sort.
Lorsque nous échantillonnons avec remise, les éléments de l’échantillon sont indépendants car le résultat d’un tirage au sort n’est pas affecté par le tirage précédent.
Par exemple, la probabilité de choisir le nom Tyler est de 1/5 au premier tirage et de nouveau de 1/5 au deuxième tirage. Le résultat du premier tirage n’affecte pas la probabilité du résultat du deuxième tirage.
L’échantillonnage avec remplacement est utilisé dans de nombreux scénarios différents en matière de statistiques et d’apprentissage automatique, notamment :
- Amorçage
- Ensachage
- Une introduction simple à la stimulation de l’apprentissage automatique
- Une introduction simple aux forêts aléatoires
Dans chacune de ces méthodes, l’échantillonnage avec remplacement est utilisé car il nous permet d’utiliser le même ensemble de données plusieurs fois pour créer des modèles, au lieu de collecter de nouvelles données, ce qui peut prendre du temps et coûter cher.
Échantillonnage sans remplacement
Encore une fois, supposons que nous ayons les noms de 5 étudiants dans un chapeau :
- Andy
- Karl
- Tyler
- Becca
- Jessica
Supposons que nous souhaitions prendre un échantillon de 2 étudiants sans remplacement.
Lors du premier tirage au sort, nous pourrions sélectionner le nom de Tyler. Nous laisserions alors son nom de côté. Lors du deuxième tirage, nous pourrions sélectionner le nom Andy. Ainsi, notre échantillon serait : {Tyler, Andy}
Ceci est un exemple d’obtention d’un échantillon sans remplacement car nous ne remplaçons pas le nom que nous choisissons après chaque tirage au sort.
Lorsque nous échantillonnons sans remplacement, les éléments de l’échantillon sont dépendants car le résultat d’un tirage au sort est affecté par le tirage précédent.
Par exemple, la probabilité de choisir le nom Tyler est de 1/5 au premier tirage et la probabilité de choisir le nom Andy est de 1/4 au deuxième tirage. Le résultat du premier tirage affecte la probabilité du résultat du deuxième tirage.
L’échantillonnage sans remplacement est la méthode que nous utilisons lorsque nous voulons sélectionner un échantillon aléatoire dans une population.
Par exemple, si nous voulons estimer le revenu médian d’un ménage à Cincinnati, dans l’Ohio, il pourrait y avoir un total de 500 000 ménages différents.
Ainsi, nous pourrions vouloir collecter un échantillon aléatoire de 2 000 ménages, mais nous ne voulons pas que les données d’un ménage donné apparaissent deux fois dans l’échantillon, nous échantillonnerions donc sans remplacement.
En d’autres termes, une fois que nous avons choisi un certain ménage à inclure dans l’échantillon, nous ne voulons pas avoir la moindre chance de sélectionner ce ménage pour l’inclure à nouveau.