Échantillonnage de clusters dans R : avec exemples
Les chercheurs prélèvent souvent des échantillons dans une population et utilisent les données de l’échantillon pour tirer des conclusions sur la population dans son ensemble.
Une méthode d’échantillonnage couramment utilisée est l’échantillonnage en grappes , dans laquelle une population est divisée en grappes et tous les membres de certaines grappes sont choisis pour être inclus dans l’échantillon.
Ce didacticiel explique comment effectuer un échantillonnage en cluster dans R.
Exemple : échantillonnage de cluster dans R
Supposons qu’une entreprise proposant des visites guidées de la ville souhaite interroger ses clients. Sur dix circuits qu’ils proposent par jour, ils sélectionnent au hasard quatre circuits et demandent à chaque client d’évaluer son expérience sur une échelle de 1 à 10.
Le code suivant montre comment créer un faux bloc de données dans R avec lequel travailler :
#make this example reproducible set.seed(1) #create data frame df <- data.frame(tour = rep(1:10, each=20), experience = rnorm(200, mean=7, sd=1)) #view first six rows of data frame head(df) tour experience 1 1 6.373546 2 1 7.183643 3 1 6.164371 4 1 8.595281 5 1 7.329508 6 1 6.179532
Et le code suivant montre comment obtenir un échantillon de clients en sélectionnant au hasard quatre visites et en incluant chaque membre de ces visites dans l’échantillon :
#randomly choose 4 tour groups out of the 10 clusters <- sample(unique(df$tour), size=4, replace=F) #define sample as all members who belong to one of the 4 tour groups cluster_sample <- df[df$tour %in% clusters, ] #view how many customers came from each tour table(cluster_sample$tour) 2 7 8 10 20 20 20 20
D’après le résultat, nous pouvons voir que :
- 20 clients du groupe de touristes n°2 ont été inclus dans l’échantillon.
- 20 clients du groupe de touristes n°7 ont été inclus dans l’échantillon.
- 20 clients du groupe de touristes n°8 ont été inclus dans l’échantillon.
- 20 clients du groupe de touristes n°10 ont été inclus dans l’échantillon.
Ainsi, cet échantillon est composé de 80 clients au total provenant de 4 groupes de touristes différents.
Connexe : Comment utiliser l’opérateur %in% dans R
Ressources additionnelles
Comprendre les différents types de méthodes d’échantillonnage
Échantillonnage stratifié dans R
Échantillonnage systématique dans R