Échantillonnage de clusters dans R : avec exemples



Les chercheurs prélèvent souvent des échantillons dans une population et utilisent les données de l’échantillon pour tirer des conclusions sur la population dans son ensemble.

Une méthode d’échantillonnage couramment utilisée est l’échantillonnage en grappes , dans laquelle une population est divisée en grappes et tous les membres de certaines grappes sont choisis pour être inclus dans l’échantillon.

Ce didacticiel explique comment effectuer un échantillonnage en cluster dans R.

Exemple : échantillonnage de cluster dans R

Supposons qu’une entreprise proposant des visites guidées de la ville souhaite interroger ses clients. Sur dix circuits qu’ils proposent par jour, ils sélectionnent au hasard quatre circuits et demandent à chaque client d’évaluer son expérience sur une échelle de 1 à 10.

Le code suivant montre comment créer un faux bloc de données dans R avec lequel travailler :

#make this example reproducible
set.seed(1)

#create data frame
df <- data.frame(tour = rep(1:10, each=20),
                 experience = rnorm(200, mean=7, sd=1))

#view first six rows of data frame
head(df)

  tour experience
1    1   6.373546
2    1   7.183643
3    1   6.164371
4    1   8.595281
5    1   7.329508
6    1   6.179532

Et le code suivant montre comment obtenir un échantillon de clients en sélectionnant au hasard quatre visites et en incluant chaque membre de ces visites dans l’échantillon :

#randomly choose 4 tour groups out of the 10
clusters <- sample(unique(df$tour), size=4, replace=F)

#define sample as all members who belong to one of the 4 tour groups
cluster_sample <- df[df$tour %in% clusters, ]

#view how many customers came from each tour
table(cluster_sample$tour)

 2  7  8 10 
20 20 20 20 

D’après le résultat, nous pouvons voir que :

  • 20 clients du groupe de touristes n°2 ont été inclus dans l’échantillon.
  • 20 clients du groupe de touristes n°7 ont été inclus dans l’échantillon.
  • 20 clients du groupe de touristes n°8 ont été inclus dans l’échantillon.
  • 20 clients du groupe de touristes n°10 ont été inclus dans l’échantillon.

Ainsi, cet échantillon est composé de 80 clients au total provenant de 4 groupes de touristes différents.

Connexe : Comment utiliser l’opérateur %in% dans R

Ressources additionnelles

Comprendre les différents types de méthodes d’échantillonnage
Échantillonnage stratifié dans R
Échantillonnage systématique dans R

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *