Campionamento di cluster in r: con esempi


I ricercatori spesso prelevano campioni da una popolazione e utilizzano i dati del campione per trarre conclusioni sulla popolazione nel suo insieme.

Un metodo di campionamento comunemente utilizzato è il campionamento a grappolo , in cui una popolazione viene divisa in cluster e tutti i membri di determinati cluster vengono scelti per essere inclusi nel campione.

Questo tutorial spiega come eseguire il campionamento dei cluster in R.

Esempio: campionamento di cluster in R

Supponiamo che un’azienda che offre tour della città voglia intervistare i propri clienti. Su dieci tour offerti al giorno, selezionano casualmente quattro tour e chiedono a ciascun cliente di valutare la propria esperienza su una scala da 1 a 10.

Il codice seguente mostra come creare un frame di dati falso in R con cui lavorare:

 #make this example reproducible
set.seed(1)

#create data frame
df <- data.frame(tour = rep(1:10, each=20),
                 experience = rnorm(200, mean=7, sd=1))

#view first six rows of data frame
head(df)

  tour experience
1 1 6.373546
2 1 7.183643
3 1 6.164371
4 1 8.595281
5 1 7.329508
6 1 6.179532

E il codice seguente mostra come ottenere un campione di clienti selezionando in modo casuale quattro visite e includendo ciascun membro di tali visite nel campione:

 #randomly choose 4 tour groups out of the 10
clusters <- sample( unique (df$tour), size=4, replace= F )

#define sample as all members who belong to one of the 4 tour groups
cluster_sample <- df[df$tour %in% clusters, ]

#view how many customers came from each tour
table(cluster_sample$tour)

 2 7 8 10 
20 20 20 20 

Dal risultato possiamo vedere che:

  • Nel campione sono stati inclusi 20 clienti del gruppo turistico n. 2.
  • Nel campione sono stati inclusi 20 clienti del gruppo turistico n. 7.
  • Nel campione sono stati inclusi 20 clienti del gruppo turistico n. 8.
  • Nel campione sono stati inclusi 20 clienti del gruppo turistico n. 10.

Pertanto, questo campione è composto da 80 clienti in totale provenienti da 4 diversi gruppi turistici.

Correlati: come utilizzare l’operatore %in% in R

Risorse addizionali

Comprendere i diversi tipi di metodi di campionamento
Campionamento stratificato in R
Campionamento sistematico in R

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *