Систематична вибірка в r (з прикладами)


Дослідники часто беруть зразки з популяції та використовують дані з вибірки, щоб зробити висновки про популяцію в цілому.

Зазвичай використовуваним методом вибірки є систематична вибірка , яка реалізується за допомогою простого двоетапного процесу:

1. Розмістіть кожного члена сукупності в певному порядку.

2. Виберіть випадкову початкову точку та виберіть одного члена з n, щоб стати частиною вибірки.

Цей підручник пояснює, як виконувати систематичну вибірку в R.

Приклад: систематична вибірка в R

Припустімо, що директор хоче отримати вибірку зі 100 учнів зі школи, у якій загалом навчається 500 учнів. Вона вирішує використовувати систематичну вибірку, у якій вона розміщує кожного студента в алфавітному порядку на основі їхнього прізвища, випадковим чином вибирає початкову точку та відбирає кожного п’ятого студента для вибірки.

Наступний код показує, як створити фальшивий кадр даних для роботи в R:

 #make this example reproducible
set.seed(1)

#create simple function to generate random last names
randomNames <- function (n = 5000) {
  do.call(paste0, replicate(5, sample(LETTERS, n, TRUE), FALSE))
}

#create data frame
df <- data.frame(last_name = randomNames(500),
                 gpa = rnorm(500, mean=82, sd=3))

#view first six rows of data frame
head(df)

  last_name gpa
1 GONBW 82.19580
2 JRRWZ 85.10598
3 ORJFW 88.78065
4 XRYNL 85.94409
5 FMDCE 79.38993
6 XZBJC 80.49061

І наступний код показує, як отримати вибірку зі 100 студентів шляхом систематичної вибірки:

 #define function to obtain systematic sample
obtain_sys = function (N,n){
  k = ceiling(N/n)
  r = sample(1:k, 1)
  seq(r, r + k*(n-1), k)
}

#obtain systematic sample
sys_sample_df = df[obtain_sys( nrow (df), 100), ]

#view first six rows of data frame
head(sys_sample_df)

   last_name gpa
3 ORJFW 88.78065
8 RWPSB 81.96988
13 RACZU 79.21433
18 ZOHKA 80.47246
23 QJETK 87.09991
28 JTHWB 83.87300

#view dimensions of data frame
dim(sys_sample_df)

[1] 100 2

Зверніть увагу, що перший член, включений у вибірку, був у рядку 3 вихідного кадру даних. Кожен наступний член вибірки розташовується через 5 рядків після попереднього.

І використовуючи dim() , ми можемо побачити, що систематична вибірка, яку ми отримали, є кадром даних із 100 рядків і 2 стовпців.

Додаткові ресурси

Види методів відбору проб
Стратифікована вибірка в R
Кластерна вибірка в R

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *