Систематична вибірка в r (з прикладами)
Дослідники часто беруть зразки з популяції та використовують дані з вибірки, щоб зробити висновки про популяцію в цілому.
Зазвичай використовуваним методом вибірки є систематична вибірка , яка реалізується за допомогою простого двоетапного процесу:
1. Розмістіть кожного члена сукупності в певному порядку.
2. Виберіть випадкову початкову точку та виберіть одного члена з n, щоб стати частиною вибірки.
Цей підручник пояснює, як виконувати систематичну вибірку в R.
Приклад: систематична вибірка в R
Припустімо, що директор хоче отримати вибірку зі 100 учнів зі школи, у якій загалом навчається 500 учнів. Вона вирішує використовувати систематичну вибірку, у якій вона розміщує кожного студента в алфавітному порядку на основі їхнього прізвища, випадковим чином вибирає початкову точку та відбирає кожного п’ятого студента для вибірки.
Наступний код показує, як створити фальшивий кадр даних для роботи в R:
#make this example reproducible set.seed(1) #create simple function to generate random last names randomNames <- function (n = 5000) { do.call(paste0, replicate(5, sample(LETTERS, n, TRUE), FALSE)) } #create data frame df <- data.frame(last_name = randomNames(500), gpa = rnorm(500, mean=82, sd=3)) #view first six rows of data frame head(df) last_name gpa 1 GONBW 82.19580 2 JRRWZ 85.10598 3 ORJFW 88.78065 4 XRYNL 85.94409 5 FMDCE 79.38993 6 XZBJC 80.49061
І наступний код показує, як отримати вибірку зі 100 студентів шляхом систематичної вибірки:
#define function to obtain systematic sample obtain_sys = function (N,n){ k = ceiling(N/n) r = sample(1:k, 1) seq(r, r + k*(n-1), k) } #obtain systematic sample sys_sample_df = df[obtain_sys( nrow (df), 100), ] #view first six rows of data frame head(sys_sample_df) last_name gpa 3 ORJFW 88.78065 8 RWPSB 81.96988 13 RACZU 79.21433 18 ZOHKA 80.47246 23 QJETK 87.09991 28 JTHWB 83.87300 #view dimensions of data frame dim(sys_sample_df) [1] 100 2
Зверніть увагу, що перший член, включений у вибірку, був у рядку 3 вихідного кадру даних. Кожен наступний член вибірки розташовується через 5 рядків після попереднього.
І використовуючи dim() , ми можемо побачити, що систематична вибірка, яку ми отримали, є кадром даних із 100 рядків і 2 стовпців.
Додаткові ресурси
Види методів відбору проб
Стратифікована вибірка в R
Кластерна вибірка в R