Систематическая выборка в r (с примерами)


Исследователи часто берут образцы из популяции и используют данные выборки, чтобы сделать выводы о популяции в целом.

Обычно используемым методом выборки является систематическая выборка , которая реализуется в виде простого двухэтапного процесса:

1. Расположите каждого члена популяции в определенном порядке.

2. Выберите случайную отправную точку и выберите одного члена из n для включения в выборку.

В этом руководстве объясняется, как выполнять систематическую выборку в R.

Пример: систематическая выборка в R

Предположим, директор хочет получить выборку из 100 учеников из школы, в которой в общей сложности учатся 500 учеников. Она предпочитает использовать систематическую выборку, при которой она размещает каждого учащегося в алфавитном порядке на основе его фамилии, случайным образом выбирает отправную точку и выбирает каждого пятого учащегося для включения в выборку.

Следующий код показывает, как создать поддельный фрейм данных для работы в R:

 #make this example reproducible
set.seed(1)

#create simple function to generate random last names
randomNames <- function (n = 5000) {
  do.call(paste0, replicate(5, sample(LETTERS, n, TRUE), FALSE))
}

#create data frame
df <- data.frame(last_name = randomNames(500),
                 gpa = rnorm(500, mean=82, sd=3))

#view first six rows of data frame
head(df)

  last_name gpa
1 GONBW 82.19580
2 JRRWZ 85.10598
3 ORJFW 88.78065
4 XRYNL 85.94409
5 FMDCE 79.38993
6 XZBJC 80.49061

А следующий код показывает, как получить выборку из 100 студентов посредством систематической выборки:

 #define function to obtain systematic sample
obtain_sys = function (N,n){
  k = ceiling(N/n)
  r = sample(1:k, 1)
  seq(r, r + k*(n-1), k)
}

#obtain systematic sample
sys_sample_df = df[obtain_sys( nrow (df), 100), ]

#view first six rows of data frame
head(sys_sample_df)

   last_name gpa
3 ORJFW 88.78065
8 RWPSB 81.96988
13 RACZU 79.21433
18 ZOHKA 80.47246
23 QJETK 87.09991
28 JTHWB 83.87300

#view dimensions of data frame
dim(sys_sample_df)

[1] 100 2

Обратите внимание, что первый элемент, включенный в выборку, находился в строке 3 исходного фрейма данных. Каждый следующий член выборки располагается через 5 строк после предыдущего.

И используя dim() , мы видим, что полученная нами систематическая выборка представляет собой фрейм данных из 100 строк и 2 столбцов.

Дополнительные ресурсы

Типы методов выборки
Стратифицированная выборка в R
Кластерная выборка в R

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *