Amostragem sistemática em r (com exemplos)


Os pesquisadores geralmente coletam amostras de uma população e usam os dados da amostra para tirar conclusões sobre a população como um todo.

Um método de amostragem comumente usado é a amostragem sistemática , que é implementada em um processo simples de duas etapas:

1. Coloque cada membro de uma população em uma determinada ordem.

2. Escolha um ponto de partida aleatório e selecione um membro dentre n para fazer parte da amostra.

Este tutorial explica como realizar amostragem sistemática em R.

Exemplo: amostragem sistemática em R

Suponha que um diretor queira obter uma amostra de 100 alunos de uma escola que tem um total de 500 alunos. Ela opta por usar uma amostragem sistemática na qual coloca cada aluno em ordem alfabética com base no sobrenome, escolhe aleatoriamente um ponto de partida e seleciona cada quinto aluno para fazer parte da amostra.

O código a seguir mostra como criar um quadro de dados falso para trabalhar em R:

 #make this example reproducible
set.seed(1)

#create simple function to generate random last names
randomNames <- function (n = 5000) {
  do.call(paste0, replicate(5, sample(LETTERS, n, TRUE), FALSE))
}

#create data frame
df <- data.frame(last_name = randomNames(500),
                 gpa = rnorm(500, mean=82, sd=3))

#view first six rows of data frame
head(df)

  last_name gpa
1 GONBW 82.19580
2 JRRWZ 85.10598
3 ORJFW 88.78065
4 XRYNL 85.94409
5 FMDCE 79.38993
6 XZBJC 80.49061

E o código a seguir mostra como obter uma amostra de 100 alunos por meio de amostragem sistemática:

 #define function to obtain systematic sample
obtain_sys = function (N,n){
  k = ceiling(N/n)
  r = sample(1:k, 1)
  seq(r, r + k*(n-1), k)
}

#obtain systematic sample
sys_sample_df = df[obtain_sys( nrow (df), 100), ]

#view first six rows of data frame
head(sys_sample_df)

   last_name gpa
3 ORJFW 88.78065
8 RWPSB 81.96988
13 RACZU 79.21433
18 ZOHKA 80.47246
23 QJETK 87.09991
28 JTHWB 83.87300

#view dimensions of data frame
dim(sys_sample_df)

[1] 100 2

Observe que o primeiro membro incluído na amostra estava na linha 3 do quadro de dados original. Cada próximo membro da amostra está localizado 5 linhas após o membro anterior.

E usando dim() , podemos ver que a amostra sistemática que obtivemos é um quadro de dados de 100 linhas e 2 colunas.

Recursos adicionais

Tipos de métodos de amostragem
Amostragem estratificada em R
Amostragem por cluster em R

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *