Amostragem sistemática em r (com exemplos)
Os pesquisadores geralmente coletam amostras de uma população e usam os dados da amostra para tirar conclusões sobre a população como um todo.
Um método de amostragem comumente usado é a amostragem sistemática , que é implementada em um processo simples de duas etapas:
1. Coloque cada membro de uma população em uma determinada ordem.
2. Escolha um ponto de partida aleatório e selecione um membro dentre n para fazer parte da amostra.
Este tutorial explica como realizar amostragem sistemática em R.
Exemplo: amostragem sistemática em R
Suponha que um diretor queira obter uma amostra de 100 alunos de uma escola que tem um total de 500 alunos. Ela opta por usar uma amostragem sistemática na qual coloca cada aluno em ordem alfabética com base no sobrenome, escolhe aleatoriamente um ponto de partida e seleciona cada quinto aluno para fazer parte da amostra.
O código a seguir mostra como criar um quadro de dados falso para trabalhar em R:
#make this example reproducible set.seed(1) #create simple function to generate random last names randomNames <- function (n = 5000) { do.call(paste0, replicate(5, sample(LETTERS, n, TRUE), FALSE)) } #create data frame df <- data.frame(last_name = randomNames(500), gpa = rnorm(500, mean=82, sd=3)) #view first six rows of data frame head(df) last_name gpa 1 GONBW 82.19580 2 JRRWZ 85.10598 3 ORJFW 88.78065 4 XRYNL 85.94409 5 FMDCE 79.38993 6 XZBJC 80.49061
E o código a seguir mostra como obter uma amostra de 100 alunos por meio de amostragem sistemática:
#define function to obtain systematic sample obtain_sys = function (N,n){ k = ceiling(N/n) r = sample(1:k, 1) seq(r, r + k*(n-1), k) } #obtain systematic sample sys_sample_df = df[obtain_sys( nrow (df), 100), ] #view first six rows of data frame head(sys_sample_df) last_name gpa 3 ORJFW 88.78065 8 RWPSB 81.96988 13 RACZU 79.21433 18 ZOHKA 80.47246 23 QJETK 87.09991 28 JTHWB 83.87300 #view dimensions of data frame dim(sys_sample_df) [1] 100 2
Observe que o primeiro membro incluído na amostra estava na linha 3 do quadro de dados original. Cada próximo membro da amostra está localizado 5 linhas após o membro anterior.
E usando dim() , podemos ver que a amostra sistemática que obtivemos é um quadro de dados de 100 linhas e 2 colunas.
Recursos adicionais
Tipos de métodos de amostragem
Amostragem estratificada em R
Amostragem por cluster em R