Como calcular distribuições amostrais em r


Uma distribuição amostral é uma distribuição de probabilidade de uma determinada estatística baseada em muitas amostras aleatórias de uma única população.

Este tutorial explica como fazer o seguinte com distribuições de amostragem em R:

  • Gere uma distribuição amostral.
  • Visualize a distribuição amostral.
  • Calcule a média e o desvio padrão da distribuição amostral.
  • Calcule as probabilidades relativas à distribuição amostral.

Gere uma distribuição amostral em R

O código a seguir mostra como gerar uma distribuição amostral em R:

 #make this example reproducible
set.seed(0)

#define number of samples
n = 10000

#create empty vector of length n
sample_means = rep (NA, n)

#fill empty vector with means
for (i in 1:n){
  sample_means[i] = mean ( rnorm (20, mean=5.3, sd=9))
}

#view first six sample means
head(sample_means)

[1] 5.283992 6.304845 4.259583 3.915274 7.756386 4.532656

Neste exemplo, usamos a função rnorm() para calcular a média de 10.000 amostras em que cada tamanho de amostra era 20 e foi gerado a partir de uma distribuição normal com média de 5,3 e desvio padrão de 9.

Podemos ver que a primeira amostra teve média de 5,283992, a segunda amostra teve média de 6,304845 e assim por diante.

Visualize a distribuição amostral

O código a seguir mostra como criar um histograma simples para visualizar a distribuição da amostragem:

 #create histogram to visualize the sampling distribution
hist(sample_means, main = "", xlab = " Sample Means ", col = " steelblue ")

Distribuição de amostragem no histograma R

Pode-se observar que a distribuição amostral tem formato de sino com pico próximo ao valor 5.

Porém, pelas caudas da distribuição podemos ver que algumas amostras tiveram médias maiores que 10 e outras tiveram médias menores que 0.

Encontre a média e o desvio padrão

O código a seguir mostra como calcular a média e o desvio padrão da distribuição amostral:

 #mean of sampling distribution
mean(sample_means)

[1] 5.287195

#standard deviation of sampling distribution
sd(sample_means)

[1] 2.00224

Teoricamente, a média da distribuição amostral deveria ser 5,3. Podemos ver que a média amostral real neste exemplo é 5,287195 , que é próxima de 5,3.

E teoricamente, o desvio padrão da distribuição amostral deveria ser igual a s/√n, que seria 9 / √20 = 2,012. Podemos ver que o desvio padrão real da distribuição amostral é 2,00224 , que é próximo de 2,012.

Calcule as probabilidades

O código a seguir mostra como calcular a probabilidade de obter um determinado valor para uma média amostral, dada uma média populacional, o desvio padrão populacional e o tamanho da amostra.

 #calculate probability that sample mean is less than or equal to 6
sum(sample_means <= 6) / length(sample_means)

Neste exemplo específico, encontramos a probabilidade de a média da amostra ser menor ou igual a 6, dado que a média da população é 5,3, o desvio padrão da população é 9 e o tamanho da amostra de 20 é 0,6417 .

Isso está muito próximo da probabilidade calculada pela Calculadora de Distribuição de Amostragem :

Cálculo da distribuição amostral

O código completo

O código R completo usado neste exemplo é mostrado abaixo:

 #make this example reproducible
set.seed(0)

#define number of samples
n = 10000

#create empty vector of length n
sample_means = rep (NA, n)

#fill empty vector with means
for (i in 1:n){
  sample_means[i] = mean ( rnorm (20, mean=5.3, sd=9))
}

#view first six sample means
head(sample_means)

#create histogram to visualize the sampling distribution
hist(sample_means, main = "", xlab = " Sample Means ", col = " steelblue ")

#mean of sampling distribution
mean(sample_means)

#standard deviation of sampling distribution
sd(sample_means)

#calculate probability that sample mean is less than or equal to 6
sum(sample_means <= 6) / length(sample_means)

Recursos adicionais

Uma introdução às distribuições de amostragem
Calculadora de distribuição de amostragem
Uma introdução ao teorema do limite central

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *