Как рассчитать выборочные распределения в r


Выборочное распределение — это распределение вероятностей определенной статистики , основанное на множестве случайных выборок из одной совокупности.

В этом руководстве объясняется, как сделать следующее с выборочными распределениями в R:

  • Создайте выборочное распределение.
  • Визуализируйте распределение выборки.
  • Рассчитайте среднее и стандартное отклонение выборочного распределения.
  • Рассчитайте вероятности распределения выборки.

Создайте выборочное распределение в R

Следующий код показывает, как создать выборочное распределение в R:

 #make this example reproducible
set.seed(0)

#define number of samples
n = 10000

#create empty vector of length n
sample_means = rep (NA, n)

#fill empty vector with means
for (i in 1:n){
  sample_means[i] = mean ( rnorm (20, mean=5.3, sd=9))
}

#view first six sample means
head(sample_means)

[1] 5.283992 6.304845 4.259583 3.915274 7.756386 4.532656

В этом примере мы использовали функцию rnorm() для расчета среднего значения 10 000 выборок, в которых каждый размер выборки составлял 20 и был сгенерирован на основе нормального распределения со средним значением 5,3 и стандартным отклонением 9.

Мы видим, что в первом образце среднее значение было 5,283992, во втором образце — 6,304845 и так далее.

Визуализация распределения выборки

Следующий код показывает, как создать простую гистограмму для визуализации распределения выборки:

 #create histogram to visualize the sampling distribution
hist(sample_means, main = "", xlab = " Sample Means ", col = " steelblue ")

Распределение выборки в гистограмме R

Видно, что распределение выборки имеет колоколообразную форму с пиком около значения 5.

Однако из хвостов распределения мы видим, что некоторые выборки имели средние значения больше 10, а другие — меньше 0.

Найдите среднее и стандартное отклонение

Следующий код показывает, как вычислить среднее и стандартное отклонение выборочного распределения:

 #mean of sampling distribution
mean(sample_means)

[1] 5.287195

#standard deviation of sampling distribution
sd(sample_means)

[1] 2.00224

Теоретически среднее значение выборочного распределения должно составлять 5,3. Мы видим, что фактическое среднее значение выборки в этом примере составляет 5,287195 , что близко к 5,3.

И теоретически стандартное отклонение выборочного распределения должно быть равно s/√n, что составит 9/√20 = 2,012. Мы видим, что фактическое стандартное отклонение выборочного распределения составляет 2,00224 , что близко к 2,012.

Вычислить вероятности

Следующий код показывает, как вычислить вероятность получения определенного значения для выборочного среднего значения, учитывая среднее значение генеральной совокупности, стандартное отклонение генеральной совокупности и размер выборки.

 #calculate probability that sample mean is less than or equal to 6
sum(sample_means <= 6) / length(sample_means)

В этом конкретном примере мы находим вероятность того, что среднее значение выборки меньше или равно 6, учитывая, что среднее значение генеральной совокупности равно 5,3, стандартное отклонение генеральной совокупности равно 9, а размер выборки из 20 человек равен 0,6417 .

Это очень близко к вероятности, рассчитанной с помощью калькулятора выборочного распределения :

Расчет распределения выборки

Полный код

Полный код R, используемый в этом примере, показан ниже:

 #make this example reproducible
set.seed(0)

#define number of samples
n = 10000

#create empty vector of length n
sample_means = rep (NA, n)

#fill empty vector with means
for (i in 1:n){
  sample_means[i] = mean ( rnorm (20, mean=5.3, sd=9))
}

#view first six sample means
head(sample_means)

#create histogram to visualize the sampling distribution
hist(sample_means, main = "", xlab = " Sample Means ", col = " steelblue ")

#mean of sampling distribution
mean(sample_means)

#standard deviation of sampling distribution
sd(sample_means)

#calculate probability that sample mean is less than or equal to 6
sum(sample_means <= 6) / length(sample_means)

Дополнительные ресурсы

Введение в выборочные распределения
Калькулятор распределения выборки
Введение в центральную предельную теорему

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *