Як застосувати центральну граничну теорему в r (з прикладами)


Центральна гранична теорема стверджує, що вибірковий розподіл вибіркового середнього є приблизно нормальним, якщо розмір вибірки достатньо великий, навіть якщо розподіл сукупності не є нормальним.

Центральна гранична теорема також стверджує, що вибірковий розподіл матиме такі властивості:

1. Середнє значення розподілу вибірки дорівнюватиме середньому значенню розподілу сукупності:

x = µ

2. Стандартне відхилення розподілу вибірки дорівнюватиме стандартному відхиленню розподілу сукупності, поділеному на розмір вибірки:

s = σ /n

У наступному прикладі показано, як застосувати центральну граничну теорему в R.

Приклад: застосування центральної граничної теореми в R

Припустимо, що ширина панцира черепахи рівномірно розподілена з мінімальною шириною 2 дюйми та максимальною шириною 6 дюймів.

Тобто, якщо ми навмання виберемо черепаху та виміряємо ширину її панцира, вона також, імовірно, буде від 2 до 6 дюймів завширшки .

Наступний код показує, як створити набір даних у R, що містить вимірювання ширини панцира 1000 черепах, рівномірно розподілених між 2 і 6 дюймами:

 #make this example reproducible
set. seeds (0)

#create random variable with sample size of 1000 that is uniformly distributed
data <- runif(n=1000, min=2, max=6)

#create histogram to visualize distribution of turtle shell widths
hist(data, col=' steelblue ', main=' Histogram of Turtle Shell Widths ')

Зверніть увагу, що розподіл ширини панцира черепахи зазвичай не розподілений взагалі.

А тепер уявіть, що ми беремо повторні випадкові зразки 5 черепах із цієї популяції та вимірюємо середнє значення вибірки знову і знову.

Наступний код показує, як виконати цей процес у R і створити гістограму для візуалізації розподілу вибіркових середніх:

 #create empty vector to hold sample means
sample5 <- c()

#take 1,000 random samples of size n=5
n = 1000
for (i in 1:n){
sample5[i] = mean(sample(data, 5, replace= TRUE ))
}

#calculate mean and standard deviation of sample means
mean(sample5)

[1] 4.008103

sd(sample5)

[1] 0.5171083 

#create histogram to visualize sampling distribution of sample means
hist(sample5, col = ' steelblue ', xlab=' Turtle Shell Width ', main=' Sample size = 5 ') 

Зауважте, що вибірковий розподіл вибіркових середніх виглядає нормально розподіленим, навіть якщо розподіл, з якого походять вибірки, не був нормально розподіленим.

Також зверніть увагу на середнє значення вибірки та стандартне відхилення вибірки для цього розподілу вибірки:

  • : 4,008
  • s : 0,517

Тепер припустімо, що ми збільшимо розмір вибірки, яку використовуємо, з n=5 до n=30 і відтворимо гістограму вибіркових середніх:

 #create empty vector to hold sample means
sample30 <- c()

#take 1,000 random samples of size n=30
n = 1000
for (i in 1:n){
sample30[i] = mean(sample(data, 30, replace= TRUE ))
}

#calculate mean and standard deviation of sample means
mean(sample30)

[1] 4.000472

sd(sample30)

[1] 0.2003791

#create histogram to visualize sampling distribution of sample means
hist(sample30, col = ' steelblue ', xlab=' Turtle Shell Width ', main=' Sample size = 30 ') 

Вибірковий розподіл знову має нормальний розподіл , але стандартне відхилення вибірки ще менше:

  • s : 0,200

Це пояснюється тим, що ми використовували більший розмір вибірки (n=30) порівняно з попереднім прикладом (n=5), тому стандартне відхилення вибіркових середніх є ще меншим.

Якщо ми продовжуємо використовувати все більші і більші вибірки, ми виявимо, що стандартне відхилення вибірки стає все меншим і меншим.

Це ілюструє центральну граничну теорему на практиці.

Додаткові ресурси

Наступні ресурси надають додаткову інформацію про центральну граничну теорему:

Вступ до центральної граничної теореми
Калькулятор центральної граничної теореми
5 прикладів використання центральної граничної теореми в реальному житті

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *