Як обчислити дисперсію вибірки та сукупності в r

за Редакція 27 Липня, 2023 Гід 0 коментарів

Дисперсія – це спосіб вимірювання того, наскільки добре значення даних розподілені навколо середнього.

Формула для знаходження дисперсії генеральної сукупності така:

σ ² = Σ (x _i – μ) ² / N

де μ — середнє значення сукупності, x _i — i- ^й елемент генеральної сукупності, N — розмір генеральної сукупності, а Σ — просто химерний символ, що означає «суму».

Формула для знаходження дисперсії вибірки :

s ² = Σ (x _i – x ) ² / (n-1)

де x — середнє значення вибірки, x _i — i ^-й елемент вибірки, а n — розмір вибірки.

Приклад: обчисліть дисперсію вибірки та сукупності в R

Припустімо, що ми маємо такий набір даних у R:

 #define dataset
data <- c(2, 4, 4, 7, 8, 12, 14, 15, 19, 22)

Ми можемо обчислити дисперсію вибірки за допомогою функції var() у R:

 #calculate sample variance
var(data)

[1] 46.01111

І ми можемо обчислити дисперсію сукупності , просто помноживши дисперсію вибірки на (n-1)/n наступним чином:

 #determine length of data
n <- length (data)

#calculate population variance
var(data) * (n-1)/n

[1] 41.41

Зауважте, що дисперсія сукупності завжди буде меншою, ніж дисперсія вибірки.

На практиці ми зазвичай обчислюємо дисперсії вибірки для наборів даних, оскільки незвично збирати дані для цілої сукупності.

Приклад: обчисліть дисперсію вибірки з кількох стовпців

Припустимо, що ми маємо наступний кадр даних у R:

 #create data frame
data <- data.frame(a=c(1, 3, 4, 4, 6, 7, 8, 12),
                   b=c(2, 4, 4, 5, 5, 6, 7, 16),
                   c=c(6, 6, 7, 8, 8, 9, 9, 12))

#view data frame
data

   ABC
1 1 2 6
2 3 4 6
3 4 4 7
4 4 5 8
5 6 5 8
6 7 6 9
7 8 7 9
8 12 16 12

Ми можемо використовувати функцію sapply() , щоб обчислити вибіркову дисперсію кожного стовпця у кадрі даних:

 #find sample variance of each column
sapply(data, var)

        ABC
11.696429 18.125000 3.839286

І ми можемо використати наступний код, щоб обчислити вибіркове стандартне відхилення кожного стовпця, яке є просто квадратним коренем із вибіркової дисперсії:

 #find sample standard deviation of each column
sapply(data, sd)

       ABC
3.420004 4.257347 1.959410

Ви можете знайти більше навчальних посібників з R тут .

Про автора

Редакція

Привіт, я Бенджамін, професор статистики на пенсії, який став викладачем статистики. Маючи великий досвід і знання в галузі статистики, я готовий поділитися своїми знаннями, щоб розширити можливості студентів через Statorials. Дізнайтеся більше

Приклад: обчисліть дисперсію вибірки та сукупності в R

Приклад: обчисліть дисперсію вибірки з кількох стовпців

Про автора

Редакція

Додати коментар