Cara menghitung varians sampel & populasi di r


Varians adalah cara untuk mengukur seberapa baik nilai data didistribusikan di sekitar mean.

Rumus untuk mencari varians suatu populasi adalah:

σ 2 = Σ ( xi – μ) 2 / N

dimana μ adalah rata-rata populasi, x i adalah elemen ke- i dari populasi, N adalah ukuran populasi, dan Σ hanyalah sebuah simbol indah yang berarti “jumlah”.

Rumus untuk mencari varians suatu sampel adalah:

s 2 = Σ ( xix ) 2 / (n-1)

dimana x adalah mean sampel, x i adalah elemen sampel ke i dan n adalah ukuran sampel.

Contoh: Hitung varians sampel dan populasi di R

Misalkan kita memiliki kumpulan data berikut di R:

 #define dataset
data <- c(2, 4, 4, 7, 8, 12, 14, 15, 19, 22)

Kita dapat menghitung varians sampel menggunakan fungsi var() di R:

 #calculate sample variance
var(data)

[1] 46.01111

Dan kita dapat menghitung varians populasi hanya dengan mengalikan varians sampel dengan (n-1)/n sebagai berikut:

 #determine length of data
n <- length (data)

#calculate population variance
var(data) * (n-1)/n

[1] 41.41

Perhatikan bahwa varians populasi akan selalu lebih kecil dari varians sampel.

Dalam praktiknya, kami biasanya menghitung varians sampel untuk kumpulan data, karena pengumpulan data untuk seluruh populasi merupakan hal yang tidak biasa.

Contoh: Hitung varians sampel beberapa kolom

Misalkan kita memiliki bingkai data berikut di R:

 #create data frame
data <- data.frame(a=c(1, 3, 4, 4, 6, 7, 8, 12),
                   b=c(2, 4, 4, 5, 5, 6, 7, 16),
                   c=c(6, 6, 7, 8, 8, 9, 9, 12))

#view data frame
data

   ABC
1 1 2 6
2 3 4 6
3 4 4 7
4 4 5 8
5 6 5 8
6 7 6 9
7 8 7 9
8 12 16 12

Kita dapat menggunakan fungsi sapply() untuk menghitung varians sampel setiap kolom dalam bingkai data:

 #find sample variance of each column
sapply(data, var)

        ABC
11.696429 18.125000 3.839286

Dan kita dapat menggunakan kode berikut untuk menghitung deviasi standar sampel setiap kolom, yang merupakan akar kuadrat dari varians sampel:

 #find sample standard deviation of each column
sapply(data, sd)

       ABC
3.420004 4.257347 1.959410

Anda dapat menemukan lebih banyak tutorial R di sini .

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *