R'de örnek ve popülasyon varyansı nasıl hesaplanır?


Varyans , veri değerlerinin ortalama etrafında ne kadar iyi dağıldığını ölçmenin bir yoludur.

Bir popülasyonun varyansını bulma formülü şöyledir:

σ 2 = Σ (x ben – μ) 2 / N

burada μ popülasyon ortalamasıdır, xi popülasyonun i’inci elemanıdır, N popülasyon büyüklüğüdür ve Σ sadece “toplam” anlamına gelen süslü bir semboldür.

Bir numunenin varyansını bulma formülü şöyledir:

s 2 = Σ (x benx ) 2 / (n-1)

burada x numune ortalamasıdır, xi i’inci numune elemanıdır ve n numune boyutudur .

Örnek: R’de örnek ve popülasyon varyansını hesaplama

R’de aşağıdaki veri kümesine sahip olduğumuzu varsayalım:

 #define dataset
data <- c(2, 4, 4, 7, 8, 12, 14, 15, 19, 22)

Örnek varyansını R’deki var() fonksiyonunu kullanarak hesaplayabiliriz:

 #calculate sample variance
var(data)

[1] 46.01111

Ve popülasyon varyansını basitçe örnek varyansını (n-1)/n ile çarparak aşağıdaki gibi hesaplayabiliriz:

 #determine length of data
n <- length (data)

#calculate population variance
var(data) * (n-1)/n

[1] 41.41

Popülasyon varyansının her zaman örneklem varyansından daha az olacağını unutmayın.

Uygulamada genellikle veri kümeleri için örnek varyansları hesaplarız çünkü tüm popülasyon için veri toplamak alışılmadık bir durumdur.

Örnek: Birkaç sütundan oluşan bir örneğin varyansını hesaplama

R’de aşağıdaki veri çerçevesine sahip olduğumuzu varsayalım:

 #create data frame
data <- data.frame(a=c(1, 3, 4, 4, 6, 7, 8, 12),
                   b=c(2, 4, 4, 5, 5, 6, 7, 16),
                   c=c(6, 6, 7, 8, 8, 9, 9, 12))

#view data frame
data

   ABC
1 1 2 6
2 3 4 6
3 4 4 7
4 4 5 8
5 6 5 8
6 7 6 9
7 8 7 9
8 12 16 12

Veri çerçevesindeki her sütunun örnek varyansını hesaplamak için sapply() işlevini kullanabiliriz:

 #find sample variance of each column
sapply(data, var)

        ABC
11.696429 18.125000 3.839286

Her bir sütunun örnek standart sapmasını hesaplamak için aşağıdaki kodu kullanabiliriz; bu, yalnızca örnek varyansın kareköküdür:

 #find sample standard deviation of each column
sapply(data, sd)

       ABC
3.420004 4.257347 1.959410

Daha fazla R eğitimini burada bulabilirsiniz.

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir