R'de veri nasıl ortalanır (örneklerle)


Bir veri setini ortalamak, veri setindeki her bir gözlemin ortalama değerini çıkarmak anlamına gelir.

Örneğin aşağıdaki veri setine sahip olduğumuzu varsayalım:

Ortalama değerin 14 olduğu ortaya çıktı. Yani bu veri setini ortalamak için her bir gözlemden 14 çıkaracağız:

Veri merkezi nasıl yapılır

Ortalanan veri kümesinin ortalama değerinin sıfır olduğunu unutmayın.

Bu eğitimde verilerin R’de nasıl merkezleneceğine ilişkin birkaç örnek sunulmaktadır.

Örnek 1: Bir vektörün değerlerini ortalayın

Aşağıdaki kod, bir vektördeki değerleri ortalamak için temel R Scale() işlevinin nasıl kullanılacağını gösterir:

 #createvector
data <- c(4, 6, 9, 13, 14, 17, 18, 19, 19, 21)

#subtract the mean value from each observation in the vector
scale(data, scale= FALSE )

      [,1]
 [1,] -10
 [2,] -8
 [3,] -5
 [4,] -1
 [5,] 0
 [6,] 3
 [7,] 4
 [8,] 5
 [9,] 5
[10,] 7

attr(,"scaled:center")
[1] 14

Ortaya çıkan değerler veri kümesinin ortalanmış değerleridir. Scale() işlevi ayrıca bize veri kümesinin ortalama değerinin 14 olduğunu da söyler.

Scale() fonksiyonunun varsayılan olarak her bir gözlemden ortalamayı çıkardığını ve ardından bunu standart sapmaya böldüğünü unutmayın.

Scale=FALSE belirterek R’ye standart sapmaya bölmemesini söyleriz.

Örnek 2: Veri Çerçevesindeki Sütunları Ortalayın

Aşağıdaki kod, bir veri çerçevesinin her bir sütununun değerlerini ortalamak için R veritabanının sapply() işlevinin ve Scale() işlevinin nasıl kullanılacağını gösterir:

 #create data frame
df <- data.frame(x = c(1, 4, 5, 6, 6, 8, 9),
                 y = c(7, 7, 8, 8, 8, 9, 12),
                 z = c(3, 3, 4, 4, 6, 7, 7))

#center each column in the data frame
df_new <- sapply(df, function (x) scale(x, scale= FALSE ))

#display data frame
df_new

              X Y Z
[1,] -4.5714286 -1.4285714 -1.8571429
[2,] -1.5714286 -1.4285714 -1.8571429
[3,] -0.5714286 -0.4285714 -0.8571429
[4,] 0.4285714 -0.4285714 -0.8571429
[5,] 0.4285714 -0.4285714 1.1428571
[6,] 2.4285714 0.5714286 2.1428571
[7,] 3.4285714 3.5714286 2.1428571

ColMeans() işlevini kullanarak yeni veri çerçevesindeki her sütunun ortalamasının sıfır olup olmadığını kontrol edebiliriz:

 colMeans(df_new)

            xyz 2.537653e-16 -2.537653e-16 3.806479e-16 

Değerler bilimsel gösterimle gösterilir ancak her değer esasen sıfırdır.

Ek kaynaklar

R’deki sütunların ortalaması nasıl alınır?
R’de belirli sütunlar nasıl toplanır
R’deki birden çok sütundan aykırı değerler nasıl kaldırılır

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir