R'de veri nasıl ortalanır (örneklerle)
Bir veri setini ortalamak, veri setindeki her bir gözlemin ortalama değerini çıkarmak anlamına gelir.
Örneğin aşağıdaki veri setine sahip olduğumuzu varsayalım:
Ortalama değerin 14 olduğu ortaya çıktı. Yani bu veri setini ortalamak için her bir gözlemden 14 çıkaracağız:
Ortalanan veri kümesinin ortalama değerinin sıfır olduğunu unutmayın.
Bu eğitimde verilerin R’de nasıl merkezleneceğine ilişkin birkaç örnek sunulmaktadır.
Örnek 1: Bir vektörün değerlerini ortalayın
Aşağıdaki kod, bir vektördeki değerleri ortalamak için temel R Scale() işlevinin nasıl kullanılacağını gösterir:
#createvector data <- c(4, 6, 9, 13, 14, 17, 18, 19, 19, 21) #subtract the mean value from each observation in the vector scale(data, scale= FALSE ) [,1] [1,] -10 [2,] -8 [3,] -5 [4,] -1 [5,] 0 [6,] 3 [7,] 4 [8,] 5 [9,] 5 [10,] 7 attr(,"scaled:center") [1] 14
Ortaya çıkan değerler veri kümesinin ortalanmış değerleridir. Scale() işlevi ayrıca bize veri kümesinin ortalama değerinin 14 olduğunu da söyler.
Scale() fonksiyonunun varsayılan olarak her bir gözlemden ortalamayı çıkardığını ve ardından bunu standart sapmaya böldüğünü unutmayın.
Scale=FALSE belirterek R’ye standart sapmaya bölmemesini söyleriz.
Örnek 2: Veri Çerçevesindeki Sütunları Ortalayın
Aşağıdaki kod, bir veri çerçevesinin her bir sütununun değerlerini ortalamak için R veritabanının sapply() işlevinin ve Scale() işlevinin nasıl kullanılacağını gösterir:
#create data frame df <- data.frame(x = c(1, 4, 5, 6, 6, 8, 9), y = c(7, 7, 8, 8, 8, 9, 12), z = c(3, 3, 4, 4, 6, 7, 7)) #center each column in the data frame df_new <- sapply(df, function (x) scale(x, scale= FALSE )) #display data frame df_new X Y Z [1,] -4.5714286 -1.4285714 -1.8571429 [2,] -1.5714286 -1.4285714 -1.8571429 [3,] -0.5714286 -0.4285714 -0.8571429 [4,] 0.4285714 -0.4285714 -0.8571429 [5,] 0.4285714 -0.4285714 1.1428571 [6,] 2.4285714 0.5714286 2.1428571 [7,] 3.4285714 3.5714286 2.1428571
ColMeans() işlevini kullanarak yeni veri çerçevesindeki her sütunun ortalamasının sıfır olup olmadığını kontrol edebiliriz:
colMeans(df_new) xyz 2.537653e-16 -2.537653e-16 3.806479e-16
Değerler bilimsel gösterimle gösterilir ancak her değer esasen sıfırdır.
Ek kaynaklar
R’deki sütunların ortalaması nasıl alınır?
R’de belirli sütunlar nasıl toplanır
R’deki birden çok sütundan aykırı değerler nasıl kaldırılır