Cara memusatkan data di r (dengan contoh)
Memusatkan kumpulan data berarti mengurangkan nilai rata-rata setiap observasi individu dalam kumpulan data.
Misalnya, kita memiliki kumpulan data berikut:
Ternyata nilai rata-ratanya adalah 14. Jadi, untuk memusatkan kumpulan data ini, kita akan mengurangi 14 dari setiap observasi:
Perhatikan bahwa nilai rata-rata kumpulan data terpusat adalah nol.
Tutorial ini memberikan beberapa contoh cara memusatkan data di R.
Contoh 1: Pusatkan nilai suatu vektor
Kode berikut menunjukkan cara menggunakan fungsi dasar R scale() untuk memusatkan nilai dalam vektor:
#createvector data <- c(4, 6, 9, 13, 14, 17, 18, 19, 19, 21) #subtract the mean value from each observation in the vector scale(data, scale= FALSE ) [,1] [1,] -10 [2,] -8 [3,] -5 [4,] -1 [5,] 0 [6,] 3 [7,] 4 [8,] 5 [9,] 5 [10,] 7 attr(,"scaled:center") [1] 14
Nilai yang dihasilkan merupakan nilai terpusat dari kumpulan data. Fungsi scale() juga memberitahu kita bahwa nilai rata-rata dari dataset adalah 14.
Perhatikan bahwa fungsi scale() , secara default, mengurangi mean dari setiap observasi dan kemudian membaginya dengan deviasi standar.
Dengan menentukan scale=FALSE kita memberitahu R untuk tidak membagi dengan deviasi standar.
Contoh 2: Kolom Tengah dalam Bingkai Data
Kode berikut menunjukkan cara menggunakan fungsi sapply() dan fungsi scale() database R untuk memusatkan nilai setiap kolom bingkai data:
#create data frame df <- data.frame(x = c(1, 4, 5, 6, 6, 8, 9), y = c(7, 7, 8, 8, 8, 9, 12), z = c(3, 3, 4, 4, 6, 7, 7)) #center each column in the data frame df_new <- sapply(df, function (x) scale(x, scale= FALSE )) #display data frame df_new X Y Z [1,] -4.5714286 -1.4285714 -1.8571429 [2,] -1.5714286 -1.4285714 -1.8571429 [3,] -0.5714286 -0.4285714 -0.8571429 [4,] 0.4285714 -0.4285714 -0.8571429 [5,] 0.4285714 -0.4285714 1.1428571 [6,] 2.4285714 0.5714286 2.1428571 [7,] 3.4285714 3.5714286 2.1428571
Kita dapat memeriksa bahwa rata-rata setiap kolom dalam bingkai data baru adalah nol menggunakan fungsi colMeans() :
colMeans(df_new) xyz 2.537653e-16 -2.537653e-16 3.806479e-16
Nilai ditampilkan dalam notasi ilmiah, namun setiap nilai pada dasarnya nol.
Sumber daya tambahan
Cara menghitung rata-rata kolom di R
Cara menjumlahkan kolom tertentu di R
Cara menghapus outlier dari beberapa kolom di R