Cara menghitung statistik deskriptif di r (dengan contoh)
Statistik deskriptif adalah nilai yang menggambarkan sekumpulan data.
Mereka membantu kita memahami di mana pusat kumpulan data serta distribusi nilai dalam kumpulan data.
Ada dua fungsi yang dapat kita gunakan untuk menghitung statistik deskriptif di R:
Metode 1: Gunakan fungsi ringkasan()
summary(my_data)
Fungsi ringkasan() menghitung nilai berikut untuk setiap variabel dalam bingkai data di R:
- Minimum
- kuartil pertama
- median
- Berarti
- kuartil ke-3
- Maksimum
Metode 2: gunakan fungsi sapply()
sapply(my_data, sd, na. rm = TRUE )
Fungsi sapply() dapat digunakan untuk menghitung statistik deskriptif selain yang dihitung dengan fungsi ringkasan() untuk setiap variabel dalam bingkai data.
Misalnya, fungsi sapply() di atas menghitung simpangan baku setiap variabel dalam bingkai data.
Contoh berikut menunjukkan cara menggunakan kedua fungsi ini untuk menghitung statistik deskriptif untuk variabel dalam bingkai data di R.
Contoh: menghitung statistik deskriptif di R
Misalkan kita memiliki kerangka data berikut di R yang berisi tiga variabel:
#create data frame df <- data. frame (x=c(1, 4, 4, 5, 6, 7, 10, 12), y=c(2, 2, 3, 3, 4, 5, 11, 11), z=c(8, 9, 9, 9, 10, 13, 15, 17)) #view data frame df X Y Z 1 1 2 8 2 4 2 9 3 4 3 9 4 5 3 9 5 6 4 10 6 7 5 13 7 10 11 15 8 12 11 17
Kita dapat menggunakan fungsi ringkasan() untuk menghitung berbagai statistik deskriptif untuk setiap variabel:
#calculate descriptive statistics for each variable
summary(df)
xyz Min. : 1,000 Min. : 2,000 Min. : 8.00
1st Qu.: 4,000 1st Qu.: 2,750 1st Qu.: 9.00
Median: 5,500 Median: 3,500 Median: 9.50
Mean: 6.125 Mean: 5.125 Mean: 11.25
3rd Qu.: 7,750 3rd Qu.: 6,500 3rd Qu.: 13.50
Max. :12,000 Max. :11,000 Max. :17.00
Kita juga dapat menggunakan tanda kurung untuk menghitung statistik deskriptif saja untuk variabel tertentu dalam kerangka data:
#calculate descriptive statistics for 'x' and 'z' only summary(df[, c(' x ', ' z ')]) xz Min. : 1,000 Min. : 8.00 1st Qu.: 4.000 1st Qu.: 9.00 Median: 5.500 Median: 9.50 Mean: 6.125 Mean: 11.25 3rd Qu.: 7.750 3rd Qu.: 13.50 Max. :12,000 Max. :17.00
Kita juga dapat menggunakan fungsi sapply() untuk menghitung statistik deskriptif spesifik untuk setiap variabel.
Misalnya kode berikut menunjukkan cara menghitung standar deviasi setiap variabel:
#calculate standard deviation for each variable sapply(df, sd, na. rm = TRUE ) X Y Z 3.522884 3.758324 3.327376
Kita juga dapat menggunakan function() di sapply() untuk menghitung statistik deskriptif.
Misalnya, kode berikut menunjukkan cara menghitung rentang untuk setiap variabel:
#calculate range for each variable sapply(df, function(df) max(df, na. rm = TRUE )-min(df, na. rm = TRUE )) X Y Z 11 9 9
Terakhir, kita dapat membuat fungsi kompleks yang menghitung statistik deskriptif dan kemudian menggunakan fungsi ini dengan fungsi sapply() .
Misalnya, kode berikut menunjukkan cara menghitung mode setiap variabel dalam bingkai data:
#define function that calculates mode find_mode <- function (x) { u <- unique(x) tab <- tabulate(match(x, u)) u[tab == max(tab)] } #calculate mode for each variable sapply(df, find_mode) $x [1] 4 $y [1] 2 3 11 $z [1] 9
Dari hasilnya kita dapat melihat:
- Modus variabel x adalah 4 .
- Modus dari variabel y adalah 2 , 3 dan 11 (karena masing-masing nilai ini paling sering muncul)
- Modus variabel z adalah 9 .
Dengan menggunakan fungsi ringkasan() dan sapply() , kita dapat menghitung statistik deskriptif apa pun yang kita inginkan untuk setiap variabel dalam bingkai data.
Sumber daya tambahan
Tutorial berikut menjelaskan cara melakukan tugas umum lainnya di R:
Cara membuat tabel ringkasan di R
Cara mencari rentang interkuartil pada R
Cara menghilangkan outlier di R