Cara menghitung deviasi standar berdasarkan grup di r (dengan contoh)

Oleh Benjamin anderson Juli 15, 2023 Memandu 0 Komentar

Anda dapat menggunakan salah satu metode berikut untuk menghitung deviasi standar berdasarkan kelompok di R:

Metode 1: gunakan basis R

 aggregate(df$col_to_aggregate, list(df$col_to_group_by), FUN=sd)

Metode 2: gunakan dplyr

 library (dplyr)

df %>%
  group_by(col_to_group_by) %>%
  summarise_at(vars(col_to_aggregate), list(name=sd))

Metode 3: Gunakan data.tabel

 library (data.table)

setDT(df)

dt[ ,list(sd=sd(col_to_aggregate)), by=col_to_group_by]

Contoh berikut menunjukkan cara menggunakan masing-masing metode ini dalam praktik dengan kerangka data berikut di R:

 #create data frame
df <- data. frame (team=rep(c(' A ', ' B ', ' C '), each= 6 ),
                 points=c(8, 10, 12, 12, 14, 15, 10, 11, 12,
                          18, 22, 24, 3, 5, 5, 6, 7, 9))

#view data frame
df

   team points
1 to 8
2 to 10
3 to 12
4 to 12
5 to 14
6 to 15
7 B 10
8 B 11
9 B 12
10 B 18
11 B 22
12 B 24
13 C 3
14 C 5
15 C 5
16 C 6
17 C 7
18 C 9

Metode 1: Hitung simpangan baku berdasarkan kelompok menggunakan basis R

Kode berikut menunjukkan cara menggunakan fungsi Aggregate() dari database R untuk menghitung deviasi standar poin yang dicetak oleh tim:

 #calculate standard deviation of points by team
aggregate(df$points, list(df$team), FUN=sd)

  Group.1 x
1 A 2.562551
2 B 6.013873
3 C 2.041241

Metode 2: Hitung simpangan baku berdasarkan kelompok menggunakan dplyr

Kode berikut menunjukkan cara menggunakan fungsi group_by () dan summarise_at() dari paket dplyr untuk menghitung deviasi standar poin yang dicetak oleh tim:

 library (dplyr)

#calculate standard deviation of points scored by team
df %>%
  group_by(team) %>%
  summarise_at(vars(points), list(name=sd))

# A tibble: 3 x 2
  team name
   
1 to 2.56
2 B 6.01
3C 2.04

Metode 3: Hitung simpangan baku per kelompok menggunakan data.tabel

Kode berikut menunjukkan cara menghitung deviasi standar poin yang dicetak oleh tim menggunakan fungsi dalam paket data.table :

 library (data.table)

#convert data frame to data table 
setDT(df)

#calculate standard deviation of points scored by team
df[,list(sd=sd(points)), by=team]

   team sd
1: A 2.562551
2: B 6.013873
3:C2.041241

Perhatikan bahwa ketiga metode memberikan hasil yang sama.

Catatan : Jika Anda bekerja dengan kerangka data yang sangat besar, disarankan untuk menggunakan pendekatan dplyr atau data.table karena paket-paket ini bekerja jauh lebih cepat daripada basis R.

Sumber daya tambahan

Tutorial berikut menjelaskan cara melakukan tugas umum lainnya di R:

Cara menghitung mean per grup di R
Cara menghitung jumlah berdasarkan kelompok di R
Cara menghitung kuantil berdasarkan kelompok di R

Tentang Penulis

Benjamin anderson

Halo, saya Benjamin, pensiunan profesor statistika yang menjadi guru Statorial yang berdedikasi. Dengan pengalaman dan keahlian yang luas di bidang statistika, saya ingin berbagi ilmu untuk memberdayakan mahasiswa melalui Statorials. Baca selengkapnya