如何在 r 中按组计算标准差(附示例)


您可以使用以下任意方法来计算 R 中分组的标准差:

方法一:使用R库

 aggregate(df$col_to_aggregate, list(df$col_to_group_by), FUN=sd)

方法2:使用dplyr

 library (dplyr)

df %>%
  group_by(col_to_group_by) %>%
  summarise_at(vars(col_to_aggregate), list(name=sd))

方法3:使用data.table

 library (data.table)

setDT(df)

dt[ ,list(sd=sd(col_to_aggregate)), by=col_to_group_by]

以下示例展示了如何在 R 中使用以下数据框来实际使用这些方法:

 #create data frame
df <- data. frame (team=rep(c(' A ', ' B ', ' C '), each= 6 ),
                 points=c(8, 10, 12, 12, 14, 15, 10, 11, 12,
                          18, 22, 24, 3, 5, 5, 6, 7, 9))

#view data frame
df

   team points
1 to 8
2 to 10
3 to 12
4 to 12
5 to 14
6 to 15
7 B 10
8 B 11
9 B 12
10 B 18
11 B 22
12 B 24
13 C 3
14 C 5
15 C 5
16 C 6
17 C 7
18 C 9

方法 1:使用 R 基数按组计算标准差

下面的代码展示了如何使用R数据库的Aggregate()函数来计算球队得分的标准差:

 #calculate standard deviation of points by team
aggregate(df$points, list(df$team), FUN=sd)

  Group.1 x
1 A 2.562551
2 B 6.013873
3 C 2.041241

方法 2:使用 dplyr 按组计算标准差

以下代码展示了如何使用dplyr包中的group_by ()summarise_at()函数来计算团队得分的标准差:

 library (dplyr)

#calculate standard deviation of points scored by team
df %>%
  group_by(team) %>%
  summarise_at(vars(points), list(name=sd))

# A tibble: 3 x 2
  team name
   
1 to 2.56
2 B 6.01
3C 2.04

方法3:使用data.table按组计算标准差

以下代码展示了如何使用data.table包中的函数计算团队得分的标准差:

 library (data.table)

#convert data frame to data table 
setDT(df)

#calculate standard deviation of points scored by team
df[,list(sd=sd(points)), by=team]

   team sd
1: A 2.562551
2: B 6.013873
3:C2.041241

请注意,所有三种方法都返回相同的结果。

注意:如果您正在使用非常大的数据框,建议使用dplyrdata.table方法,因为这些包的工作速度比基本 R 快得多。

其他资源

以下教程解释了如何在 R 中执行其他常见任务:

如何计算R中每组的平均值
如何在R中按组计算总和
如何在R中按组计算分位数

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注