如何在r中按组计算汇总统计数据

经过本杰明·安德森博 23 7 月, 2023 指导 0 条评论

在 R 中计算组汇总统计量有两种基本方法：

方法 1：使用 Base R 中的 tapply()

 tapply(df$value_col, df$group_col, summary)

方法 2：使用 dplyr 包中的 group_by()

 library (dplyr)

df %>%
  group_by (group_col) %>% 
  summarize (min = min(value_col),
            q1 = quantile(value_col, 0.25 ),
            median = median(value_col),
            mean = mean(value_col),
            q3 = quantile(value_col, 0.75 ),
            max = max(value_col))

以下示例展示了如何在实践中使用每种方法。

方法 1：使用 Base R 中的 tapply()

以下代码展示了如何使用R中的tapply()函数按组计算汇总统计量：

 #create data frame
df <- data. frame (team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'),
                 points=c(99, 68, 86, 88, 95, 74, 78, 93),
                 assists=c(22, 28, 31, 35, 34, 45, 28, 31),
                 rebounds=c(30, 28, 24, 24, 30, 36, 30, 29))

#calculate summary statistics of 'points' grouped by 'team'
tapply(df$points, df$team, summary)

$A
   Min. 1st Qu. Median Mean 3rd Qu. Max. 
  68.00 81.50 87.00 85.25 90.75 99.00 

$B
   Min. 1st Qu. Median Mean 3rd Qu. Max. 
   74.0 77.0 85.5 85.0 93.5 95.0

方法 2：使用 dplyr 包中的 group_by()

以下代码展示了如何使用dplyr包中的group_by()和summary()函数按组计算汇总统计信息：

 library (dplyr)

#create data frame
df <- data. frame (team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'),
                 points=c(99, 68, 86, 88, 95, 74, 78, 93),
                 assists=c(22, 28, 31, 35, 34, 45, 28, 31),
                 rebounds=c(30, 28, 24, 24, 30, 36, 30, 29))

#calculate summary statistics of 'points' grouped by 'team'
df %>%
  group_by (team) %>% 
  summarize (min = min(points),
            q1 = quantile(points, 0.25 ),
            median = median(points),
            mean = mean(points),
            q3 = quantile(points, 0.75 ),
            max = max(points))

# A tibble: 2 x 7
  team min q1 median mean q3 max
         
1 A 68 81.5 87 85.2 90.8 99
2 B 74 77 85.5 85 93.5 95

请注意，这两种方法返回完全相同的结果。

值得注意的是，对于较大的数据帧，dplyr 方法可能会更快，但这两种方法在较小的数据帧上的表现类似。

其他资源

以下教程解释了如何在 R 中执行其他常见分组功能：

如何在R中按组创建频率表
 如何在R中按组计算总和
 如何计算R中每组的平均值
 如何在R中按组计算总和

关于作者

本杰明·安德森博

大家好，我是本杰明，一位退休的统计学教授，后来成为 Statorials 的热心教师。凭借在统计领域的丰富经验和专业知识，我渴望分享我的知识，通过 Statorials 增强学生的能力。了解更多

方法 1：使用 Base R 中的 tapply()

方法 2：使用 dplyr 包中的 group_by()

其他资源

关于作者

本杰明·安德森博

添加评论