Як підсумувати кілька стовпців за допомогою dplyr

за Редакція 18 Липня, 2023 Гід 0 коментарів

Ви можете використовувати такі методи, щоб підсумувати кілька стовпців у фреймі даних за допомогою dplyr:

Спосіб 1: підсумуйте всі стовпці

 #summarize mean of all columns
df %>%
  group_by(group_var) %>%
  summarise(across(everything(), mean, na. rm = TRUE ))

Спосіб 2: підсумуйте конкретні стовпці

 #summarize mean of col1 and col2 only
df %>%
  group_by(group_var) %>%
  summarise(across(c(col1, col2), mean, na. rm = TRUE ))

Спосіб 3: підсумуйте всі числові стовпці

 #summarize mean and standard deviation of all numeric columns
df %>%
  group_by(group_var) %>%
  summarise(across(where(is. numeric ), list(mean=mean, sd=sd), na. rm = TRUE ))

У наведених нижче прикладах показано, як використовувати кожен метод із таким кадром даних:

 #create data frame
df <- data. frame (team=c('A', 'A', 'A', 'B', 'B', 'B'),
                 points=c(99, 90, 86, 88, 95, 90),
                 assists=c(33, 28, 31, 39, 34, 25),
                 rebounds=c(NA, 28, 24, 24, 28, 19))

#view data frame
df

  team points assists rebounds
1 A 99 33 NA
2 A 90 28 28
3 A 86 31 24
4 B 88 39 24
5 B 95 34 28
6 B 90 25 19

Приклад 1: підсумуйте всі стовпці

Наступний код показує, як підсумувати середнє значення всіх стовпців:

 library (dplyr)

#summarize mean of all columns, grouped by team
df %>%
  group_by(team) %>%
  summarise(across(everything(), mean, na. rm = TRUE ))

# A tibble: 2 x 4
  team points assists rebounds
           
1 A 91.7 30.7 26  
2 B 91 32.7 23.7

Приклад 2: підсумуйте конкретні стовпці

У наступному коді показано, як підсумувати середнє значення лише стовпців очок і підбирань :

 library (dplyr)

#summarize mean of points and rebounds, grouped by team
df %>%
  group_by(team) %>%
  summarise(across(c(points, rebounds), mean, na. rm = TRUE ))

# A tibble: 2 x 3
  team points rebounds
        
1 A 91.7 26  
2 B 91 23.7

Приклад 3: підсумуйте всі числові стовпці

У наступному коді показано, як узагальнити середнє значення та стандартне відхилення всіх числових стовпців у кадрі даних:

 library (dplyr)

#summarize mean and standard deviation of all numeric columns
df %>%
  group_by(team) %>%
  summarise(across(where(is. numeric ), list(mean=mean, sd=sd), na. rm = TRUE ))

# A tibble: 2 x 7
  team points_mean points_sd assists_mean assists_sd rebounds_mean rebounds_sd
                                            
1 A 91.7 6.66 30.7 2.52 26 2.83
2 B 91 3.61 32.7 7.09 23.7 4.51

На виході відображається середнє значення та стандартне відхилення всіх числових змінних у кадрі даних.

Зверніть увагу, що в цьому прикладі ми використовували функцію list() для перерахування кількох підсумкових статистичних даних, які ми хотіли обчислити.

Примітка : у кожному прикладі ми використовували функцію dplyr cross() . Ви можете знайти повну документацію для цієї функції тут .

Додаткові ресурси

У наступних посібниках пояснюється, як виконувати інші поширені функції за допомогою dplyr:

Як видалити рядки за допомогою dplyr
Як упорядкувати рядки за допомогою dplyr
Як фільтрувати за кількома умовами за допомогою dplyr

Про автора

Редакція

Привіт, я Бенджамін, професор статистики на пенсії, який став викладачем статистики. Маючи великий досвід і знання в галузі статистики, я готовий поділитися своїми знаннями, щоб розширити можливості студентів через Statorials. Дізнайтеся більше