Dplyr を使用して複数の列を要約する方法

によるベンジャミン・アンダーソン博士 7月 18, 2023 ガイド 0コメント

dplyr を使用してデータフレーム内の複数の列を要約するには、次の方法を使用できます。

方法 1: すべての列を要約する

 #summarize mean of all columns
df %>%
  group_by(group_var) %>%
  summarise(across(everything(), mean, na. rm = TRUE ))

方法 2: 特定の列を要約する

 #summarize mean of col1 and col2 only
df %>%
  group_by(group_var) %>%
  summarise(across(c(col1, col2), mean, na. rm = TRUE ))

方法 3: すべての数値列を要約する

 #summarize mean and standard deviation of all numeric columns
df %>%
  group_by(group_var) %>%
  summarise(across(where(is. numeric ), list(mean=mean, sd=sd), na. rm = TRUE ))

次の例は、次のデータフレームで各メソッドを使用する方法を示しています。

 #create data frame
df <- data. frame (team=c('A', 'A', 'A', 'B', 'B', 'B'),
                 points=c(99, 90, 86, 88, 95, 90),
                 assists=c(33, 28, 31, 39, 34, 25),
                 rebounds=c(NA, 28, 24, 24, 28, 19))

#view data frame
df

  team points assists rebounds
1 A 99 33 NA
2 A 90 28 28
3 A 86 31 24
4 B 88 39 24
5 B 95 34 28
6 B 90 25 19

例 1: すべての列を要約する

次のコードは、すべての列の平均を要約する方法を示しています。

 library (dplyr)

#summarize mean of all columns, grouped by team
df %>%
  group_by(team) %>%
  summarise(across(everything(), mean, na. rm = TRUE ))

# A tibble: 2 x 4
  team points assists rebounds
           
1 A 91.7 30.7 26  
2 B 91 32.7 23.7

例 2: 特定の列を要約する

次のコードは、ポイントとリバウンドの列のみの平均を要約する方法を示しています。

 library (dplyr)

#summarize mean of points and rebounds, grouped by team
df %>%
  group_by(team) %>%
  summarise(across(c(points, rebounds), mean, na. rm = TRUE ))

# A tibble: 2 x 3
  team points rebounds
        
1 A 91.7 26  
2 B 91 23.7

例 3: すべての数値列を要約する

次のコードは、データフレーム内のすべての数値列の平均と標準偏差を要約する方法を示しています。

 library (dplyr)

#summarize mean and standard deviation of all numeric columns
df %>%
  group_by(team) %>%
  summarise(across(where(is. numeric ), list(mean=mean, sd=sd), na. rm = TRUE ))

# A tibble: 2 x 7
  team points_mean points_sd assists_mean assists_sd rebounds_mean rebounds_sd
                                            
1 A 91.7 6.66 30.7 2.52 26 2.83
2 B 91 3.61 32.7 7.09 23.7 4.51

出力には、データフレーム内のすべての数値変数の平均と標準偏差が表示されます。

この例では、 list()関数を使用して、計算したいいくつかの概要統計をリストしたことに注意してください。

注: 各例では、 dplyr across()関数を使用しました。この関数の完全なドキュメントはここで見つけることができます。

追加リソース

次のチュートリアルでは、dplyr を使用して他の一般的な機能を実行する方法について説明します。

dplyrを使用して行を削除する方法
 dplyrを使用して行を配置する方法
dplyrを使って複数の条件でフィルタリングする方法

著者について

ベンジャミン・アンダーソン博士

私はベンジャミンです。退職した統計教授から、専任の Statorials 教育者になりました。統計分野における豊富な経験と専門知識を活かして、私は Statorials を通じて学生に力を与えるために自分の知識を共有することに尽力しています。もっと知る