Dplyr を使用して r で要約統計量を計算する方法

によるベンジャミン・アンダーソン博士 7月 12, 2023 ガイド 0コメント

次の構文を使用すると、 dplyrパッケージの関数を使用して、R のデータフレーム内のすべての数値変数の要約統計量を計算できます。

 library (dplyr)
library (tidyr)

df %>% summarise(across(where(is. numeric ), .fns = 
                     list(min = min,
                          median = median,
                          mean = mean,
                          stdev = sd,
                          q25 = ~quantile(., 0.25 ),
                          q75 = ~quantile(., 0.75 ),
                          max = max))) %>%
  pivot_longer(everything(), names_sep=' _ ', names_to=c(' variable ', ' .value '))

summarise()関数はdplyrパッケージに含まれており、変数の要約統計量を計算するために使用されます。

pivot_longer()関数はTidyrパッケージに含まれており、出力を読みやすくフォーマットするために使用されます。

この特定の構文は、データフレーム内の各数値変数について次の要約統計量を計算します。

最小値
中央値
平均値
標準偏差
25 パーセンタイル
75パーセンタイル
最大値

次の例は、この関数を実際に使用する方法を示しています。

例: dplyr を使用して R で要約統計量を計算する

R に、さまざまなバスケットボール選手に関する情報を含む次のデータフレームがあるとします。

 #create data frame
df <- data. frame (team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'),
                 points=c(12, 15, 19, 14, 24, 25, 39, 34),
                 assists=c(6, 8, 8, 9, 12, 6, 8, 10),
                 rebounds=c(9, 9, 8, 10, 8, 4, 3, 3))

#view data frame
df

  team points assists rebounds
1 to 12 6 9
2 A 15 8 9
3 A 19 8 8
4 A 14 9 10
5 B 24 12 8
6 B 25 6 4
7 B 39 8 3
8 B 34 10 3

次の構文を使用して、データフレーム内の各数値変数の要約統計量を計算できます。

 library (dplyr)
library (tidyr)

#calculate summary statistics for each numeric variable in data frame
df %>% summarise(across(where(is. numeric ), .fns = 
                     list(min = min,
                          median = median,
                          mean = mean,
                          stdev = sd,
                          q25 = ~quantile(., 0.25 ),
                          q75 = ~quantile(., 0.75 ),
                          max = max))) %>%
  pivot_longer(everything(), names_sep=' _ ', names_to=c(' variable ', ' .value '))

# A tibble: 3 x 8
  variable min median mean stdev q25 q75 max
             
1 points 12 21.5 22.8 9.74 14.8 27.2 39
2 assists 6 8 8.38 2.00 7.5 9.25 12
3 rebounds 3 8 6.75 2.92 3.75 9 10

結果から次のことがわかります。

ポイント列の最小値は12です。
ポイント列の中央値は21.5です。
ポイント列の平均値は22.8です。

等々。

注: この例では、 dplyr across()関数を使用しました。この関数の完全なドキュメントはここで見つけることができます。

追加リソース

次のチュートリアルでは、dplyr を使用して他の一般的な機能を実行する方法について説明します。

dplyr を使用してデータを要約し、すべての列を保持する方法
 dplyr を使用して複数の列を要約する方法
 dplyrを使用して標準偏差を計算する方法

著者について

ベンジャミン・アンダーソン博士

私はベンジャミンです。退職した統計教授から、専任の Statorials 教育者になりました。統計分野における豊富な経験と専門知識を活かして、私は Statorials を通じて学生に力を与えるために自分の知識を共有することに尽力しています。もっと知る

例: dplyr を使用して R で要約統計量を計算する

追加リソース

著者について

ベンジャミン・アンダーソン博士

コメントを追加する