完全ガイド: r でデータをグループ化および要約する方法
データ分析時に実行する最も一般的なタスクの 2 つは、データのグループ化と要約です。
幸いなことに、R のdplyrパッケージを使用すると、データをすばやくグループ化し、要約することができます。
このチュートリアルでは、dplyr を使い始めるためのクイック ガイドを提供します。
dplyr パッケージをインストールしてロードする
dplyr パッケージの関数を使用するには、まずパッケージをロードする必要があります。
#install dplyr (if not already installed)
install.packages(' dplyr ')
#load dplyr
library(dplyr)
次に、 dplyr の関数を使用して、 mtcarsという組み込みの R データセットを使用してデータをグループ化し、要約する例をいくつか示します。
#obtain rows and columns of mtcars dim(mtcars) [1] 32 11 #view first six rows of mtcars head(mtcars) mpg cyl disp hp drat wt qsec vs am gear carb Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4 Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4 Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1 Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1 Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2 Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1
データをグループ化して要約するために使用する基本的な構文は次のとおりです。
data %>% group_by (col_name) %>% summarize (summary_name = summary_function)
注: summary() 関数と summarise() 関数は同等です。
例 1: グループごとの平均と中央値を求める
次のコードは、平均と中央値を含むグループごとの中心傾向の尺度を計算する方法を示しています。
#find mean mpg by cylinder mtcars %>% group_by (cyl) %>% summarize (mean_mpg = mean(mpg, na.rm = TRUE )) # A tibble: 3 x 2 cyl mean_mpg 1 4 26.7 2 6 19.7 3 8 15.1 #find median mpg by cylinder mtcars %>% group_by (cyl) %>% summarize (median_mpg = median(mpg, na.rm = TRUE )) # A tibble: 3 x 2 cyl median_mpg 1 4 26 2 6 19.7 3 8 15.2
例 2: グループごとの広がりの尺度を見つける
次のコードは、標準偏差、四分位範囲、絶対中央値偏差など、グループごとの分散尺度を計算する方法を示しています。
#find sd, IQR, and mad by cylinder mtcars %>% group_by (cyl) %>% summarize (sd_mpg = sd(mpg, na.rm = TRUE ), iqr_mpg = IQR(mpg, na.rm = TRUE ), mad_mpg = mad(mpg, na.rm = TRUE )) # A tibble: 3 x 4 cyl sd_mpg iqr_mpg mad_mpg 1 4 4.51 7.60 6.52 2 6 1.45 2.35 1.93 3 8 2.56 1.85 1.56
例 3: グループごとに数値を検索する
次のコードは、R でグループごとに番号と一意の番号を検索する方法を示しています。
#find row count and unique row count by cylinder mtcars %>% group_by (cyl) %>% summarize (count_mpg = n(), u_count_mpg = n_distinct(mpg)) # A tibble: 3 x 3 cyl count_mpg u_count_mpg 1 4 11 9 2 6 7 6 3 8 14 12
例 4: グループごとのパーセンタイルの検索
次のコードは、シリンダー グループごとの mpg 値の 90 パーセンタイルを見つける方法を示しています。
#find 90th percentile of mpg for each cylinder group mtcars %>% group_by (cyl) %>% summarize (quant90 = quantile(mpg, probs = .9)) # A tibble: 3 x 2 cyl quant90 1 4 32.4 2 6 21.2 3 8 18.3
追加リソース
dplyr パッケージの完全なドキュメントと役立つ視覚化チートシートは、ここで見つけることができます。
group_by()およびsummary()で使用できるその他の便利な関数には、データ フレームの行をフィルターし、 特定の順序で並べる関数などがあります。