R で 5 つの数値の要約を計算する方法 (例付き)
5 桁の要約は、次の 5 つの値を使用して一連のデータを要約する方法です。
- 最小
- 最初の四分位
- 中央値
- 第 3 四分位
- 最大
5 桁の要約は、次のようにデータ分布の簡潔な要約を提供するため便利です。
- 中央値を使用して、中央値がどこにあるかを示します。
- これは、第 1 四分位数と第 3 四分位数を使用してデータの分布を示します。
- 最小値と最大値を使用してデータの範囲を示します。
R のデータセットの 5 つの数値の要約を計算する最も簡単な方法は、R ベースのFivenum()関数を使用することです。
fivenum(data)
次の例は、この構文を実際に使用する方法を示しています。
例 1: ベクトルの 5 つの数の要約
次のコードは、R の数値ベクトルの 5 つの数値の要約を計算する方法を示しています。
#define numeric vector data <- c(4, 6, 6, 7, 8, 9, 12, 13, 14, 15, 15, 18, 22) #calculate five number summary of data fivenum(data) [1] 4 7 12 15 22
結果から次のことがわかります。
- 最小値: 4
- 最初の四分位: 7
- 中央値: 12
- 第 3 四分位数: 15
- 最大: 22
箱ひげ図を作成すると、5 桁の概要をすぐに視覚化できます。
boxplot(data) [1] 4 7 12 15 22
箱ひげ図を解釈する方法は次のとおりです。
- グラフの下部の線は最小値 ( 4 ) を表します。
- ボックスの下部の線は、最初の四分位数 ( 7 ) を表します。
- ボックスの中央の線は中央値 ( 12 ) を表します。
- ボックスの上部の線は、第 3 四分位数 ( 15 ) を表します。
- グラフの上部の線は最大値 ( 22 ) を表します。
例 2: データ フレーム内の列の 5 桁の要約
次のコードは、データ フレーム内の特定の列の 5 桁の要約を計算する方法を示しています。
#create data frame df <- data. frame (team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'), points=c(99, 90, 86, 88, 95, 87, 85, 89), assists=c(33, 28, 31, 39, 34, 30, 29, 25), rebounds=c(30, 28, 24, 24, 28, 30, 31, 35)) #calculate five number summary of points column fivenum(df$points) [1] 85.0 86.5 88.5 92.5 99.0
例 3: 複数列の 5 桁の集計
次のコードは、 sapply()関数を使用して、データ フレーム内の複数の列の 5 桁の集計を同時に計算する方法を示しています。
#create data frame df <- data. frame (team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'), points=c(99, 90, 86, 88, 95, 87, 85, 89), assists=c(33, 28, 31, 39, 34, 30, 29, 25), rebounds=c(30, 28, 24, 24, 28, 30, 31, 35)) #calculate five number summary of points, assists, and rebounds column sapply(df[c(' points ', ' assists ', ' rebounds ')], fivenum) points assists rebounds [1,] 85.0 25.0 24.0 [2,] 86.5 28.5 26.0 [3,] 88.5 30.5 29.0 [4,] 92.5 33.5 30.5 [5,] 99.0 39.0 35.0
関連: R の apply()、lapply()、sapply()、tapply() のガイド