R でヒストグラム ブレークを指定する方法 (例あり)
デフォルトでは、R のhist()関数はスタージェスの規則を使用して、ヒストグラムで使用するビンの数を決定します。
スタージェスのルールでは、次の式を使用して、ヒストグラムで使用する最適なグループ数を決定します。
最適なビン = ⌈log 2 n + 1⌉
金:
- n:データセット内の観測値の総数。
- ⌈ ⌉: 「天井」を意味する記号。つまり、答えを最も近い整数に四捨五入します。
たとえば、データ セットに 31 個の観測値がある場合、スタージのルールは次の式を使用して、ヒストグラムで使用する最適なグループ数を決定します。
最適なビン= ⌈log 2 (31) + 1⌉ = ⌈4.954 + 1⌉ = ⌈5.954⌉ = 6 。
スタージェスの法則によれば、このデータセットを視覚化するにはヒストグラムで 6 つのボックスを使用する必要があります。
R でhist()関数を使用する場合、スタージェスのルールを使用して、ヒストグラムに表示するビンの数が自動的に選択されます。
hist(data)
使用する別のビン数を指定するためにBreaks引数を使用した場合でも、R はそれを使用するビンの数の「提案」としてのみ使用します。
hist(data, breaks= 7 )
ただし、次のコードを使用すると、R にヒストグラム内の特定の数のボックスを強制的に使用させることができます。
#create histogram with 7 bins hist(data, breaks = seq(min(data), max(data), length. out = 8 ))
注: length.out にはn+1の長さを使用する必要があります。nは必要なビンの数です。
次の例は、このコードを実際に使用する方法を示しています。
例: R でのヒストグラム ブレークの指定
R に 16 個の値を持つ次のデータ セットがあるとします。
#create vector of 16 values
data <- c(2, 3, 3, 3, 4, 4, 5, 6, 8, 10, 12, 14, 15, 18, 20, 21)
hist()関数を使用すると、R は 5 つのビンを含む次のヒストグラムを作成します。
#create histogram
hist(data)
注: R はスタージェスの法則を使用して、16 の観測値を含むデータセットを視覚化するために使用する最適なグループ数は 5 グループであると判断しました。
Breakers引数を使用して、ヒストグラムで使用する 7 つのグループを指定しようとすると、R はこれを「提案」としてのみ受け取り、代わりに 10 つのグループを使用することを選択します。
#attempt to create histogram with 7 bins
hist(data, breaks= 7 )
ただし、次のコードを使用すると、R にヒストグラムで 7 つのビンを強制的に使用させることができます。
#create histogram with 7 bins
hist(data, breaks = seq(min(data), max(data), length. out = 8 ))
結果は、7 つの等間隔のボックスを含むヒストグラムであることに注意してください。
追加リソース
次のチュートリアルでは、R で他の一般的な操作を実行する方法について説明します。