Ggplot2 でヒストグラムのビンの数を設定する方法


bins引数を使用して、 ggplot2のヒストグラムで使用するビンの数を指定できます。

 library (ggplot2)

ggplot(df, aes (x=x)) +
  geom_histogram(bins= 10 )

次の例は、この引数を実際に使用する方法を示しています。

例: ggplot2 のヒストグラムのビン数を設定する

次のコードは、平均値 2 のポアソン分布に従う 10,000 個のランダム値を含むデータセットを R で作成する方法を示しています。

 #make this example reproducible
set. seeds (0)

#create data frame with 10,000 random values that follow Poisson distribution
df <- data. frame (values=rpois(n= 10000 , lambda= 2 ))

#view first five rows of data frame
head(df)

  values
1 4
2 1
3 1
4 2
5 4
6 1

次のコードを使用して ggplot2 でヒストグラムを作成し、データ フレーム内の値の分布を視覚化できます。

 library (ggplot2)

ggplot(df, aes (x=values)) +
  geom_histogram(fill=' steelblue ', col=' black ') 

デフォルトでは、ggplot2 はヒストグラムで使用する特定の数のボックスを自動的に選択します。

ただし、次の構文を使用して、ヒストグラムで10 個のビンを使用することを指定できます。

 library (ggplot2)

ggplot(df, aes (x=values)) +
  geom_histogram(fill=' steelblue ', col=' black ', bins= 10 ) 

ヒストグラムにはちょうど10 個のボックスがあることに注意してください。

または、次の構文を使用して、ヒストグラムで5 つのビンを使用することを指定することもできます。

 library (ggplot2)

ggplot(df, aes (x=values)) +
  geom_histogram(fill=' steelblue ', col=' black ', bins= 5 ) 

ヒストグラムにはちょうど5 つのボックスがあることに注意してください。

使用するビンの数が少ないほど、各ビンの幅が広くなることがわかります。

一般に、使用するグループが少なすぎると、値の真の基礎となる分布が隠蔽されてしまいます。

ただし、使用するグループが多すぎると、データ内にノイズが発生するだけの危険があります。

ヒストグラムで使用する最適なビン数を見つける方法の 1 つは、スタージェス ルールを使用することです。このルールの詳細については、こちらをご覧ください。

: geom_histogram関数の完全なドキュメントはここで見つけることができます。

追加リソース

次のチュートリアルでは、R で他の一般的なグラフを作成する方法を説明します。

R で相対頻度ヒストグラムを作成する方法
R で 1 つのグラフに複数の箱ひげ図をプロットする方法
R でグラフに複数の線をプロットする方法

コメントを追加する

メールアドレスが公開されることはありません。 が付いている欄は必須項目です