Pandas ヒストグラムで使用されるビンの数を変更する方法
bins引数を使用して、パンダのヒストグラムで使用されるビンの数を変更できます。
df. plot . hist (columns=[' my_column '], bins= 10 )
pandas ヒストグラムで使用されるデフォルトのビン数は 10 です。
次の例は、実際にbins引数を使用する方法を示しています。
例: Pandas ヒストグラムのビンの数を変更する方法
さまざまなチームのバスケットボール選手が獲得したポイントに関する情報を含む次のパンダ データフレームがあるとします。
import pandas as pd import numpy as np #make this example reproducible n.p. random . seeds (1) #createDataFrame df = pd. DataFrame ({' team ': np.repeat ([' A ',' B ',' C '], 100 ), ' points ': np. random . normal (loc= 20 , scale= 2 , size= 300 )}) #view head of DataFrame print ( df.head ()) team points 0 A 23.248691 1 A 18.776487 2 A 18.943656 3 A 17.854063 4 A 21.730815
ポイント変数の値の分布を視覚化するヒストグラムを作成すると、パンダはデフォルトでヒストグラムで 10 個のビンを使用します。
#create histogram to visualize distribution of points
df. plot . hist (column=[' points '], edgecolor=' black ')
ヒストグラムには 10 本のバーがあることに注目してください。
ただし、 bins引数を使用してビンの合計数を 20 に変更するとします。
#create histogram with 20 bins
df. plot . hist (column=[' points '], edgecolor=' black ', bins= 20 )
ヒストグラムには 20 本のバーがあることに注目してください。
ビンの数を 5 に減らすこともできます。
#create histogram with 5 bins
df. plot . hist (column=[' points '], edgecolor=' black ', bins= 5 )
ヒストグラムには合計 5 つのバーが表示されます。
bins引数の値を自由に調整して、必要な正確なヒストグラムを作成してください。
ただし、ビンの数を選択するときは、次の点に注意してください。
- 選択するカテゴリが少なすぎると、データの実際の基礎となるパターンが隠れてしまう可能性があります。
- 選択したカテゴリが多すぎると、データ内にノイズだけが表示される可能性があります。
ヒストグラムで使用する最適なビンの数を決定する便利な方法は、スタージェス ルールを使用することです。
追加リソース
次のチュートリアルでは、パンダで他の一般的なタスクを実行する方法を説明します。
Pandas DataFrame からヒストグラムを作成する方法
Pandas シリーズからヒストグラムを作成する方法
Pandas でグループごとにヒストグラムをプロットする方法