Pandas ヒストグラムで使用されるビンの数を変更する方法


bins引数を使用して、パンダのヒストグラムで使用されるビンの数を変更できます。

 df. plot . hist (columns=[' my_column '], bins= 10 )

pandas ヒストグラムで使用されるデフォルトのビン数は 10 です。

次の例は、実際にbins引数を使用する方法を示しています。

例: Pandas ヒストグラムのビンの数を変更する方法

さまざまなチームのバスケットボール選手が獲得したポイントに関する情報を含む次のパンダ データフレームがあるとします。

 import pandas as pd
import numpy as np

#make this example reproducible
n.p. random . seeds (1)

#createDataFrame
df = pd. DataFrame ({' team ': np.repeat ([' A ',' B ',' C '], 100 ),
                   ' points ': np. random . normal (loc= 20 , scale= 2 , size= 300 )})

#view head of DataFrame
print ( df.head ())

  team points
0 A 23.248691
1 A 18.776487
2 A 18.943656
3 A 17.854063
4 A 21.730815

ポイント変数の値の分布を視覚化するヒストグラムを作成すると、パンダはデフォルトでヒストグラムで 10 個のビンを使用します。

 #create histogram to visualize distribution of points
df. plot . hist (column=[' points '], edgecolor=' black ')

ヒストグラムには 10 本のバーがあることに注目してください。

ただし、 bins引数を使用してビンの合計数を 20 に変更するとします。

 #create histogram with 20 bins
df. plot . hist (column=[' points '], edgecolor=' black ', bins= 20 ) 

パンダはヒストグラム内のビンの数を増やします

ヒストグラムには 20 本のバーがあることに注目してください。

ビンの数を 5 に減らすこともできます。

 #create histogram with 5 bins
df. plot . hist (column=[' points '], edgecolor=' black ', bins= 5 ) 

pandas はヒストグラム内のビンの数を減らします

ヒストグラムには合計 5 つのバーが表示されます。

bins引数の値を自由に調整して、必要な正確なヒストグラムを作成してください。

ただし、ビンの数を選択するときは、次の点に注意してください。

  • 選択するカテゴリが少なすぎると、データの実際の基礎となるパターンが隠れてしまう可能性があります。
  • 選択したカテゴリが多すぎると、データ内にノイズだけが表示される可能性があります。

ヒストグラムで使用する最適なビンの数を決定する便利な方法は、スタージェス ルールを使用することです。

追加リソース

次のチュートリアルでは、パンダで他の一般的なタスクを実行する方法を説明します。

Pandas DataFrame からヒストグラムを作成する方法
Pandas シリーズからヒストグラムを作成する方法
Pandas でグループごとにヒストグラムをプロットする方法

コメントを追加する

メールアドレスが公開されることはありません。 が付いている欄は必須項目です