Cara mengubah jumlah bin yang digunakan di histogram pandas


Anda dapat menggunakan argumen bins untuk mengubah jumlah bin yang digunakan dalam histogram pandas:

 df. plot . hist (columns=[' my_column '], bins= 10 )

Jumlah bin default yang digunakan dalam histogram pandas adalah 10.

Contoh berikut menunjukkan cara menggunakan argumen bins dalam praktiknya.

Contoh: Cara mengubah jumlah bin di histogram Pandas

Misalkan kita memiliki pandas DataFrame berikut yang berisi informasi tentang poin yang dicetak oleh pemain bola basket dari tim berbeda:

 import pandas as pd
import numpy as np

#make this example reproducible
n.p. random . seeds (1)

#createDataFrame
df = pd. DataFrame ({' team ': np.repeat ([' A ',' B ',' C '], 100 ),
                   ' points ': np. random . normal (loc= 20 , scale= 2 , size= 300 )})

#view head of DataFrame
print ( df.head ())

  team points
0 A 23.248691
1 A 18.776487
2 A 18.943656
3 A 17.854063
4 A 21.730815

Jika kita membuat histogram untuk memvisualisasikan distribusi nilai variabel poin , panda secara default akan menggunakan 10 bin dalam histogram:

 #create histogram to visualize distribution of points
df. plot . hist (column=[' points '], edgecolor=' black ')

Perhatikan bahwa ada 10 bar di histogram.

Namun, misalkan kita menggunakan argumen bins untuk mengubah jumlah total bin menjadi 20:

 #create histogram with 20 bins
df. plot . hist (column=[' points '], edgecolor=' black ', bins= 20 ) 

panda menambah jumlah tempat sampah di histogram

Perhatikan bahwa sekarang ada 20 bar di histogram.

Kami juga dapat mengurangi jumlah wadah menjadi 5:

 #create histogram with 5 bins
df. plot . hist (column=[' points '], edgecolor=' black ', bins= 5 ) 

panda mengurangi jumlah tempat sampah di histogram

Sekarang ada total 5 bar di histogram.

Jangan ragu untuk menyesuaikan nilai argumen bins untuk membuat histogram persis seperti yang Anda inginkan.

Namun, ingatlah hal-hal berikut saat memilih jumlah nampan:

  • Jika Anda memilih terlalu sedikit kategori, pola dasar sebenarnya dari data tersebut dapat disembunyikan.
  • Jika Anda memilih terlalu banyak kategori, Anda mungkin hanya melihat gangguan pada data.

Cara yang berguna untuk menentukan jumlah bin optimal yang akan digunakan dalam histogram adalah dengan menggunakan aturan Sturges .

Sumber daya tambahan

Tutorial berikut menjelaskan cara melakukan tugas umum lainnya di panda:

Cara membuat histogram dari Pandas DataFrame
Cara membuat histogram dari seri Pandas
Cara memplot histogram berdasarkan grup di Pandas

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *