Як змінити кількість бінів, що використовуються в гістограмі pandas


Ви можете використовувати аргумент bins , щоб змінити кількість bins, що використовуються в гістограмі pandas:

 df. plot . hist (columns=[' my_column '], bins= 10 )

За замовчуванням у гістограмі pandas використовується 10 бінів.

У наступному прикладі показано, як використовувати аргумент bins на практиці.

Приклад: як змінити кількість бінів на гістограмі Pandas

Припустимо, що у нас є наступний DataFrame pandas, який містить інформацію про очки, набрані баскетболістами різних команд:

 import pandas as pd
import numpy as np

#make this example reproducible
n.p. random . seeds (1)

#createDataFrame
df = pd. DataFrame ({' team ': np.repeat ([' A ',' B ',' C '], 100 ),
                   ' points ': np. random . normal (loc= 20 , scale= 2 , size= 300 )})

#view head of DataFrame
print ( df.head ())

  team points
0 A 23.248691
1 A 18.776487
2 A 18.943656
3 A 17.854063
4 A 21.730815

Якщо ми створимо гістограму для візуалізації розподілу значень змінної Points , панди за замовчуванням використовуватимуть 10 бінів у гістограмі:

 #create histogram to visualize distribution of points
df. plot . hist (column=[' points '], edgecolor=' black ')

Зверніть увагу, що на гістограмі є 10 стовпчиків.

Однак припустімо, що ми використовуємо аргумент bins , щоб змінити загальну кількість бункерів на 20:

 #create histogram with 20 bins
df. plot . hist (column=[' points '], edgecolor=' black ', bins= 20 ) 

панди збільшують кількість бінів на гістограмі

Зверніть увагу, що на гістограмі тепер 20 стовпчиків.

Ми також можемо зменшити кількість бункерів до 5:

 #create histogram with 5 bins
df. plot . hist (column=[' points '], edgecolor=' black ', bins= 5 ) 

панди зменшують кількість бінів на гістограмі

Зараз на гістограмі всього 5 стовпчиків.

Ви можете налаштувати значення аргументу bins , щоб створити точну гістограму, яку ви хочете.

Однак при виборі кількості бункерів пам’ятайте про наступні моменти:

  • Якщо вибрати замало категорій, справжній шаблон даних може бути прихованим.
  • Якщо вибрати забагато категорій, у даних може спостерігатися лише шум.

Корисним способом визначення оптимальної кількості бінів для використання на гістограмі є використання правила Стерджеса .

Додаткові ресурси

У наступних посібниках пояснюється, як виконувати інші типові завдання в pandas:

Як створити гістограму з Pandas DataFrame
Як створити гістограму з серії Pandas
Як побудувати гістограми за групами в Pandas

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *