Как изменить количество ячеек, используемых в гистограмме pandas


Вы можете использовать аргумент bins , чтобы изменить количество ячеек, используемых в гистограмме pandas:

 df. plot . hist (columns=[' my_column '], bins= 10 )

Количество ячеек по умолчанию, используемых в гистограмме панд, равно 10.

В следующем примере показано, как использовать аргумент bins на практике.

Пример: как изменить количество ячеек в гистограмме Pandas

Предположим, у нас есть следующий DataFrame pandas, содержащий информацию об очках, набранных баскетболистами разных команд:

 import pandas as pd
import numpy as np

#make this example reproducible
n.p. random . seeds (1)

#createDataFrame
df = pd. DataFrame ({' team ': np.repeat ([' A ',' B ',' C '], 100 ),
                   ' points ': np. random . normal (loc= 20 , scale= 2 , size= 300 )})

#view head of DataFrame
print ( df.head ())

  team points
0 A 23.248691
1 A 18.776487
2 A 18.943656
3 A 17.854063
4 A 21.730815

Если мы создадим гистограмму для визуализации распределения значений переменной точек , панды по умолчанию будут использовать 10 ячеек в гистограмме:

 #create histogram to visualize distribution of points
df. plot . hist (column=[' points '], edgecolor=' black ')

Обратите внимание, что на гистограмме 10 столбцов.

Однако предположим, что мы используем аргумент bins , чтобы изменить общее количество ячеек на 20:

 #create histogram with 20 bins
df. plot . hist (column=[' points '], edgecolor=' black ', bins= 20 ) 

панды увеличивают количество ячеек в гистограмме

Обратите внимание, что на гистограмме теперь 20 столбцов.

Мы также могли бы уменьшить количество контейнеров до 5:

 #create histogram with 5 bins
df. plot . hist (column=[' points '], edgecolor=' black ', bins= 5 ) 

панды уменьшают количество ячеек в гистограмме

Всего на гистограмме теперь 5 столбцов.

Не стесняйтесь корректировать значение аргумента bins , чтобы создать именно ту гистограмму, которую вы хотите.

Однако при выборе количества контейнеров следует учитывать следующие моменты:

  • Если вы выберете слишком мало категорий, истинная основная структура данных может быть скрыта.
  • Если вы выберете слишком много категорий, вы можете увидеть только шум в данных.

Полезный способ определить оптимальное количество интервалов для использования в гистограмме — использовать правило Стерджеса .

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнять другие распространенные задачи в pandas:

Как создать гистограмму из Pandas DataFrame
Как создать гистограмму из серии Pandas
Как построить гистограммы по группам в Pandas

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *