Como alterar o número de caixas usadas no histograma do pandas
Você pode usar o argumento bins para alterar o número de compartimentos usados em um histograma do pandas:
df. plot . hist (columns=[' my_column '], bins= 10 )
O número padrão de compartimentos usados em um histograma do pandas é 10.
O exemplo a seguir mostra como usar o argumento bins na prática.
Exemplo: como alterar o número de caixas no histograma do Pandas
Suponha que temos o seguinte DataFrame do pandas que contém informações sobre pontos marcados por jogadores de basquete de diferentes times:
import pandas as pd import numpy as np #make this example reproducible n.p. random . seeds (1) #createDataFrame df = pd. DataFrame ({' team ': np.repeat ([' A ',' B ',' C '], 100 ), ' points ': np. random . normal (loc= 20 , scale= 2 , size= 300 )}) #view head of DataFrame print ( df.head ()) team points 0 A 23.248691 1 A 18.776487 2 A 18.943656 3 A 17.854063 4 A 21.730815
Se criarmos um histograma para visualizar a distribuição dos valores da variável points , os pandas usarão por padrão 10 bins no histograma:
#create histogram to visualize distribution of points
df. plot . hist (column=[' points '], edgecolor=' black ')
Observe que existem 10 barras no histograma.
No entanto, suponha que usemos o argumento bins para alterar o número total de compartimentos para 20:
#create histogram with 20 bins
df. plot . hist (column=[' points '], edgecolor=' black ', bins= 20 )
Observe que agora existem 20 barras no histograma.
Também poderíamos reduzir o número de caixas para 5:
#create histogram with 5 bins
df. plot . hist (column=[' points '], edgecolor=' black ', bins= 5 )
Existem agora 5 barras no total no histograma.
Sinta-se à vontade para ajustar o valor do argumento bins para criar o histograma exato desejado.
No entanto, tenha em mente os seguintes pontos ao escolher o número de caixas:
- Se você escolher poucas categorias, o verdadeiro padrão subjacente dos dados poderá ficar oculto.
- Se você escolher muitas categorias, poderá ver apenas ruído nos dados.
Uma maneira útil de determinar o número ideal de compartimentos a serem usados em um histograma é usar a regra de Sturges .
Recursos adicionais
Os tutoriais a seguir explicam como realizar outras tarefas comuns em pandas:
Como criar um histograma a partir do Pandas DataFrame
Como criar um histograma a partir de uma série Pandas
Como traçar histogramas por grupo no Pandas