Como alterar o número de caixas usadas no histograma do pandas


Você pode usar o argumento bins para alterar o número de compartimentos usados em um histograma do pandas:

 df. plot . hist (columns=[' my_column '], bins= 10 )

O número padrão de compartimentos usados em um histograma do pandas é 10.

O exemplo a seguir mostra como usar o argumento bins na prática.

Exemplo: como alterar o número de caixas no histograma do Pandas

Suponha que temos o seguinte DataFrame do pandas que contém informações sobre pontos marcados por jogadores de basquete de diferentes times:

 import pandas as pd
import numpy as np

#make this example reproducible
n.p. random . seeds (1)

#createDataFrame
df = pd. DataFrame ({' team ': np.repeat ([' A ',' B ',' C '], 100 ),
                   ' points ': np. random . normal (loc= 20 , scale= 2 , size= 300 )})

#view head of DataFrame
print ( df.head ())

  team points
0 A 23.248691
1 A 18.776487
2 A 18.943656
3 A 17.854063
4 A 21.730815

Se criarmos um histograma para visualizar a distribuição dos valores da variável points , os pandas usarão por padrão 10 bins no histograma:

 #create histogram to visualize distribution of points
df. plot . hist (column=[' points '], edgecolor=' black ')

Observe que existem 10 barras no histograma.

No entanto, suponha que usemos o argumento bins para alterar o número total de compartimentos para 20:

 #create histogram with 20 bins
df. plot . hist (column=[' points '], edgecolor=' black ', bins= 20 ) 

pandas aumentam o número de caixas no histograma

Observe que agora existem 20 barras no histograma.

Também poderíamos reduzir o número de caixas para 5:

 #create histogram with 5 bins
df. plot . hist (column=[' points '], edgecolor=' black ', bins= 5 ) 

pandas diminuem o número de caixas no histograma

Existem agora 5 barras no total no histograma.

Sinta-se à vontade para ajustar o valor do argumento bins para criar o histograma exato desejado.

No entanto, tenha em mente os seguintes pontos ao escolher o número de caixas:

  • Se você escolher poucas categorias, o verdadeiro padrão subjacente dos dados poderá ficar oculto.
  • Se você escolher muitas categorias, poderá ver apenas ruído nos dados.

Uma maneira útil de determinar o número ideal de compartimentos a serem usados em um histograma é usar a regra de Sturges .

Recursos adicionais

Os tutoriais a seguir explicam como realizar outras tarefas comuns em pandas:

Como criar um histograma a partir do Pandas DataFrame
Como criar um histograma a partir de uma série Pandas
Como traçar histogramas por grupo no Pandas

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *