Jak zmienić liczbę pojemników używanych w histogramie pand


Możesz użyć argumentu bins , aby zmienić liczbę pojemników używanych w histogramie pandy:

 df. plot . hist (columns=[' my_column '], bins= 10 )

Domyślna liczba pojemników używanych w histogramie pandy wynosi 10.

Poniższy przykład pokazuje, jak w praktyce używać argumentu bins .

Przykład: Jak zmienić liczbę pojemników w histogramie Pand

Załóżmy, że mamy następującą ramkę DataFrame pand, która zawiera informacje o punktach zdobytych przez koszykarzy z różnych drużyn:

 import pandas as pd
import numpy as np

#make this example reproducible
n.p. random . seeds (1)

#createDataFrame
df = pd. DataFrame ({' team ': np.repeat ([' A ',' B ',' C '], 100 ),
                   ' points ': np. random . normal (loc= 20 , scale= 2 , size= 300 )})

#view head of DataFrame
print ( df.head ())

  team points
0 A 23.248691
1 A 18.776487
2 A 18.943656
3 A 17.854063
4 A 21.730815

Jeśli utworzymy histogram w celu wizualizacji rozkładu wartości zmiennej punkty , pandy domyślnie będą używać w histogramie 10 przedziałów:

 #create histogram to visualize distribution of points
df. plot . hist (column=[' points '], edgecolor=' black ')

Zauważ, że na histogramie znajduje się 10 słupków.

Załóżmy jednak, że użyjemy argumentu bins , aby zmienić całkowitą liczbę pojemników na 20:

 #create histogram with 20 bins
df. plot . hist (column=[' points '], edgecolor=' black ', bins= 20 ) 

pandy zwiększają liczbę pojemników na histogramie

Zauważ, że na histogramie jest teraz 20 słupków.

Moglibyśmy również zmniejszyć liczbę pojemników do 5:

 #create histogram with 5 bins
df. plot . hist (column=[' points '], edgecolor=' black ', bins= 5 ) 

pandy zmniejszają liczbę pojemników na histogramie

Na histogramie znajduje się teraz łącznie 5 słupków.

Możesz swobodnie dostosować wartość argumentu bins , aby utworzyć dokładnie taki histogram, jaki chcesz.

Wybierając liczbę pojemników, należy jednak pamiętać o następujących kwestiach:

  • Jeśli wybierzesz zbyt mało kategorii, prawdziwy wzorzec danych może zostać ukryty.
  • Jeśli wybierzesz zbyt wiele kategorii, w danych może pojawić się jedynie szum.

Przydatnym sposobem określenia optymalnej liczby pojemników do użycia w histogramie jest skorzystanie z reguły Sturgesa .

Dodatkowe zasoby

Poniższe samouczki wyjaśniają, jak wykonywać inne typowe zadania w pandach:

Jak utworzyć histogram z Pandas DataFrame
Jak utworzyć histogram z serii Pandy
Jak wykreślić histogramy według grup w Pandach

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *