Hoe u het aantal gebruikte bakken in het panda-histogram kunt wijzigen


U kunt het argument bins gebruiken om het aantal gebruikte bins in een panda-histogram te wijzigen:

 df. plot . hist (columns=[' my_column '], bins= 10 )

Het standaardaantal bakken dat in een panda-histogram wordt gebruikt, is 10.

Het volgende voorbeeld laat zien hoe u het argument bins in de praktijk kunt gebruiken.

Voorbeeld: Hoe u het aantal bakken in het Pandas-histogram kunt wijzigen

Stel dat we het volgende panda’s DataFrame hebben dat informatie bevat over de punten die zijn gescoord door basketbalspelers van verschillende teams:

 import pandas as pd
import numpy as np

#make this example reproducible
n.p. random . seeds (1)

#createDataFrame
df = pd. DataFrame ({' team ': np.repeat ([' A ',' B ',' C '], 100 ),
                   ' points ': np. random . normal (loc= 20 , scale= 2 , size= 300 )})

#view head of DataFrame
print ( df.head ())

  team points
0 A 23.248691
1 A 18.776487
2 A 18.943656
3 A 17.854063
4 A 21.730815

Als we een histogram maken om de verdeling van de waarden van de puntenvariabele te visualiseren, gebruiken panda’s standaard 10 bakken in het histogram:

 #create histogram to visualize distribution of points
df. plot . hist (column=[' points '], edgecolor=' black ')

Merk op dat er 10 balken in het histogram staan.

Stel echter dat we het argument bins gebruiken om het totale aantal bins te wijzigen in 20:

 #create histogram with 20 bins
df. plot . hist (column=[' points '], edgecolor=' black ', bins= 20 ) 

panda's vergroten het aantal bakken in het histogram

Merk op dat er nu 20 balken in het histogram staan.

We kunnen het aantal bakken ook terugbrengen naar 5:

 #create histogram with 5 bins
df. plot . hist (column=[' points '], edgecolor=' black ', bins= 5 ) 

panda's verminderen het aantal bakken in het histogram

Er zijn nu in totaal 5 balken in het histogram.

U kunt gerust de waarde van het bins- argument aanpassen om precies het gewenste histogram te maken.

Houd echter bij de keuze van het aantal bakken rekening met de volgende punten:

  • Als u te weinig categorieën kiest, kan het echte onderliggende patroon van de gegevens verborgen blijven.
  • Als u te veel categorieën kiest, ziet u mogelijk alleen maar ruis in de gegevens.

Een handige manier om het optimale aantal bakken te bepalen dat in een histogram moet worden gebruikt, is door de regel van Sturges te gebruiken.

Aanvullende bronnen

In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende taken in panda’s kunt uitvoeren:

Hoe u een histogram maakt van Pandas DataFrame
Hoe u een histogram maakt van een Panda-serie
Hoe histogrammen per groep in Panda’s te plotten

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert