Comment modifier le nombre de bacs utilisés dans l’histogramme Pandas
Vous pouvez utiliser l’argument bins pour modifier le nombre de bacs utilisés dans un histogramme pandas :
df.plot.hist(columns=['my_column'], bins=10)
Le nombre par défaut de bacs utilisés dans un histogramme pandas est de 10.
L’exemple suivant montre comment utiliser l’argument bins dans la pratique.
Exemple : Comment modifier le nombre de bacs dans l’histogramme Pandas
Supposons que nous ayons le DataFrame pandas suivant qui contient des informations sur les points marqués par les joueurs de basket-ball de différentes équipes :
import pandas as pd import numpy as np #make this example reproducible np.random.seed(1) #create DataFrame df = pd.DataFrame({'team': np.repeat(['A', 'B', 'C'], 100), 'points': np.random.normal(loc=20, scale=2, size=300)}) #view head of DataFrame print(df.head()) team points 0 A 23.248691 1 A 18.776487 2 A 18.943656 3 A 17.854063 4 A 21.730815
Si nous créons un histogramme pour visualiser la distribution des valeurs de la variable points , les pandas utiliseront par défaut 10 bacs dans l’histogramme :
#create histogram to visualize distribution of points
df.plot.hist(column=['points'], edgecolor='black')
Remarquez qu’il y a 10 barres dans l’histogramme.
Cependant, supposons que nous utilisions l’argument bins pour modifier le nombre total de bins à 20 :
#create histogram with 20 bins
df.plot.hist(column=['points'], edgecolor='black', bins=20)
Remarquez qu’il y a maintenant 20 barres dans l’histogramme.
On pourrait également diminuer le nombre de bacs à 5 :
#create histogram with 5 bins
df.plot.hist(column=['points'], edgecolor='black', bins=5)
Il y a maintenant 5 barres au total dans l’histogramme.
N’hésitez pas à ajuster la valeur de l’argument bins pour créer l’histogramme exact que vous souhaitez.
Cependant, gardez les points suivants à l’esprit lors du choix du nombre de bacs :
- Si vous choisissez trop peu de catégories, le véritable modèle sous-jacent des données peut être masqué.
- Si vous choisissez trop de catégories, vous ne visualisez peut-être que le bruit dans les données.
Un moyen utile de déterminer le nombre optimal de compartiments à utiliser dans un histogramme consiste à utiliser la règle de Sturges .
Ressources additionnelles
Les didacticiels suivants expliquent comment effectuer d’autres tâches courantes dans les pandas :
Comment créer un histogramme à partir de Pandas DataFrame
Comment créer un histogramme à partir d’une série Pandas
Comment tracer des histogrammes par groupe chez Pandas