Comment modifier le nombre de bacs utilisés dans l’histogramme Pandas



Vous pouvez utiliser l’argument bins pour modifier le nombre de bacs utilisés dans un histogramme pandas :

df.plot.hist(columns=['my_column'], bins=10)

Le nombre par défaut de bacs utilisés dans un histogramme pandas est de 10.

L’exemple suivant montre comment utiliser l’argument bins dans la pratique.

Exemple : Comment modifier le nombre de bacs dans l’histogramme Pandas

Supposons que nous ayons le DataFrame pandas suivant qui contient des informations sur les points marqués par les joueurs de basket-ball de différentes équipes :

import pandas as pd
import numpy as np

#make this example reproducible
np.random.seed(1)

#create DataFrame
df = pd.DataFrame({'team': np.repeat(['A', 'B', 'C'], 100),
                   'points': np.random.normal(loc=20, scale=2, size=300)})

#view head of DataFrame
print(df.head())

  team     points
0    A  23.248691
1    A  18.776487
2    A  18.943656
3    A  17.854063
4    A  21.730815

Si nous créons un histogramme pour visualiser la distribution des valeurs de la variable points , les pandas utiliseront par défaut 10 bacs dans l’histogramme :

#create histogram to visualize distribution of points
df.plot.hist(column=['points'], edgecolor='black')

Remarquez qu’il y a 10 barres dans l’histogramme.

Cependant, supposons que nous utilisions l’argument bins pour modifier le nombre total de bins à 20 :

#create histogram with 20 bins
df.plot.hist(column=['points'], edgecolor='black', bins=20)

les pandas augmentent le nombre de bacs dans l'histogramme

Remarquez qu’il y a maintenant 20 barres dans l’histogramme.

On pourrait également diminuer le nombre de bacs à 5 :

#create histogram with 5 bins
df.plot.hist(column=['points'], edgecolor='black', bins=5)

les pandas diminuent le nombre de bacs dans l'histogramme

Il y a maintenant 5 barres au total dans l’histogramme.

N’hésitez pas à ajuster la valeur de l’argument bins pour créer l’histogramme exact que vous souhaitez.

Cependant, gardez les points suivants à l’esprit lors du choix du nombre de bacs :

  • Si vous choisissez trop peu de catégories, le véritable modèle sous-jacent des données peut être masqué.
  • Si vous choisissez trop de catégories, vous ne visualisez peut-être que le bruit dans les données.

Un moyen utile de déterminer le nombre optimal de compartiments à utiliser dans un histogramme consiste à utiliser la règle de Sturges .

Ressources additionnelles

Les didacticiels suivants expliquent comment effectuer d’autres tâches courantes dans les pandas :

Comment créer un histogramme à partir de Pandas DataFrame
Comment créer un histogramme à partir d’une série Pandas
Comment tracer des histogrammes par groupe chez Pandas

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *