Comment tracer des données catégorielles dans Pandas (avec exemples)



Il existe trois manières courantes de visualiser des données catégorielles :

  • Diagramme à barres
  • Boîtes à moustaches par groupe
  • Parcelles en mosaïque

Les exemples suivants montrent comment créer chacun de ces tracés pour un DataFrame pandas en Python.

Exemple 1 : graphiques à barres

Le code suivant montre comment créer un graphique à barres pour visualiser la fréquence des équipes dans un DataFrame pandas donné :

import pandas as pd

#create DataFrame
df = pd.DataFrame({'team': ['A', 'A', 'A', 'B', 'B', 'C', 'C', 'D'],
                   'points': [18, 22, 29, 25, 14, 11, 10, 15]})

#create bar plot to visualize frequency of each team
df['team'].value_counts().plot(kind='bar', xlabel='Team', ylabel='Count', rot=0)

tracer des données catégorielles chez les pandas

L’axe des X affiche le nom de chaque équipe et l’axe des Y montre la fréquence de chaque équipe dans le DataFrame.

Remarque : L’argument rot=0 indique aux pandas de faire pivoter les étiquettes de l’axe x pour qu’elles soient parallèles à l’axe x.

Exemple 2 : boîtes à moustaches par groupe

Les boîtes à moustaches groupées sont un moyen utile de visualiser une variable numérique, regroupée par une variable catégorielle.

Par exemple, le code suivant montre comment créer des boxplots qui montrent la répartition des points marqués, regroupés par équipe :

import pandas as pd

#create DataFrame
df = pd.DataFrame({'team': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
                   'points': [18, 22, 29, 25, 14, 11, 10, 15]})

#create boxplot of points, grouped by team
df.boxplot(column=['points'], by='team', grid=False, color='black')

L’axe des x affiche les équipes et l’axe des y affiche la répartition des points marqués par chaque équipe.

Exemple 3 : tracé en mosaïque

Un tracé en mosaïque est un type de tracé qui affiche les fréquences de deux variables catégorielles différentes dans un seul tracé.

Par exemple, le code suivant montre comment créer un tracé mosaïque qui montre la fréquence des variables catégorielles « résultat » et « équipe » dans un seul tracé :

import pandas as pd
from statsmodels.graphics.mosaicplot import mosaic

#create DataFrame
df = pd.DataFrame({'team': ['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C', 'C'],
                   'result': ['W', 'L', 'L', 'W', 'W', 'L', 'L', 'W', 'W']})

#create mosaic plot
mosaic(df, ['team', 'result']);

tracé en mosaïque pour les données catégorielles chez les pandas

L’axe des x affiche les équipes et l’axe des y affiche la fréquence des résultats pour chaque équipe.

Ressources additionnelles

Les didacticiels suivants expliquent comment effectuer d’autres tâches courantes dans les pandas :

Comment utiliser Groupby et Plot dans Pandas
Comment tracer la distribution des valeurs de colonne dans Pandas
Comment ajuster la taille de la figure d’un tracé de pandas

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *