Pandas : Comment utiliser aggfunc dans la fonction crosstab()
Vous pouvez utiliser l’argument aggfunc dans la fonction pandas crosstab() pour créer un tableau croisé qui agrège les valeurs à l’aide d’une métrique spécifique :
pd.crosstab(index=df.col1, columns=df.col2, values=df.col3, aggfunc='count')
La valeur par défaut de aggfunc est « count », mais vous pouvez spécifier d’autres méthodes d’agrégation telles que la moyenne, la médiane, la somme, le min, le max, etc.
Vous pouvez également spécifier plusieurs méthodes d’agrégation dans l’argument aggfunc :
pd.crosstab(index=df.col1, columns=df.col2, values=df.col3, aggfunc=['min', 'max'])
Les exemples suivants montrent comment utiliser chacune de ces méthodes en pratique avec le DataFrame pandas suivant :
import pandas as pd #create DataFrame df = pd.DataFrame({'team': ['A', 'A', 'A', 'B', 'B', 'B', 'B', 'C', 'C', 'C', 'C'], 'position':['G', 'G', 'F', 'G', 'F', 'F', 'F', 'G', 'G', 'F', 'F'], 'points': [22, 25, 24, 39, 34, 20, 18, 17, 20, 19, 22]}) #view DataFrame print(df) team position points 0 A G 22 1 A G 25 2 A F 24 3 B G 39 4 B F 34 5 B F 20 6 B F 18 7 C G 17 8 C G 20 9 C F 19 10 C F 22
Exemple 1 : créer un tableau croisé avec une valeur dans aggfunc
Nous pouvons utiliser la fonction crosstab() suivante avec l’argument aggfunc=’mean’ pour créer un tableau croisé qui affiche les points de valeur moyenne pour chaque combinaison de position et d’équipe :
#create crosstab that displays mean points value by team and position pd.crosstab(index=df.team, columns=df.position, values=df.points, aggfunc='mean') position F G team A 24.0 23.5 B 24.0 39.0 C 20.5 18.5
Voici comment interpréter le résultat :
- La moyenne de points des joueurs de l’équipe A en position F est de 24 .
- La moyenne de points des joueurs de l’équipe A en position G est de 23,5 .
Et ainsi de suite.
Nous pouvons également utiliser une autre métrique d’agrégation, telle que la valeur maximale :
#create crosstab that displays max points value by team and position pd.crosstab(index=df.team, columns=df.position, values=df.points, aggfunc='max') position F G team A 24 25 B 34 39 C 22 20
Voici comment interpréter le résultat :
- Le maximum de points pour les joueurs de l’équipe A en position F est de 24 .
- Le maximum de points pour les joueurs de l’équipe A en position G est de 25 .
Et ainsi de suite.
Exemple 2 : créer un tableau croisé avec plusieurs valeurs dans aggfunc
Nous pouvons utiliser la fonction crosstab() avec plusieurs valeurs dans l’argument aggfunc pour agréger les valeurs de points par plusieurs métriques pour chaque combinaison de position et d’équipe :
#create crosstab that displays min and max points by team and position pd.crosstab(df.team, df.position, df.points, aggfunc=['min', 'max']) min max position F G F G team A 24 22 24 25 B 18 39 34 39 C 19 17 22 20
Voici comment interpréter le résultat :
- La valeur minimale de points pour les joueurs de l’équipe A en position F est de 24 .
- La valeur minimale de points pour les joueurs de l’équipe A en position G est de 22 .
- La valeur maximale de points pour les joueurs de l’équipe A en position F est de 24 .
- La valeur maximale de points pour les joueurs de l’équipe A en position G est de 25 .
Et ainsi de suite.
Remarque : Vous pouvez trouver la documentation complète de la fonction pandas crosstab() ici .
Ressources additionnelles
Les didacticiels suivants expliquent comment effectuer d’autres tâches courantes chez les pandas :
Pandas : Comment créer un tableau croisé avec des pourcentages
Pandas : Comment utiliser GroupBy et les décomptes de valeurs
Pandas : Comment utiliser GroupBy avec le nombre de bacs