Comment calculer des statistiques récapitulatives pour un DataFrame Pandas
Vous pouvez utiliser les méthodes suivantes pour calculer des statistiques récapitulatives pour les variables dans un DataFrame pandas :
Méthode 1 : calculer les statistiques récapitulatives pour toutes les variables numériques
df.describe()
Méthode 2 : calculer les statistiques récapitulatives pour toutes les variables de chaîne
df.describe(include='object')
Méthode 3 : calculer des statistiques récapitulatives regroupées par une variable
df.groupby('group_column').mean() df.groupby('group_column').median() df.groupby('group_column').max() ...
Les exemples suivants montrent comment utiliser chaque méthode en pratique avec le DataFrame pandas suivant :
import pandas as pd import numpy as np #create DataFrame df = pd.DataFrame({'team': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B'], 'points': [18, 22, 19, 14, 14, 11, 20, 28, 30], 'assists': [5, np.nan, 7, 9, 12, 9, 9, 4, 5], 'rebounds': [11, 8, 10, 6, 6, 5, 9, np.nan, 6]}) #view DataFrame print(df) team points assists rebounds 0 A 18 5.0 11.0 1 A 22 NaN 8.0 2 A 19 7.0 10.0 3 A 14 9.0 6.0 4 B 14 12.0 6.0 5 B 11 9.0 5.0 6 B 20 9.0 9.0 7 B 28 4.0 NaN 8 B 30 5.0 6.0
Exemple 1 : Calculer des statistiques récapitulatives pour toutes les variables numériques
Le code suivant montre comment calculer les statistiques récapitulatives pour chaque variable numérique du DataFrame :
df.describe()
points assists rebounds
count 9.000000 8.000000 8.000000
mean 19.555556 7.500000 7.625000
std 6.366143 2.725541 2.199838
min 11.000000 4.000000 5.000000
25% 14.000000 5.000000 6.000000
50% 19.000000 8.000000 7.000000
75% 22.000000 9.000000 9.250000
max 30.000000 12.000000 11.000000
Nous pouvons voir les statistiques récapitulatives suivantes pour chacune des trois variables numériques :
- count : le nombre de valeurs non nulles
- moyenne : La valeur moyenne
- std : L’écart type
- min : la valeur minimale
- 25% : La valeur au 25ème percentile
- 50% : La valeur au 50ème centile (également la médiane)
- 75% : La valeur au 75ème percentile
- max : La valeur maximale
Exemple 2 : calculer des statistiques récapitulatives pour toutes les variables de chaîne
Le code suivant montre comment calculer les statistiques récapitulatives pour chaque variable de chaîne dans le DataFrame :
df.describe(include='object') team count 9 unique 2 top B freq 5
Nous pouvons voir les statistiques récapitulatives suivantes pour la variable de chaîne dans notre DataFrame :
- count : Le nombre de valeurs non nulles
- unique : Le nombre de valeurs uniques
- en haut : la valeur la plus fréquente
- freq : Le nombre de valeurs apparaissant le plus fréquemment
Exemple 3 : Calculer des statistiques récapitulatives regroupées par une variable
Le code suivant montre comment calculer la valeur moyenne de toutes les variables numériques, regroupées par variable d’équipe :
df.groupby('team').mean() points assists rebounds team A 18.25 7.0 8.75 B 20.60 7.8 6.50
La sortie affiche la valeur moyenne des variables points , passes décisives et rebonds , regroupées par variable d’équipe .
Notez que nous pouvons utiliser une syntaxe similaire pour calculer une statistique récapitulative différente, telle que la médiane :
df.groupby('team').median() points assists rebounds team A 18.5 7.0 9.0 B 20.0 9.0 6.0
La sortie affiche la valeur médiane des variables points , passes décisives et rebonds , regroupées par variable d’équipe .
Remarque : Vous pouvez trouver la documentation complète de la fonction de description dans pandas ici .
Ressources additionnelles
Les didacticiels suivants expliquent comment effectuer d’autres tâches courantes chez les pandas :
Comment compter les observations par groupe chez les pandas
Comment trouver la valeur maximale par groupe chez Pandas
Comment identifier les valeurs aberrantes chez les pandas