Comment calculer des statistiques récapitulatives pour un DataFrame Pandas

Par Dr. Benjamin Anderson juillet 20, 2023 Guide 0 commentaire

Vous pouvez utiliser les méthodes suivantes pour calculer des statistiques récapitulatives pour les variables dans un DataFrame pandas :

Méthode 1 : calculer les statistiques récapitulatives pour toutes les variables numériques

df.describe()

Méthode 2 : calculer les statistiques récapitulatives pour toutes les variables de chaîne

df.describe(include='object')

Méthode 3 : calculer des statistiques récapitulatives regroupées par une variable

df.groupby('group_column').mean()

df.groupby('group_column').median()

df.groupby('group_column').max()

...

Les exemples suivants montrent comment utiliser chaque méthode en pratique avec le DataFrame pandas suivant :

import pandas as pd
import numpy as np

#create DataFrame
df = pd.DataFrame({'team': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B'],
                   'points': [18, 22, 19, 14, 14, 11, 20, 28, 30],
                   'assists': [5, np.nan, 7, 9, 12, 9, 9, 4, 5],
                   'rebounds': [11, 8, 10, 6, 6, 5, 9, np.nan, 6]})

#view DataFrame
print(df)

  team  points  assists  rebounds
0    A      18      5.0      11.0
1    A      22      NaN       8.0
2    A      19      7.0      10.0
3    A      14      9.0       6.0
4    B      14     12.0       6.0
5    B      11      9.0       5.0
6    B      20      9.0       9.0
7    B      28      4.0       NaN
8    B      30      5.0       6.0

Exemple 1 : Calculer des statistiques récapitulatives pour toutes les variables numériques

Le code suivant montre comment calculer les statistiques récapitulatives pour chaque variable numérique du DataFrame :

df.describe()

	   points	 assists	rebounds
count	9.000000	8.000000	8.000000
mean	19.555556	7.500000	7.625000
std	6.366143	2.725541	2.199838
min	11.000000	4.000000	5.000000
25%	14.000000	5.000000	6.000000
50%	19.000000	8.000000	7.000000
75%	22.000000	9.000000	9.250000
max	30.000000	12.000000	11.000000

Nous pouvons voir les statistiques récapitulatives suivantes pour chacune des trois variables numériques :

count : le nombre de valeurs non nulles
moyenne : La valeur moyenne
std : L’écart type
min : la valeur minimale
25% : La valeur au 25ème percentile
50% : La valeur au 50ème centile (également la médiane)
75% : La valeur au 75ème percentile
max : La valeur maximale

Exemple 2 : calculer des statistiques récapitulatives pour toutes les variables de chaîne

Le code suivant montre comment calculer les statistiques récapitulatives pour chaque variable de chaîne dans le DataFrame :

df.describe(include='object')

	team
count	   9
unique	   2
top	   B
freq	   5

Nous pouvons voir les statistiques récapitulatives suivantes pour la variable de chaîne dans notre DataFrame :

count : Le nombre de valeurs non nulles
unique : Le nombre de valeurs uniques
en haut : la valeur la plus fréquente
freq : Le nombre de valeurs apparaissant le plus fréquemment

Exemple 3 : Calculer des statistiques récapitulatives regroupées par une variable

Le code suivant montre comment calculer la valeur moyenne de toutes les variables numériques, regroupées par variable d’équipe :

df.groupby('team').mean()

	points	assists	rebounds
team			
A	18.25	7.0	8.75
B	20.60	7.8	6.50

La sortie affiche la valeur moyenne des variables points , passes décisives et rebonds , regroupées par variable d’équipe .

Notez que nous pouvons utiliser une syntaxe similaire pour calculer une statistique récapitulative différente, telle que la médiane :

df.groupby('team').median()

	points	assists	rebounds
team			
A	18.5	7.0	9.0
B	20.0	9.0	6.0

La sortie affiche la valeur médiane des variables points , passes décisives et rebonds , regroupées par variable d’équipe .

Remarque : Vous pouvez trouver la documentation complète de la fonction de description dans pandas ici .

Ressources additionnelles

Les didacticiels suivants expliquent comment effectuer d’autres tâches courantes chez les pandas :

Comment compter les observations par groupe chez les pandas
Comment trouver la valeur maximale par groupe chez Pandas
Comment identifier les valeurs aberrantes chez les pandas

à propos de l'auteur

Dr. Benjamin Anderson

Il est un professeur de statistiques à la retraite devenu éducateur dévoué sur Statorials. Avec une vaste expérience et une expertise dans le domaine des statistiques, je m'engage à partager mes connaissances pour responsabiliser les étudiants grâce à Statorials. Lire plus