Comment utiliser la fonction décrire() dans Pandas (avec exemples)



Vous pouvez utiliser la fonction décrire() pour générer des statistiques descriptives pour un DataFrame pandas.

Cette fonction utilise la syntaxe de base suivante :

df.describe()

Les exemples suivants montrent comment utiliser cette syntaxe en pratique avec le DataFrame pandas suivant :

import pandas as pd

#create DataFrame
df = pd.DataFrame({'team': ['A', 'A', 'B', 'B', 'B', 'C', 'C', 'C'],
                   'points': [25, 12, 15, 14, 19, 23, 25, 29],
                   'assists': [5, 7, 7, 9, 12, 9, 9, 4],
                   'rebounds': [11, 8, 10, 6, 6, 5, 9, 12]})

#view DataFrame
df

	team	points	assists	rebounds
0	A	25	5	11
1	A	12	7	8
2	B	15	7	10
3	B	14	9	6
4	B	19	12	6
5	C	23	9	5
6	C	25	9	9
7	C	29	4	12

Exemple 1 : décrire toutes les colonnes numériques

Par défaut, la fonction décrire() génère uniquement des statistiques descriptives pour les colonnes numériques d’un DataFrame pandas :

#generate descriptive statistics for all numeric columns
df.describe()

	points	        assists	   rebounds
count	8.000000	8.00000	   8.000000
mean	20.250000	7.75000	   8.375000
std	6.158618	2.54951	   2.559994
min	12.000000	4.00000	   5.000000
25%	14.750000	6.50000	   6.000000
50%	21.000000	8.00000	   8.500000
75%	25.000000	9.00000	   10.250000
max	29.000000	12.00000   12.000000

Des statistiques descriptives sont affichées pour les trois colonnes numériques du DataFrame.

Remarque : S’il manque des valeurs dans des colonnes, les pandas excluront automatiquement ces valeurs lors du calcul des statistiques descriptives.

Exemple 2 : décrire toutes les colonnes

Pour calculer des statistiques descriptives pour chaque colonne du DataFrame, nous pouvons utiliser l’argument include=’all’ :

#generate descriptive statistics for all columns
df.describe(include='all')

	team	points	    assists	rebounds
count	8	8.000000    8.00000	8.000000
unique	3	NaN	    NaN	        NaN
top	B	NaN	    NaN	        NaN
freq	3	NaN	    NaN	        NaN
mean	NaN	20.250000   7.75000	8.375000
std	NaN	6.158618    2.54951	2.559994
min	NaN	12.000000   4.00000	5.000000
25%	NaN	14.750000   6.50000	6.000000
50%	NaN	21.000000   8.00000	8.500000
75%	NaN	25.000000   9.00000	10.250000
max	NaN	29.000000   12.00000	12.000000

Exemple 3 : décrire des colonnes spécifiques

Le code suivant montre comment calculer des statistiques descriptives pour une colonne spécifique du DataFrame pandas :

#calculate descriptive statistics for 'points' column only
df['points'].describe()

count     8.000000
mean     20.250000
std       6.158618
min      12.000000
25%      14.750000
50%      21.000000
75%      25.000000
max      29.000000
Name: points, dtype: float64

Le code suivant montre comment calculer des statistiques descriptives pour plusieurs colonnes spécifiques :

#calculate descriptive statistics for 'points' and 'assists' columns only
df[['points', 'assists']].describe()

	points	assists
count	8.000000	8.00000
mean	20.250000	7.75000
std	6.158618	2.54951
min	12.000000	4.00000
25%	14.750000	6.50000
50%	21.000000	8.00000
75%	25.000000	9.00000
max	29.000000	12.00000

Vous pouvez trouver la documentation complète de la fonction décrire() ici .

Ressources additionnelles

Les didacticiels suivants expliquent comment exécuter d’autres fonctions courantes dans les pandas :

Pandas : Comment trouver des valeurs uniques dans une colonne
Pandas : comment trouver la différence entre deux lignes
Pandas : Comment compter les valeurs manquantes dans DataFrame

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *