Comment utiliser la fonction décrire() dans Pandas (avec exemples)
Vous pouvez utiliser la fonction décrire() pour générer des statistiques descriptives pour un DataFrame pandas.
Cette fonction utilise la syntaxe de base suivante :
df.describe()
Les exemples suivants montrent comment utiliser cette syntaxe en pratique avec le DataFrame pandas suivant :
import pandas as pd
#create DataFrame
df = pd.DataFrame({'team': ['A', 'A', 'B', 'B', 'B', 'C', 'C', 'C'],
'points': [25, 12, 15, 14, 19, 23, 25, 29],
'assists': [5, 7, 7, 9, 12, 9, 9, 4],
'rebounds': [11, 8, 10, 6, 6, 5, 9, 12]})
#view DataFrame
df
team points assists rebounds
0 A 25 5 11
1 A 12 7 8
2 B 15 7 10
3 B 14 9 6
4 B 19 12 6
5 C 23 9 5
6 C 25 9 9
7 C 29 4 12
Exemple 1 : décrire toutes les colonnes numériques
Par défaut, la fonction décrire() génère uniquement des statistiques descriptives pour les colonnes numériques d’un DataFrame pandas :
#generate descriptive statistics for all numeric columns df.describe() points assists rebounds count 8.000000 8.00000 8.000000 mean 20.250000 7.75000 8.375000 std 6.158618 2.54951 2.559994 min 12.000000 4.00000 5.000000 25% 14.750000 6.50000 6.000000 50% 21.000000 8.00000 8.500000 75% 25.000000 9.00000 10.250000 max 29.000000 12.00000 12.000000
Des statistiques descriptives sont affichées pour les trois colonnes numériques du DataFrame.
Remarque : S’il manque des valeurs dans des colonnes, les pandas excluront automatiquement ces valeurs lors du calcul des statistiques descriptives.
Exemple 2 : décrire toutes les colonnes
Pour calculer des statistiques descriptives pour chaque colonne du DataFrame, nous pouvons utiliser l’argument include=’all’ :
#generate descriptive statistics for all columns
df.describe(include='all')
team points assists rebounds
count 8 8.000000 8.00000 8.000000
unique 3 NaN NaN NaN
top B NaN NaN NaN
freq 3 NaN NaN NaN
mean NaN 20.250000 7.75000 8.375000
std NaN 6.158618 2.54951 2.559994
min NaN 12.000000 4.00000 5.000000
25% NaN 14.750000 6.50000 6.000000
50% NaN 21.000000 8.00000 8.500000
75% NaN 25.000000 9.00000 10.250000
max NaN 29.000000 12.00000 12.000000
Exemple 3 : décrire des colonnes spécifiques
Le code suivant montre comment calculer des statistiques descriptives pour une colonne spécifique du DataFrame pandas :
#calculate descriptive statistics for 'points' column only
df['points'].describe()
count 8.000000
mean 20.250000
std 6.158618
min 12.000000
25% 14.750000
50% 21.000000
75% 25.000000
max 29.000000
Name: points, dtype: float64
Le code suivant montre comment calculer des statistiques descriptives pour plusieurs colonnes spécifiques :
#calculate descriptive statistics for 'points' and 'assists' columns only
df[['points', 'assists']].describe()
points assists
count 8.000000 8.00000
mean 20.250000 7.75000
std 6.158618 2.54951
min 12.000000 4.00000
25% 14.750000 6.50000
50% 21.000000 8.00000
75% 25.000000 9.00000
max 29.000000 12.00000
Vous pouvez trouver la documentation complète de la fonction décrire() ici .
Ressources additionnelles
Les didacticiels suivants expliquent comment exécuter d’autres fonctions courantes dans les pandas :
Pandas : Comment trouver des valeurs uniques dans une colonne
Pandas : comment trouver la différence entre deux lignes
Pandas : Comment compter les valeurs manquantes dans DataFrame