Pandas : Comment utiliser décrire() pour uniquement Mean et Std
Vous pouvez utiliser la fonction décrire() pour générer des statistiques descriptives pour les variables dans un DataFrame pandas.
Par défaut, la fonction décrire() calcule les métriques suivantes pour chaque variable numérique d’un DataFrame :
- count (nombre de valeurs)
- moyenne (valeur moyenne)
- std (écart type)
- min (valeur minimale)
- 25 % (25e percentile)
- 50 % (50e percentile)
- 75 % (75e centile)
- max (valeur maximale)
Cependant, vous pouvez utiliser la syntaxe suivante pour calculer uniquement la moyenne et l’écart type de chaque variable numérique :
df.describe().loc[['mean', 'std']]
L’exemple suivant montre comment utiliser cette syntaxe dans la pratique.
Exemple : utilisez describe() dans Pandas pour calculer uniquement la moyenne et la norme
Supposons que nous ayons le DataFrame pandas suivant qui contient des informations sur divers joueurs de basket-ball :
import pandas as pd
#create DataFrame
df = pd.DataFrame({'team': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
'points': [18, 22, 19, 14, 14, 11, 20, 28],
'assists': [5, 7, 7, 9, 12, 9, 9, 4],
'rebounds': [11, 8, 10, 6, 6, 5, 9, 12]})
#view DataFrame
print(df)
team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7 H 28 4 12
Si nous utilisons la fonction décrire() , nous pouvons calculer des statistiques descriptives pour chaque variable numérique du DataFrame :
#calculate descriptive statistics for each numeric variable
df.describe()
points assists rebounds
count 8.000000 8.00000 8.000000
mean 18.250000 7.75000 8.375000
std 5.365232 2.54951 2.559994
min 11.000000 4.00000 5.000000
25% 14.000000 6.50000 6.000000
50% 18.500000 8.00000 8.500000
75% 20.500000 9.00000 10.250000
max 28.000000 12.00000 12.000000
Cependant, nous pouvons utiliser la syntaxe suivante pour calculer uniquement la moyenne et l’écart type de chaque variable numérique :
#only calculate mean and standard deviation of each numeric variable
df.describe().loc[['mean', 'std']]
points assists rebounds
mean 18.250000 7.75000 8.375000
std 5.365232 2.54951 2.559994
Notez que la sortie inclut uniquement la moyenne et l’écart type pour chaque variable numérique.
Notez que la fonction décrire() calculait toujours chaque statistique descriptive comme précédemment, mais nous avons utilisé la fonction loc pour sélectionner uniquement les lignes portant les noms moyenne et std dans la sortie.
Connexes : Pandas loc vs iloc : quelle est la différence ?
Ressources additionnelles
Les didacticiels suivants expliquent comment effectuer d’autres opérations courantes dans les pandas :
Pandas : comment utiliser décrire() par groupe
Pandas : comment utiliser décrire() avec des centiles spécifiques
Pandas : comment utiliser décrire() et supprimer la notation scientifique