Pandas : Comment utiliser décrire() pour uniquement Mean et Std



Vous pouvez utiliser la fonction décrire() pour générer des statistiques descriptives pour les variables dans un DataFrame pandas.

Par défaut, la fonction décrire() calcule les métriques suivantes pour chaque variable numérique d’un DataFrame :

  • count (nombre de valeurs)
  • moyenne (valeur moyenne)
  • std (écart type)
  • min (valeur minimale)
  • 25 % (25e percentile)
  • 50 % (50e percentile)
  • 75 % (75e centile)
  • max (valeur maximale)

Cependant, vous pouvez utiliser la syntaxe suivante pour calculer uniquement la moyenne et l’écart type de chaque variable numérique :

df.describe().loc[['mean', 'std']]

L’exemple suivant montre comment utiliser cette syntaxe dans la pratique.

Exemple : utilisez describe() dans Pandas pour calculer uniquement la moyenne et la norme

Supposons que nous ayons le DataFrame pandas suivant qui contient des informations sur divers joueurs de basket-ball :

import pandas as pd

#create DataFrame
df = pd.DataFrame({'team': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
                   'points': [18, 22, 19, 14, 14, 11, 20, 28],
                   'assists': [5, 7, 7, 9, 12, 9, 9, 4],
                   'rebounds': [11, 8, 10, 6, 6, 5, 9, 12]})

#view DataFrame
print(df)

  team  points  assists  rebounds
0    A      18        5        11
1    B      22        7         8
2    C      19        7        10
3    D      14        9         6
4    E      14       12         6
5    F      11        9         5
6    G      20        9         9
7    H      28        4        12

Si nous utilisons la fonction décrire() , nous pouvons calculer des statistiques descriptives pour chaque variable numérique du DataFrame :

#calculate descriptive statistics for each numeric variable
df.describe()

	   points	assists	   rebounds
count	 8.000000	8.00000	   8.000000
mean	18.250000	7.75000	   8.375000
std	 5.365232	2.54951	   2.559994
min	11.000000	4.00000	   5.000000
25%	14.000000	6.50000	   6.000000
50%	18.500000	8.00000	   8.500000
75%	20.500000	9.00000	  10.250000
max	28.000000	12.00000  12.000000

Cependant, nous pouvons utiliser la syntaxe suivante pour calculer uniquement la moyenne et l’écart type de chaque variable numérique :

#only calculate mean and standard deviation of each numeric variable
df.describe().loc[['mean', 'std']]

           points  assists  rebounds
mean	18.250000  7.75000  8.375000
std	 5.365232  2.54951  2.559994

Notez que la sortie inclut uniquement la moyenne et l’écart type pour chaque variable numérique.

Notez que la fonction décrire() calculait toujours chaque statistique descriptive comme précédemment, mais nous avons utilisé la fonction loc pour sélectionner uniquement les lignes portant les noms moyenne et std dans la sortie.

Connexes : Pandas loc vs iloc : quelle est la différence ?

Ressources additionnelles

Les didacticiels suivants expliquent comment effectuer d’autres opérations courantes dans les pandas :

Pandas : comment utiliser décrire() par groupe
Pandas : comment utiliser décrire() avec des centiles spécifiques
Pandas : comment utiliser décrire() et supprimer la notation scientifique

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *