Comment calculer les quartiles chez les pandas (avec exemple)



En statistiques, les quartiles sont des valeurs qui divisent un ensemble de données en quatre parties égales.

Lors de l’analyse d’une distribution, nous nous intéressons généralement aux quartiles suivants :

  • Premier quartile ( Q1 ) : La valeur située au 25ème centile
  • Deuxième quartile ( Q2 ) : La valeur située au 50e centile
  • Troisième quartile ( Q3 ) : La valeur située au 75e percentile

Vous pouvez utiliser les méthodes suivantes pour calculer les quartiles des colonnes dans un DataFrame pandas :

Méthode 1 : calculer les quartiles pour une colonne

df['some_column'].quantile([0.25, 0.5, 0.75])

Méthode 2 : calculer les quartiles pour chaque colonne numérique

df.quantile(q=[0.25, 0.5, 0.75], axis=0, numeric_only=True)

Les exemples suivants montrent comment utiliser chaque méthode en pratique avec le DataFrame pandas suivant :

import pandas as pd

#create DataFrame
df = pd.DataFrame({'team': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'],
                   'points': [12, 14, 14, 16, 24, 26, 28, 30, 31, 35],
                   'assists': [2, 2, 3, 3, 4, 6, 7, 8, 10, 15]})

#view DataFrame
print(df)

  team  points  assists
0    A      12        2
1    B      14        2
2    C      14        3
3    D      16        3
4    E      24        4
5    F      26        6
6    G      28        7
7    H      30        8
8    I      31       10
9    J      35       15

Exemple 1 : calculer les quartiles pour une colonne

Le code suivant montre comment calculer les quartiles pour la colonne de points uniquement :

#calculate quartiles for points column
df['points'].quantile([0.25, 0.5, 0.75])

0.25    14.5
0.50    25.0
0.75    29.5
Name: points, dtype: float64

À partir du résultat, nous pouvons voir :

  • Le premier quartile se situe à 14,5 .
  • Le deuxième quartile se situe à 25 .
  • Le troisième quartile se situe à 29,5 .

En connaissant seulement ces trois valeurs, nous avons une assez bonne idée de la façon dont les valeurs sont réparties dans la colonne des points .

Exemple 2 : calculer les quartiles pour chaque colonne numérique

Le code suivant montre comment calculer les quartiles pour chaque colonne numérique du DataFrame :

#calculate quartiles for each numeric column in DataFrame
df.quantile(q=[0.25, 0.5, 0.75], axis=0, numeric_only=True)

      points  assists
0.25	14.5	 3.00
0.50	25.0	 5.00
0.75	29.5	 7.75

La sortie affiche les quartiles des deux colonnes numériques du DataFrame.

Notez qu’il existe plusieurs façons de calculer les quartiles d’une distribution.

Reportez-vous à la page de documentation pandas pour voir les différentes méthodes utilisées par la fonction pandas quantile() pour calculer les quartiles.

Ressources additionnelles

Les didacticiels suivants expliquent comment effectuer d’autres tâches courantes dans les pandas :

Comment calculer le pourcentage de changement chez les pandas
Comment calculer le pourcentage cumulatif chez les pandas
Comment calculer le pourcentage du total au sein d’un groupe chez les pandas

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *