Comment ajouter une colonne de nombre à un DataFrame Pandas



Vous pouvez utiliser la syntaxe de base suivante pour ajouter une colonne « count » à un DataFrame pandas :

df['var1_count'] = df.groupby('var1')['var1'].transform('count')

Cette syntaxe particulière ajoute une colonne appelée var1_count au DataFrame qui contient le nombre de valeurs dans la colonne appelée var1 .

L’exemple suivant montre comment utiliser cette syntaxe dans la pratique.

Exemple : Ajouter une colonne de nombre dans Pandas

Supposons que nous ayons le DataFrame pandas suivant qui contient des informations sur divers joueurs de basket-ball :

import pandas as pd

#create DataFrame
df = pd.DataFrame({'team': ['A', 'A', 'A', 'B', 'B', 'B', 'B', 'B'],
                   'pos': ['Gu', 'Fo', 'Fo', 'Fo', 'Gu', 'Gu', 'Fo', 'Fo'],
                   'points': [18, 22, 19, 14, 14, 11, 20, 28]})

#view DataFrame
print(df)

  team pos  points
0    A  Gu      18
1    A  Fo      22
2    A  Fo      19
3    B  Fo      14
4    B  Gu      14
5    B  Gu      11
6    B  Fo      20
7    B  Fo      28

Nous pouvons utiliser le code suivant pour ajouter une colonne appelée team_count qui contient le nombre de chaque équipe :

#add column that shows total count of each team
df['team_count'] = df.groupby('team')['team'].transform('count')

#view updated DataFrame
print(df)

  team pos  points  team_count
0    A  Gu      18           3
1    A  Fo      22           3
2    A  Fo      19           3
3    B  Fo      14           5
4    B  Gu      14           5
5    B  Gu      11           5
6    B  Fo      20           5
7    B  Fo      28           5

Il y a 3 lignes avec une valeur d’équipe de A et 5 lignes avec une valeur d’équipe de B.

Ainsi:

  • Pour chaque ligne où l’équipe est égale à A, la valeur dans la colonne team_count est 3 .
  • Pour chaque ligne où l’équipe est égale à B, la valeur dans la colonne team_count est 5 .

Vous pouvez également ajouter une colonne « compte » qui regroupe plusieurs variables.

Par exemple, le code suivant montre comment ajouter une colonne « count » qui regroupe les variables team et pos :

#add column that shows total count of each team and position
df['team_pos_count'] = df.groupby(['team', 'pos')['team'].transform('count')

#view updated DataFrame
print(df)

  team pos  points  team_pos_count
0    A  Gu      18               1
1    A  Fo      22               2
2    A  Fo      19               2
3    B  Fo      14               3
4    B  Gu      14               2
5    B  Gu      11               2
6    B  Fo      20               3
7    B  Fo      28               3

À partir du résultat, nous pouvons voir :

  • Il y a 1 ligne qui contient A dans la colonne équipe et Gu dans la colonne pos .
  • Il y a 2 lignes qui contiennent A dans la colonne équipe et Fo dans la colonne pos .
  • Il y a 3 lignes qui contiennent B dans la colonne équipe et Fo dans la colonne pos .
  • Il y a 2 lignes qui contiennent B dans la colonne équipe et Gu dans la colonne pos .

Ressources additionnelles

Les didacticiels suivants expliquent comment effectuer d’autres tâches courantes dans les pandas :

Pandas : Comment utiliser GroupBy et les décomptes de valeurs
Pandas : Comment utiliser GroupBy avec le nombre de bacs
Pandas : Comment compter les valeurs dans une colonne avec condition

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *