Comment ajouter une colonne de nombre à un DataFrame Pandas
Vous pouvez utiliser la syntaxe de base suivante pour ajouter une colonne « count » à un DataFrame pandas :
df['var1_count'] = df.groupby('var1')['var1'].transform('count')
Cette syntaxe particulière ajoute une colonne appelée var1_count au DataFrame qui contient le nombre de valeurs dans la colonne appelée var1 .
L’exemple suivant montre comment utiliser cette syntaxe dans la pratique.
Exemple : Ajouter une colonne de nombre dans Pandas
Supposons que nous ayons le DataFrame pandas suivant qui contient des informations sur divers joueurs de basket-ball :
import pandas as pd #create DataFrame df = pd.DataFrame({'team': ['A', 'A', 'A', 'B', 'B', 'B', 'B', 'B'], 'pos': ['Gu', 'Fo', 'Fo', 'Fo', 'Gu', 'Gu', 'Fo', 'Fo'], 'points': [18, 22, 19, 14, 14, 11, 20, 28]}) #view DataFrame print(df) team pos points 0 A Gu 18 1 A Fo 22 2 A Fo 19 3 B Fo 14 4 B Gu 14 5 B Gu 11 6 B Fo 20 7 B Fo 28
Nous pouvons utiliser le code suivant pour ajouter une colonne appelée team_count qui contient le nombre de chaque équipe :
#add column that shows total count of each team
df['team_count'] = df.groupby('team')['team'].transform('count')
#view updated DataFrame
print(df)
team pos points team_count
0 A Gu 18 3
1 A Fo 22 3
2 A Fo 19 3
3 B Fo 14 5
4 B Gu 14 5
5 B Gu 11 5
6 B Fo 20 5
7 B Fo 28 5
Il y a 3 lignes avec une valeur d’équipe de A et 5 lignes avec une valeur d’équipe de B.
Ainsi:
- Pour chaque ligne où l’équipe est égale à A, la valeur dans la colonne team_count est 3 .
- Pour chaque ligne où l’équipe est égale à B, la valeur dans la colonne team_count est 5 .
Vous pouvez également ajouter une colonne « compte » qui regroupe plusieurs variables.
Par exemple, le code suivant montre comment ajouter une colonne « count » qui regroupe les variables team et pos :
#add column that shows total count of each team and position
df['team_pos_count'] = df.groupby(['team', 'pos')['team'].transform('count')
#view updated DataFrame
print(df)
team pos points team_pos_count
0 A Gu 18 1
1 A Fo 22 2
2 A Fo 19 2
3 B Fo 14 3
4 B Gu 14 2
5 B Gu 11 2
6 B Fo 20 3
7 B Fo 28 3
À partir du résultat, nous pouvons voir :
- Il y a 1 ligne qui contient A dans la colonne équipe et Gu dans la colonne pos .
- Il y a 2 lignes qui contiennent A dans la colonne équipe et Fo dans la colonne pos .
- Il y a 3 lignes qui contiennent B dans la colonne équipe et Fo dans la colonne pos .
- Il y a 2 lignes qui contiennent B dans la colonne équipe et Gu dans la colonne pos .
Ressources additionnelles
Les didacticiels suivants expliquent comment effectuer d’autres tâches courantes dans les pandas :
Pandas : Comment utiliser GroupBy et les décomptes de valeurs
Pandas : Comment utiliser GroupBy avec le nombre de bacs
Pandas : Comment compter les valeurs dans une colonne avec condition