如何向 pandas dataframe 添加数字列


您可以使用以下基本语法将“count”列添加到 pandas DataFrame:

 df[' var1_count '] = df. groupby (' var1 ')[' var1 ']. transform (' count ')

这种特殊的语法将一个名为var1_count的列添加到 DataFrame 中,其中包含名为var1的列中的值的数量。

以下示例展示了如何在实践中使用此语法。

示例:在 Pandas 中添加数字列

假设我们有以下 pandas DataFrame,其中包含有关各种篮球运动员的信息:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'B', 'B', 'B', 'B', 'B'],
                   ' pos ': ['Gu', 'Fo', 'Fo', 'Fo', 'Gu', 'Gu', 'Fo', 'Fo'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28]})

#view DataFrame
print (df)

  team pos points
0 A Gu 18
1 A Fo 22
2 A Fo 19
3 B Fo 14
4 B Gu 14
5 B Gu 11
6 B Fo 20
7 B Fo 28

我们可以使用以下代码添加一个名为team_count的列,其中包含每个团队的计数:

 #add column that shows total count of each team
df[' team_count '] = df. groupby (' team ')[' team ']. transform (' count ')

#view updated DataFrame
print (df)

  team pos points team_count
0 A Gu 18 3
1 A Fo 22 3
2 A Fo 19 3
3 B Fo 14 5
4 B Gu 14 5
5 B Gu 11 5
6 B Fo 20 5
7 B Fo 28 5

3 条线路的团队值为 A, 5条线路的团队值为 B。

所以:

  • 对于 team 等于 A 的每一行, team_count列中的值为3
  • 对于 team 等于 B 的每一行, team_count列中的值为5

您还可以添加一个“帐户”列,将多个变量组合在一起。

例如,以下代码显示如何添加对teampos变量进行分组的“count”列:

 #add column that shows total count of each team and position
df[' team_pos_count '] = df. groupby ([' team ', ' pos ')[' team ']. transform (' count ')

#view updated DataFrame
print (df)

  team pos points team_pos_count
0 A Gu 18 1
1 A Fo 22 2
2 A Fo 19 2
3 B Fo 14 3
4 B Gu 14 2
5 B Gu 11 2
6 B Fo 20 3
7 B Fo 28 3

从结果我们可以看出:

  • 1行,其中team列包含 A, pos列包含 Gu。
  • 2行在team列中包含 A,在pos列中包含 Fo。
  • 3行在team列中包含 B,在pos列中包含 Fo。
  • 2行在team列中包含 B,在pos列中包含 Gu。

其他资源

以下教程解释了如何在 pandas 中执行其他常见任务:

Pandas:如何使用 GroupBy 和值计数
Pandas:如何使用 GroupBy 和 bin 计数
Pandas:如何计算有条件的列中的值

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注