Pandas：如何跨多列进行分组和聚合

经过本杰明·安德森博 28 7 月, 2023 指导 0 条评论

通常，您可能希望对 pandas DataFrame 的多个列进行分组和聚合。

幸运的是，使用 pandas .groupby()和.agg()函数可以轻松做到这一点。

本教程解释了这些函数的实际使用的几个示例。

示例 1：按两列分组并求平均值

假设我们有以下 pandas DataFrame：

 import pandas as pd

#createDataFrame
df = pd.DataFrame({'team': ['A', 'B', 'B', 'B', 'B', 'M', 'M', 'M'],
                   'position': ['G', 'G', 'F', 'G', 'F', 'F', 'C', 'C'],
                   'assists': [5, 7, 7, 8, 5, 7, 6, 9],
                   'rebounds': [11, 8, 10, 6, 6, 9, 6, 10]})

#view DataFrame
print (df)

  team position assists rebounds
0 AG 5 11
1 BG 7 8
2 BF 7 10
3 BG 8 6
4 BF 5 6
5 MF 7 9
6 MC 6 6
7 MC 9 10

以下代码显示了如何按“团队”和“位置”列进行分组并查找平均传球次数：

 df. groupby (['team', 'position']). agg ({'assists': ['mean']}). reset_index ()


        team position assists
                          mean
0 A G 5.0
1 B F 6.0
2 B G 7.5
3 M C 7.5
4M F 7.0

输出告诉我们：

A队G位置球员的平均助攻数为5.0次。
B队F位球员的平均助攻数为6.0次。
B队G位置球员的平均助攻数为7.5次。

等等。

我们还可以使用以下代码来重命名生成的 DataFrame 的列：

 #group by team and position and find mean assists
new = df. groupby (['team', 'position']). agg ({'assists': ['mean']}). reset_index ()

#rename columns
new.columns = ['team', 'pos', 'mean_assists']

#view DataFrame
print (new)

	team pos mean_assists
0 A G 5.0
1 B F 6.0
2 B G 7.5
3 M C 7.5
4M F 7.0

示例2：按两列分组并查找多个统计信息

假设我们使用与前面的示例相同的 pandas DataFrame：

 import pandas as pd

#createDataFrame
df = pd.DataFrame({'team': ['A', 'B', 'B', 'B', 'B', 'M', 'M', 'M'],
                   'position': ['G', 'G', 'F', 'G', 'F', 'F', 'C', 'C'],
                   'assists': [5, 7, 7, 8, 5, 7, 6, 9],
                   'rebounds': [11, 8, 10, 6, 6, 9, 6, 10]})

以下代码显示了如何查找按“球队”和“位置”列分组的篮板中位数和最大篮板数：

 df. groupby (['team', 'position']). agg ({'rebounds': ['median', 'max']}). reset_index ()


        team position rebounds
                         median max
0 A G 11 11
1 B F 8 10
2 B G 7 8
3 M C 8 10
4 M F 9 9

输出告诉我们：

A 队 G 位置球员的篮板中位数为11 。
A队G位置球员的篮板上限为11个。
B队F位球员的篮板数中位数为8 。
B队F位球员的篮板上限为10个。

等等。

其他资源

如何根据多个条件过滤 Pandas DataFrame
如何计算 Pandas DataFrame 中的缺失值
 如何堆叠多个 Pandas DataFrame

关于作者

本杰明·安德森博

大家好，我是本杰明，一位退休的统计学教授，后来成为 Statorials 的热心教师。凭借在统计领域的丰富经验和专业知识，我渴望分享我的知识，通过 Statorials 增强学生的能力。了解更多

示例 1：按两列分组并求平均值

示例2：按两列分组并查找多个统计信息

其他资源

关于作者

本杰明·安德森博

添加评论