Pandas：创建基于多列的频率表

经过本杰明·安德森博 7月 14, 2023 指导 0 条评论

您可以使用以下基本语法在 pandas 中创建基于多列的频率表：

 df. value_counts ([' column1 ',' column2 '])

以下示例展示了如何在实践中使用此语法。

示例：在 Pandas 中创建基于多列的频率表

假设我们有以下 pandas DataFrame，其中包含有关球队名称、位置和各个篮球运动员得分的信息：

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
                   ' position ': ['G', 'G', 'G', 'F', 'G', 'G', 'F', 'F'],
                   ' points ': [24, 33, 20, 15, 16, 16, 29, 25]})

#view DataFrame
print (df)

  team position points
0 AG 24
1 AG 33
2 AG 20
3 AF15
4 BG 16
5 BG 16
6 BF 29
7 BF 25

我们可以使用value_counts()函数创建一个频率表，显示团队和位置列中每个值组合的出现次数：

 #count frequency of values in team and position columns
df. value_counts ([' team ',' position '])

team position
GA 3
BF 2
      G2
AF1
dtype: int64

从结果我们可以看出：

A队和G位置出现了3次
B队和F位置出现了2次
B队和G位置出现了2次
A队和F位置出现1次

请注意，我们可以使用reset_index()来返回DataFrame：

 #count frequency of values in team and position columns and return DataFrame
df. value_counts ([' team ',' position ']). reset_index ()

        team position 0
0 A G 3
1 B F 2
2 B G 2
3 A F 1

我们可以使用rename()函数重命名包含计数的列：

 #get frequency of values in team and position column and rename count column
df. value_counts ([' team ',' position ']). reset_index (). rename (columns={0:' count '})

        team position count
0 A G 3
1 B F 2
2 B G 2
3 A F 1

最终结果是一个 DataFrame，其中包含Team和Position列中每个唯一值组合的频率。

其他资源

以下教程解释了如何在 pandas 中执行其他常见任务：

Pandas：如何使用 GroupBy 和值计数
 Pandas：如何使用 GroupBy 和 bin 计数
 Pandas：如何计算有条件的列中的值

关于作者

本杰明·安德森博

大家好，我是本杰明，一位退休的统计学教授，后来成为 Statorials 的热心教师。凭借在统计领域的丰富经验和专业知识，我渴望分享我的知识，通过 Statorials 增强学生的能力。了解更多

示例：在 Pandas 中创建基于多列的频率表

其他资源

关于作者

本杰明·安德森博

添加评论