如何计算 pandas 中五个数字的总和


五位数汇总是一种使用以下五个值汇总一组数据的方法:

  • 最低限度
  • 第一个四分位数
  • 中位数
  • 第三个四分位数
  • 最大值

五数汇总很有用,因为它提供了数据分布的简明汇总,如下所示:

  • 它使用中位数告诉我们 中值在哪里。
  • 它使用第一和第三四分位数告诉我们数据的分布。
  • 它使用最小值和最大值告诉我们数据的范围。

计算 pandas DataFrame 中变量的五数摘要的最简单方法是使用describe()函数,如下所示:

 df. describe (). loc [[' min ', '25 % ', '50 % ', '75% ', ' max ']]

以下示例展示了如何在实践中使用此语法。

示例:计算 Pandas DataFrame 中五个数字的汇总

假设我们有以下 pandas DataFrame,其中包含有关各种篮球运动员的信息:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})

#view DataFrame
print (df)

  team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7:28 4 12

我们可以使用以下语法来计算 DataFrame 中每个数值变量的五数摘要:

 #calculate five number summary for each numeric variable
df. describe (). loc [[' min ', '25 % ', '50 % ', '75% ', ' max ']]

      points assists rebounds
min 11.0 4.0 5.00
25% 14.0 6.5 6.00
50% 18.5 8.0 8.50
75% 20.5 9.0 10.25
max 28.0 12.0 12.00

以下是如何解释point变量的结果:

  • 最小值为11
  • 第 25 个百分位数的值为14
  • 第 50 个百分位数值为18.5
  • 第 75 个百分位数值为20.5
  • 最大值为28

我们可以用同样的方式解释helprelief变量的值。

如果只想计算DataFrame中特定变量的五数汇总,可以使用以下语法:

 #calculate five number summary for the points variable
df[' points ']. describe (). loc [[' min ', '25 % ', '50 % ', '75% ', ' max ']]

min 11.0
25% 14.0
50% 18.5
75% 20.5
max 28.0
Name: points, dtype: float64

输出现在仅显示变量的五位摘要。

其他资源

以下教程解释了如何执行其他常见的 panda 任务:

Pandas:如何获取列中值的频率计数
Pandas:如何计算每组的平均值
Pandas:如何按组计算中位数

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注