如何计算 pandas 中五个数字的总和
五位数汇总是一种使用以下五个值汇总一组数据的方法:
- 最低限度
- 第一个四分位数
- 中位数
- 第三个四分位数
- 最大值
五数汇总很有用,因为它提供了数据分布的简明汇总,如下所示:
- 它使用中位数告诉我们 中值在哪里。
- 它使用第一和第三四分位数告诉我们数据的分布。
- 它使用最小值和最大值告诉我们数据的范围。
计算 pandas DataFrame 中变量的五数摘要的最简单方法是使用describe()函数,如下所示:
df. describe (). loc [[' min ', '25 % ', '50 % ', '75% ', ' max ']]
以下示例展示了如何在实践中使用此语法。
示例:计算 Pandas DataFrame 中五个数字的汇总
假设我们有以下 pandas DataFrame,其中包含有关各种篮球运动员的信息:
import pandas as pd
#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
' points ': [18, 22, 19, 14, 14, 11, 20, 28],
' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})
#view DataFrame
print (df)
team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7:28 4 12
我们可以使用以下语法来计算 DataFrame 中每个数值变量的五数摘要:
#calculate five number summary for each numeric variable df. describe (). loc [[' min ', '25 % ', '50 % ', '75% ', ' max ']] points assists rebounds min 11.0 4.0 5.00 25% 14.0 6.5 6.00 50% 18.5 8.0 8.50 75% 20.5 9.0 10.25 max 28.0 12.0 12.00
以下是如何解释point变量的结果:
- 最小值为11 。
- 第 25 个百分位数的值为14 。
- 第 50 个百分位数值为18.5 。
- 第 75 个百分位数值为20.5 。
- 最大值为28 。
我们可以用同样的方式解释help和relief变量的值。
如果只想计算DataFrame中特定变量的五数汇总,可以使用以下语法:
#calculate five number summary for the points variable df[' points ']. describe (). loc [[' min ', '25 % ', '50 % ', '75% ', ' max ']] min 11.0 25% 14.0 50% 18.5 75% 20.5 max 28.0 Name: points, dtype: float64
输出现在仅显示点变量的五位摘要。
其他资源
以下教程解释了如何执行其他常见的 panda 任务: