如何计算 pandas 中的四分位数(举例)


在统计学中,四分位数是将一组数据分为四个相等部分的值。

在分析分布时,我们通常对以下四分位数感兴趣:

  • 第一个四分位数 ( Q1 ):位于第 25 个百分位数的值
  • 第二个四分位数 ( Q2 ):位于第 50 个百分位数的值
  • 第三四分位数 ( Q3 ):位于第 75 个百分位数的值

您可以使用以下方法来计算 pandas DataFrame 中列的四分位数:

方法 1:计算列的四分位数

 df[' some_column ']. quantile ([ 0.25 , 0.5 , 0.75 ])

方法 2:计算每个数字列的四分位数

 df. quantile (q=[ 0.25 , 0.5 , 0.75 ], axis= 0 , numeric_only= True )

以下示例展示了如何在实践中使用以下 pandas DataFrame 的每种方法:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'],
                   ' points ': [12, 14, 14, 16, 24, 26, 28, 30, 31, 35],
                   ' assists ': [2, 2, 3, 3, 4, 6, 7, 8, 10, 15]})

#view DataFrame
print (df)

  team points assists
0 to 12 2
1 B 14 2
2 C 14 3
3 D 16 3
4 E 24 4
5 F 26 6
6 G 28 7
7:30 8
8 I 31 10
9 D 35 15

示例 1:计算列的四分位数

以下代码显示如何仅计算列的四分位数:

 #calculate quartiles for points column
df[' points ']. quantile ([ 0.25 , 0.5 , 0.75 ])

0.25 14.5
0.50 25.0
0.75 29.5
Name: points, dtype: float64

从结果我们可以看出:

  • 第一个四分位数是14.5
  • 第二个四分位数是25
  • 第三个四分位数是29.5

通过了解这三个值,我们就可以很好地了解这些值在列中的分布情况。

示例 2:计算每个数字列的四分位数

以下代码显示了如何计算 DataFrame 中每个数字列的四分位数:

 #calculate quartiles for each numeric column in DataFrame
df. quantile (q=[ 0.25 , 0.5 , 0.75 ], axis= 0 , numeric_only= True )

      assist points
0.25 14.5 3.00
0.50 25.0 5.00
0.75 29.5 7.75

输出显示 DataFrame 的两个数字列的四分位数。

请注意,有多种方法可以计算分布的四分位数。

请参阅 pandas 文档页面,了解 pandas quantile()函数用于计算四分位数的不同方法。

其他资源

以下教程解释了如何在 pandas 中执行其他常见任务:

如何计算熊猫的百分比变化
如何计算 pandas 的累积百分比
如何计算 pandas 中一组内总数的百分比

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注