如何计算 pandas 中的四分位数(举例)
在统计学中,四分位数是将一组数据分为四个相等部分的值。
在分析分布时,我们通常对以下四分位数感兴趣:
- 第一个四分位数 ( Q1 ):位于第 25 个百分位数的值
- 第二个四分位数 ( Q2 ):位于第 50 个百分位数的值
- 第三四分位数 ( Q3 ):位于第 75 个百分位数的值
您可以使用以下方法来计算 pandas DataFrame 中列的四分位数:
方法 1:计算列的四分位数
df[' some_column ']. quantile ([ 0.25 , 0.5 , 0.75 ])
方法 2:计算每个数字列的四分位数
df. quantile (q=[ 0.25 , 0.5 , 0.75 ], axis= 0 , numeric_only= True )
以下示例展示了如何在实践中使用以下 pandas DataFrame 的每种方法:
import pandas as pd
#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'],
' points ': [12, 14, 14, 16, 24, 26, 28, 30, 31, 35],
' assists ': [2, 2, 3, 3, 4, 6, 7, 8, 10, 15]})
#view DataFrame
print (df)
team points assists
0 to 12 2
1 B 14 2
2 C 14 3
3 D 16 3
4 E 24 4
5 F 26 6
6 G 28 7
7:30 8
8 I 31 10
9 D 35 15
示例 1:计算列的四分位数
以下代码显示如何仅计算点列的四分位数:
#calculate quartiles for points column
df[' points ']. quantile ([ 0.25 , 0.5 , 0.75 ])
0.25 14.5
0.50 25.0
0.75 29.5
Name: points, dtype: float64
从结果我们可以看出:
- 第一个四分位数是14.5 。
- 第二个四分位数是25 。
- 第三个四分位数是29.5 。
通过了解这三个值,我们就可以很好地了解这些值在点列中的分布情况。
示例 2:计算每个数字列的四分位数
以下代码显示了如何计算 DataFrame 中每个数字列的四分位数:
#calculate quartiles for each numeric column in DataFrame
df. quantile (q=[ 0.25 , 0.5 , 0.75 ], axis= 0 , numeric_only= True )
assist points
0.25 14.5 3.00
0.50 25.0 5.00
0.75 29.5 7.75
输出显示 DataFrame 的两个数字列的四分位数。
请注意,有多种方法可以计算分布的四分位数。
请参阅 pandas 文档页面,了解 pandas quantile()函数用于计算四分位数的不同方法。
其他资源
以下教程解释了如何在 pandas 中执行其他常见任务: