パンダで四分位数を計算する方法 (例あり)
統計において、四分位とは、一連のデータを 4 つの等しい部分に分割する値です。
分布を分析するときは、通常、次の四分位に関心があります。
- 最初の四分位数 ( Q1 ): 25 パーセンタイルに位置する値
- 第 2 四分位 ( Q2 ): 50 パーセンタイルに位置する値
- 第 3 四分位 ( Q3 ): 75 パーセンタイルに位置する値
次のメソッドを使用して、pandas DataFrame の列の四分位を計算できます。
方法 1: 列の四分位数を計算する
df[' some_column ']. quantile ([ 0.25 , 0.5 , 0.75 ])
方法 2: 各数値列の四分位数を計算する
df. quantile (q=[ 0.25 , 0.5 , 0.75 ], axis= 0 , numeric_only= True )
次の例は、次の pandas DataFrame で各メソッドを実際に使用する方法を示しています。
import pandas as pd
#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'],
' points ': [12, 14, 14, 16, 24, 26, 28, 30, 31, 35],
' assists ': [2, 2, 3, 3, 4, 6, 7, 8, 10, 15]})
#view DataFrame
print (df)
team points assists
0 to 12 2
1 B 14 2
2 C 14 3
3 D 16 3
4 E 24 4
5 F 26 6
6 G 28 7
7:30 8
8 I 31 10
9 D 35 15
例 1: 列の四分位数を計算する
次のコードは、ポイント列のみの四分位数を計算する方法を示しています。
#calculate quartiles for points column
df[' points ']. quantile ([ 0.25 , 0.5 , 0.75 ])
0.25 14.5
0.50 25.0
0.75 29.5
Name: points, dtype: float64
結果から次のことがわかります。
- 最初の四分位は14.5です。
- 第 2 四分位は25です。
- 3 番目の四分位は29.5です。
これら 3 つの値を知るだけで、ポイント列内で値がどのように分布しているかがよくわかります。
例 2: 各数値列の四分位数を計算する
次のコードは、DataFrame の各数値列の四分位を計算する方法を示しています。
#calculate quartiles for each numeric column in DataFrame
df. quantile (q=[ 0.25 , 0.5 , 0.75 ], axis= 0 , numeric_only= True )
assist points
0.25 14.5 3.00
0.50 25.0 5.00
0.75 29.5 7.75
出力には、DataFrame の 2 つの数値列の四分位が表示されます。
分布の四分位を計算するにはいくつかの方法があることに注意してください。
pandas quantile()関数が四分位数の計算に使用するさまざまなメソッドを確認するには、pandas のドキュメント ページを参照してください。
追加リソース
次のチュートリアルでは、パンダで他の一般的なタスクを実行する方法を説明します。
パンダで変化率を計算する方法
パンダで累積パーセンテージを計算する方法
パンダのグループ内の合計のパーセンテージを計算する方法