Pandas dataframe の概要統計を計算する方法
次のメソッドを使用して、pandas DataFrame 内の変数の要約統計を計算できます。
方法 1: すべての数値変数の要約統計量を計算する
df. describe ()
方法 2: すべての文字列変数の要約統計を計算する
df. describe (include=' object ')
方法 3: 変数ごとにグループ化された要約統計量を計算する
df. groupby (' group_column '). mean () df. groupby (' group_column '). median () df. groupby (' group_column '). max () ...
次の例は、次の pandas DataFrame で各メソッドを実際に使用する方法を示しています。
import pandas as pd import numpy as np #createDataFrame df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B'], ' points ': [18, 22, 19, 14, 14, 11, 20, 28, 30], ' assists ': [5, np.nan, 7, 9, 12, 9, 9, 4, 5], ' rebounds ': [11, 8, 10, 6, 6, 5, 9, np.nan, 6]}) #view DataFrame print (df) team points assists rebounds 0 to 18 5.0 11.0 1 to 22 NaN 8.0 2 A 19 7.0 10.0 3 A 14 9.0 6.0 4 B 14 12.0 6.0 5 B 11 9.0 5.0 6 B 20 9.0 9.0 7 B 28 4.0 NaN 8 B 30 5.0 6.0
例 1: すべての数値変数の要約統計量を計算する
次のコードは、DataFrame 内の各数値変数の概要統計を計算する方法を示しています。
df. describe ()
points assists rebounds
count 9.000000 8.000000 8.000000
mean 19.555556 7.500000 7.625000
std 6.366143 2.725541 2.199838
min 11.000000 4.000000 5.000000
25% 14,000000 5,000000 6,000000
50% 19,000000 8,000000 7,000000
75% 22.000000 9.000000 9.250000
max 30.000000 12.000000 11.000000
3 つの数値変数ごとに、次の概要統計が表示されます。
- count:ゼロ以外の値の数
- Average : 平均値
- std : 標準偏差
- min:最小値
- 25% : 25 パーセンタイルの値
- 50% : 50 パーセンタイルの値 (中央値も)
- 75% : 75 パーセンタイルの値
- max : 最大値
例 2: すべての文字列変数の要約統計を計算する
次のコードは、DataFrame 内の各文字列変数の概要統計を計算する方法を示しています。
df. describe (include=' object ') team count 9 single 2 top B freq 5
DataFrame の文字列変数に関する次の概要統計を確認できます。
- count : ゼロ以外の値の数
- unique : 一意の値の数
- 一番上:最も頻度の高い値
- freq : 最も頻繁に出現する値の数
例 3: 変数ごとにグループ化された要約統計量を計算する
次のコードは、チーム変数ごとにグループ化されたすべての数値変数の平均値を計算する方法を示しています。
df. groupby (' team '). mean () points assists rebounds team A 18.25 7.0 8.75 B 20.60 7.8 6.50
出力には、ポイント、アシスト、リバウンド変数の平均値がチーム変数ごとにグループ化されて表示されます。
同様の構文を使用して、中央値などの別の要約統計量を計算できることに注意してください。
df. groupby (' team '). median () points assists rebounds team A 18.5 7.0 9.0 B 20.0 9.0 6.0
出力には、ポイント変数、アシスト変数、リバウンド変数の中央値がチーム変数ごとにグループ化されて表示されます。
注: ここで、 pandas のdescription関数の完全なドキュメントを見つけることができます。
追加リソース
次のチュートリアルでは、他の一般的なパンダのタスクを実行する方法について説明します。