Pandas dataframe の概要統計を計算する方法

によるベンジャミン・アンダーソン博士 7月 20, 2023 ガイド 0コメント

次のメソッドを使用して、pandas DataFrame 内の変数の要約統計を計算できます。

方法 1: すべての数値変数の要約統計量を計算する

 df. describe ()

方法 2: すべての文字列変数の要約統計を計算する

 df. describe (include=' object ')

方法 3: 変数ごとにグループ化された要約統計量を計算する

 df. groupby (' group_column '). mean ()

df. groupby (' group_column '). median ()

df. groupby (' group_column '). max ()

...

次の例は、次の pandas DataFrame で各メソッドを実際に使用する方法を示しています。

 import pandas as pd
import numpy as np

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28, 30],
                   ' assists ': [5, np.nan, 7, 9, 12, 9, 9, 4, 5],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, np.nan, 6]})

#view DataFrame
print (df)

  team points assists rebounds
0 to 18 5.0 11.0
1 to 22 NaN 8.0
2 A 19 7.0 10.0
3 A 14 9.0 6.0
4 B 14 12.0 6.0
5 B 11 9.0 5.0
6 B 20 9.0 9.0
7 B 28 4.0 NaN
8 B 30 5.0 6.0

例 1: すべての数値変数の要約統計量を計算する

次のコードは、DataFrame 内の各数値変数の概要統計を計算する方法を示しています。

 df. describe ()

	   points assists rebounds
count 9.000000 8.000000 8.000000
mean 19.555556 7.500000 7.625000
std 6.366143 2.725541 2.199838
min 11.000000 4.000000 5.000000
25% 14,000000 5,000000 6,000000
50% 19,000000 8,000000 7,000000
75% 22.000000 9.000000 9.250000
max 30.000000 12.000000 11.000000

3 つの数値変数ごとに、次の概要統計が表示されます。

count:ゼロ以外の値の数
Average : 平均値
std : 標準偏差
min:最小値
25% : 25 パーセンタイルの値
50% : 50 パーセンタイルの値 (中央値も)
75% : 75 パーセンタイルの値
max : 最大値

例 2: すべての文字列変数の要約統計を計算する

次のコードは、DataFrame 内の各文字列変数の概要統計を計算する方法を示しています。

 df. describe (include=' object ')

	team
count 9
single 2
top B
freq 5

DataFrame の文字列変数に関する次の概要統計を確認できます。

count : ゼロ以外の値の数
unique : 一意の値の数
一番上:最も頻度の高い値
freq : 最も頻繁に出現する値の数

例 3: 変数ごとにグループ化された要約統計量を計算する

次のコードは、チーム変数ごとにグループ化されたすべての数値変数の平均値を計算する方法を示しています。

 df. groupby (' team '). mean ()

	points assists rebounds
team			
A 18.25 7.0 8.75
B 20.60 7.8 6.50

出力には、ポイント、アシスト、リバウンド変数の平均値がチーム変数ごとにグループ化されて表示されます。

同様の構文を使用して、中央値などの別の要約統計量を計算できることに注意してください。

 df. groupby (' team '). median ()

	points assists rebounds
team			
A 18.5 7.0 9.0
B 20.0 9.0 6.0

出力には、ポイント変数、アシスト変数、リバウンド変数の中央値がチーム変数ごとにグループ化されて表示されます。

注: ここで、 pandas のdescription関数の完全なドキュメントを見つけることができます。

追加リソース

次のチュートリアルでは、他の一般的なパンダのタスクを実行する方法について説明します。

パンダの集団目撃数を数える方法
 Pandas でグループごとの最大値を見つける方法
 パンダの外れ値を特定する方法

著者について

ベンジャミン・アンダーソン博士

私はベンジャミンです。退職した統計教授から、専任の Statorials 教育者になりました。統計分野における豊富な経験と専門知識を活かして、私は Statorials を通じて学生に力を与えるために自分の知識を共有することに尽力しています。もっと知る