Pandas dataframe に数値列を追加する方法


次の基本構文を使用して、pandas DataFrame に「count」列を追加できます。

 df[' var1_count '] = df. groupby (' var1 ')[' var1 ']. transform (' count ')

この特定の構文は、 var1_countという列を DataFrame に追加します。この列には、 var1という列の値の数が含まれます。

次の例は、この構文を実際に使用する方法を示しています。

例: Pandas に数値列を追加する

さまざまなバスケットボール選手に関する情報を含む次のパンダ データフレームがあるとします。

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'B', 'B', 'B', 'B', 'B'],
                   ' pos ': ['Gu', 'Fo', 'Fo', 'Fo', 'Gu', 'Gu', 'Fo', 'Fo'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28]})

#view DataFrame
print (df)

  team pos points
0 A Gu 18
1 A Fo 22
2 A Fo 19
3 B Fo 14
4 B Gu 14
5 B Gu 11
6 B Fo 20
7 B Fo 28

次のコードを使用して、各チームの数を含むteam_countという列を追加できます。

 #add column that shows total count of each team
df[' team_count '] = df. groupby (' team ')[' team ']. transform (' count ')

#view updated DataFrame
print (df)

  team pos points team_count
0 A Gu 18 3
1 A Fo 22 3
2 A Fo 19 3
3 B Fo 14 5
4 B Gu 14 5
5 B Gu 11 5
6 B Fo 20 5
7 B Fo 28 5

チーム値が A のラインが3 つ、チーム値が B のラインが5つあります。

それで:

  • チームが A に等しい各行の、 team_count列の値は3です。
  • チームが B に等しい各行の、 team_count列の値は5です。

複数の変数をグループ化する「アカウント」列を追加することもできます。

たとえば、次のコードは、 team変数とpos変数をグループ化する「count」列を追加する方法を示しています。

 #add column that shows total count of each team and position
df[' team_pos_count '] = df. groupby ([' team ', ' pos ')[' team ']. transform (' count ')

#view updated DataFrame
print (df)

  team pos points team_pos_count
0 A Gu 18 1
1 A Fo 22 2
2 A Fo 19 2
3 B Fo 14 3
4 B Gu 14 2
5 B Gu 11 2
6 B Fo 20 3
7 B Fo 28 3

結果から次のことがわかります。

  • チーム列に A、役職列に Gu が含まれる行が1 つあります。
  • チーム列に A が含まれ、 pos列に Fo が含まれる行が2つあります。
  • チーム列に B、役職列に Fo を含む行が3つあります。
  • チーム列に B が含まれ、 pos列に Gu が含まれる行が2つあります。

追加リソース

次のチュートリアルでは、パンダで他の一般的なタスクを実行する方法を説明します。

パンダ: GroupBy と値のカウントの使用方法
パンダ: ビン数で GroupBy を使用する方法
Pandas: 条件付きで列の値をカウントする方法

コメントを追加する

メールアドレスが公開されることはありません。 が付いている欄は必須項目です