So fügen sie einem pandas dataframe eine zahlenspalte hinzu


Sie können die folgende grundlegende Syntax verwenden, um einem Pandas-DataFrame eine „count“-Spalte hinzuzufügen:

 df[' var1_count '] = df. groupby (' var1 ')[' var1 ']. transform (' count ')

Diese spezielle Syntax fügt dem DataFrame eine Spalte namens var1_count hinzu, die die Anzahl der Werte in der Spalte namens var1 enthält.

Das folgende Beispiel zeigt, wie diese Syntax in der Praxis verwendet wird.

Beispiel: Fügen Sie in Pandas eine Zahlenspalte hinzu

Angenommen, wir haben den folgenden Pandas-DataFrame, der Informationen über verschiedene Basketballspieler enthält:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'B', 'B', 'B', 'B', 'B'],
                   ' pos ': ['Gu', 'Fo', 'Fo', 'Fo', 'Gu', 'Gu', 'Fo', 'Fo'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28]})

#view DataFrame
print (df)

  team pos points
0 A Gu 18
1 A Fo 22
2 A Fo 19
3 B Fo 14
4 B Gu 14
5 B Gu 11
6 B Fo 20
7 B Fo 28

Mit dem folgenden Code können wir eine Spalte namens team_count hinzufügen, die die Anzahl jedes Teams enthält:

 #add column that shows total count of each team
df[' team_count '] = df. groupby (' team ')[' team ']. transform (' count ')

#view updated DataFrame
print (df)

  team pos points team_count
0 A Gu 18 3
1 A Fo 22 3
2 A Fo 19 3
3 B Fo 14 5
4 B Gu 14 5
5 B Gu 11 5
6 B Fo 20 5
7 B Fo 28 5

Es gibt 3 Linien mit einem Teamwert von A und 5 Linien mit einem Teamwert von B.

Also:

  • Für jede Zeile, in der Team gleich A ist, ist der Wert in der Spalte team_count 3 .
  • Für jede Zeile, in der Team gleich B ist, beträgt der Wert in der Spalte team_count 5 .

Sie können auch eine „Konto“-Spalte hinzufügen, die mehrere Variablen gruppiert.

Der folgende Code zeigt beispielsweise, wie eine „Anzahl“-Spalte hinzugefügt wird, die die Team- und Pos- Variablen gruppiert:

 #add column that shows total count of each team and position
df[' team_pos_count '] = df. groupby ([' team ', ' pos ')[' team ']. transform (' count ')

#view updated DataFrame
print (df)

  team pos points team_pos_count
0 A Gu 18 1
1 A Fo 22 2
2 A Fo 19 2
3 B Fo 14 3
4 B Gu 14 2
5 B Gu 11 2
6 B Fo 20 3
7 B Fo 28 3

Aus dem Ergebnis können wir sehen:

  • Es gibt eine Zeile, die A in der Teamspalte und Gu in der Pos- Spalte enthält.
  • Es gibt zwei Zeilen, die A in der Teamspalte und Fo in der Pos- Spalte enthalten.
  • Es gibt 3 Zeilen, die B in der Team- Spalte und Fo in der Pos- Spalte enthalten.
  • Es gibt zwei Zeilen, die B in der Teamspalte und Gu in der Pos- Spalte enthalten.

Zusätzliche Ressourcen

In den folgenden Tutorials wird erläutert, wie Sie andere häufige Aufgaben in Pandas ausführen:

Pandas: So verwenden Sie GroupBy und Wertzählungen
Pandas: So verwenden Sie GroupBy mit Bin-Anzahl
Pandas: So zählen Sie Werte in einer Spalte mit Bedingung

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert