Panda's: groeperen op index en een berekening uitvoeren


U kunt de volgende methoden gebruiken om te groeperen op een of meer indexkolommen in panda’s en berekeningen uit te voeren:

Methode 1: Groeperen op een indexkolom

 df. groupby (' index1 ')[' numeric_column ']. max ()

Methode 2: Groeperen op meerdere indexkolommen

 df. groupby ([' index1 ',' index2 '])[' numeric_column ']. sum ()

Methode 3: Groeperen op indexkolom en reguliere kolom

 df. groupby ([' index1 ',' numeric_column1 '])[' numeric_column2 ']. nunique ()

De volgende voorbeelden laten zien hoe u elke methode kunt gebruiken met de volgende panda’s DataFrame die een MultiIndex heeft:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B'],
                   ' position ': ['G', 'G', 'G', 'F', 'F', 'G', 'G', 'F', 'F', 'F'],
                   ' points ': [7, 7, 7, 19, 16, 9, 10, 10, 8, 8],
                   ' rebounds ': [8, 8, 8, 10, 11, 12, 13, 13, 15, 11]})

#set 'team' column to be index column
df. set_index ([' team ', ' position '], inplace= True )

#view DataFrame
df

		 rebound points
team position		
A G 7 8
        G 7 8
        G 7 8
        F 19 10
        F 16 11
B G 9 12
        G 10 13
        F 10 13
        F 8 15
        F 8 11

Methode 1: Groeperen op een indexkolom

De volgende code laat zien hoe u de maximale waarde van de kolom ‚punten‘ kunt vinden, gegroepeerd op de indexkolom ‚positie‘:

 #find max value of 'points' grouped by 'position index column
df. groupby (' position ')[' points ']. max ()

position
F 19
G 10
Name: points, dtype: int64

Methode 2: Groeperen op meerdere indexkolommen

De volgende code laat zien hoe u de som van de kolom ‚punten‘ kunt vinden, gegroepeerd op de indexkolommen ‚team‘ en ‚positie‘:

 #find max value of 'points' grouped by 'position index column
df. groupby ([' team ', ' position '])[' points ']. sum ()

team position
AF35
      G21
BF 26
      G 19
Name: points, dtype: int64

Methode 3: Groeperen op indexkolom en reguliere kolom

De volgende code laat zien hoe u het aantal unieke waarden in de kolom „rebounds“ kunt vinden, gegroepeerd op de indexkolom „team“ en de reguliere kolom „punten“:

 #find max value of 'points' grouped by 'position index column
df. groupby ([' team ', ' points '])[' rebounds ']. nunique ()

team points
At 7 1
      16 1
      19 1
B 8 2
      9 1
      10 1
Name: rebounds, dtype: int64

Aanvullende bronnen

In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende bewerkingen in panda’s kunt uitvoeren:

Hoe unieke waarden in panda’s te tellen
Hoe MultiIndex in Panda’s plat te maken
Hoe u een of meer indexwaarden in Pandas kunt wijzigen
Hoe een index in Pandas te resetten

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert