Come aggiungere una colonna numerica a un dataframe pandas


È possibile utilizzare la seguente sintassi di base per aggiungere una colonna “count” a un DataFrame panda:

 df[' var1_count '] = df. groupby (' var1 ')[' var1 ']. transform (' count ')

Questa particolare sintassi aggiunge una colonna chiamata var1_count al DataFrame che contiene il numero di valori nella colonna chiamata var1 .

L’esempio seguente mostra come utilizzare questa sintassi nella pratica.

Esempio: aggiungi una colonna numerica in Pandas

Supponiamo di avere il seguente DataFrame panda che contiene informazioni su vari giocatori di basket:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'B', 'B', 'B', 'B', 'B'],
                   ' pos ': ['Gu', 'Fo', 'Fo', 'Fo', 'Gu', 'Gu', 'Fo', 'Fo'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28]})

#view DataFrame
print (df)

  team pos points
0 A Gu 18
1 A Fo 22
2 A Fo 19
3 B Fo 14
4 B Gu 14
5 B Gu 11
6 B Fo 20
7 B Fo 28

Possiamo utilizzare il codice seguente per aggiungere una colonna chiamata team_count che contiene il conteggio di ciascuna squadra:

 #add column that shows total count of each team
df[' team_count '] = df. groupby (' team ')[' team ']. transform (' count ')

#view updated DataFrame
print (df)

  team pos points team_count
0 A Gu 18 3
1 A Fo 22 3
2 A Fo 19 3
3 B Fo 14 5
4 B Gu 14 5
5 B Gu 11 5
6 B Fo 20 5
7 B Fo 28 5

Ci sono 3 linee con un valore di squadra A e 5 linee con un valore di squadra B.

COSÌ:

  • Per ogni riga in cui team è uguale ad A, il valore nella colonna team_count è 3 .
  • Per ogni riga in cui team è uguale a B, il valore nella colonna team_count è 5 .

Puoi anche aggiungere una colonna “conto” che raggruppa diverse variabili.

Ad esempio, il codice seguente mostra come aggiungere una colonna “count” che raggruppa le variabili team e pos :

 #add column that shows total count of each team and position
df[' team_pos_count '] = df. groupby ([' team ', ' pos ')[' team ']. transform (' count ')

#view updated DataFrame
print (df)

  team pos points team_pos_count
0 A Gu 18 1
1 A Fo 22 2
2 A Fo 19 2
3 B Fo 14 3
4 B Gu 14 2
5 B Gu 11 2
6 B Fo 20 3
7 B Fo 28 3

Dal risultato possiamo vedere:

  • C’è 1 riga che contiene A nella colonna squadra e Gu nella colonna pos .
  • Ci sono 2 righe che contengono A nella colonna squadra e Fo nella colonna pos .
  • Ci sono 3 righe che contengono B nella colonna squadra e Fo nella colonna pos .
  • Ci sono 2 righe che contengono B nella colonna squadra e Gu nella colonna pos .

Risorse addizionali

I seguenti tutorial spiegano come eseguire altre attività comuni nei panda:

Panda: come utilizzare GroupBy e conteggi dei valori
Panda: come utilizzare GroupBy con il conteggio dei contenitori
Panda: come contare i valori in una colonna con condizione

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *