Como adicionar uma coluna numérica a um dataframe do pandas


Você pode usar a seguinte sintaxe básica para adicionar uma coluna “count” a um DataFrame do pandas:

 df[' var1_count '] = df. groupby (' var1 ')[' var1 ']. transform (' count ')

Esta sintaxe específica adiciona uma coluna chamada var1_count ao DataFrame que contém o número de valores na coluna chamada var1 .

O exemplo a seguir mostra como usar essa sintaxe na prática.

Exemplo: Adicione uma coluna numérica no Pandas

Suponha que temos o seguinte DataFrame do pandas que contém informações sobre vários jogadores de basquete:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'B', 'B', 'B', 'B', 'B'],
                   ' pos ': ['Gu', 'Fo', 'Fo', 'Fo', 'Gu', 'Gu', 'Fo', 'Fo'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28]})

#view DataFrame
print (df)

  team pos points
0 A Gu 18
1 A Fo 22
2 A Fo 19
3 B Fo 14
4 B Gu 14
5 B Gu 11
6 B Fo 20
7 B Fo 28

Podemos usar o código a seguir para adicionar uma coluna chamada team_count que contém a contagem de cada equipe:

 #add column that shows total count of each team
df[' team_count '] = df. groupby (' team ')[' team ']. transform (' count ')

#view updated DataFrame
print (df)

  team pos points team_count
0 A Gu 18 3
1 A Fo 22 3
2 A Fo 19 3
3 B Fo 14 5
4 B Gu 14 5
5 B Gu 11 5
6 B Fo 20 5
7 B Fo 28 5

Existem 3 linhas com valor de equipe A e 5 linhas com valor de equipe B.

Então:

  • Para cada linha em que team é igual a A, o valor na coluna team_count é 3 .
  • Para cada linha em que team é igual a B, o valor na coluna team_count é 5 .

Você também pode adicionar uma coluna “conta” que agrupa diversas variáveis.

Por exemplo, o código a seguir mostra como adicionar uma coluna “count” que agrupa as variáveis team e pos :

 #add column that shows total count of each team and position
df[' team_pos_count '] = df. groupby ([' team ', ' pos ')[' team ']. transform (' count ')

#view updated DataFrame
print (df)

  team pos points team_pos_count
0 A Gu 18 1
1 A Fo 22 2
2 A Fo 19 2
3 B Fo 14 3
4 B Gu 14 2
5 B Gu 11 2
6 B Fo 20 3
7 B Fo 28 3

Pelo resultado podemos ver:

  • 1 linha que contém A na coluna equipe e Gu na coluna pos .
  • Existem 2 linhas que contêm A na coluna equipe e Fo na coluna pos .
  • Existem 3 linhas que contêm B na coluna equipe e Fo na coluna pos .
  • Existem 2 linhas que contêm B na coluna equipe e Gu na coluna pos .

Recursos adicionais

Os tutoriais a seguir explicam como realizar outras tarefas comuns em pandas:

Pandas: como usar GroupBy e contagens de valores
Pandas: como usar GroupBy com contagem de bin
Pandas: Como contar valores em uma coluna com condição

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *