Como remover colunas duplicadas em pandas (com exemplos)


Você pode usar a seguinte sintaxe básica para remover colunas duplicadas em pandas:

 df. T. drop_duplicates (). T

Os exemplos a seguir mostram como usar essa sintaxe na prática.

Exemplo: Remover colunas duplicadas no Pandas

Suponha que temos o seguinte DataFrame do pandas:

 import pandas as pd

#create DataFrame with duplicate columns
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
                   ' points ': [25, 12, 15, 14, 19, 23, 25, 29],
                   ' assists ': [25, 12, 15, 14, 19, 23, 25, 29],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})

df. columns = ['team', 'points', 'points', 'rebounds']

#view DataFrame
df

	team points points rebounds
0 A 25 25 11
1 A 12 12 8
2 A 15 15 10
3 A 14 14 6
4 B 19 19 6
5 B 23 23 5
6 B 25 25 9
7 B 29 29 12

Podemos usar o seguinte código para remover a coluna de “pontos” duplicados:

 #remove duplicate columns
df. T. drop_duplicates (). T

team points rebounds
0 to 25 11
1 to 12 8
2 to 15 10
3 to 14 6
4 B 19 6
5 B 23 5
6 B 25 9
7 B 29 12

Observe que a coluna “pontos” foi removida enquanto todas as outras colunas permaneceram no DataFrame.

Também é importante notar que este código removerá colunas duplicadas mesmo que as colunas tenham nomes diferentes, mas contenham valores idênticos.

Por exemplo, suponha que temos o seguinte DataFrame do pandas:

 import pandas as pd

#create DataFrame with duplicate columns
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
                   ' points ': [25, 12, 15, 14, 19, 23, 25, 29],
                   ' points2 ': [25, 12, 15, 14, 19, 23, 25, 29],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})

#view DataFrame
df

	team points points2 rebounds
0 A 25 25 11
1 A 12 12 8
2 A 15 15 10
3 A 14 14 6
4 B 19 19 6
5 B 23 23 5
6 B 25 25 9
7 B 29 29 12

Observe que as colunas “pontos” e “pontos2” contêm valores idênticos.

Podemos usar o seguinte código para remover a coluna ‘points2’ duplicada:

 #remove duplicate columns
df. T. drop_duplicates (). T

team points rebounds
0 to 25 11
1 to 12 8
2 to 15 10
3 to 14 6
4 B 19 6
5 B 23 5
6 B 25 9
7 B 29 12

Recursos adicionais

Os tutoriais a seguir explicam como executar outras funções comuns em pandas:

Como remover linhas duplicadas em um DataFrame do Pandas
Como deletar colunas no Pandas
Como excluir colunas no Pandas

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *