Pandas: como remover duplicatas em múltiplas colunas
Você pode usar os seguintes métodos para remover linhas duplicadas em várias colunas em um DataFrame do pandas:
Método 1: remover duplicatas em todas as colunas
df. drop_duplicates ()
Método 2: remover duplicatas em colunas específicas
df. drop_duplicates ([' column1 ',' column3 '])
Os exemplos a seguir mostram como usar cada método na prática com o seguinte DataFrame do pandas:
import pandas as pd #createDataFrame df = pd. DataFrame ({' region ': ['East', 'East', 'East', 'West', 'West', 'West'], ' store ': [1, 1, 2, 1, 2, 2], ' sales ': [5, 5, 7, 9, 12, 8]}) #view DataFrame print (df) region store sales 0 East 1 5 1 East 1 5 2 East 2 7 3 West 1 9 4 West 2 12 5 West 2 8
Exemplo 1: Remover duplicatas em todas as colunas
O código a seguir mostra como remover linhas com valores duplicados em todas as colunas:
#drop rows that have duplicate values across all columns
df. drop_duplicates ()
region store sales
0 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12
5 West 2 8
A linha na posição 1 do índice tinha os mesmos valores em todas as colunas que a linha na posição 0 do índice, por isso foi removida do DataFrame.
Por padrão, o pandas mantém a primeira linha como duplicada. No entanto, você pode usar o argumento keep para especificar a manutenção da última linha duplicada:
#drop rows that have duplicate values across all columns (keep last duplicate)
df. drop_duplicates (keep=' last ')
region store sales
1 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12
5 West 2 8
Exemplo 2: Remover duplicatas em colunas específicas
Você pode usar o código a seguir para remover linhas com valores duplicados apenas na região e armazenar colunas:
#drop rows that have duplicate values across region and store columns
df. drop_duplicates ([' region ',' store '])
region store sales
0 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12
No total, duas linhas foram removidas do DataFrame porque continham valores duplicados nas colunas Região e Loja .
Nota : Você pode encontrar a documentação completa para a função drop_duplicates() aqui .
Recursos adicionais
Os tutoriais a seguir explicam como realizar outras operações comuns em pandas:
Como encontrar duplicatas em pandas
Como remover colunas duplicadas no Pandas
Como remover a primeira linha no Pandas DataFrame