Pandas: como remover duplicatas em múltiplas colunas


Você pode usar os seguintes métodos para remover linhas duplicadas em várias colunas em um DataFrame do pandas:

Método 1: remover duplicatas em todas as colunas

 df. drop_duplicates ()

Método 2: remover duplicatas em colunas específicas

 df. drop_duplicates ([' column1 ',' column3 '])

Os exemplos a seguir mostram como usar cada método na prática com o seguinte DataFrame do pandas:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' region ': ['East', 'East', 'East', 'West', 'West', 'West'],
                   ' store ': [1, 1, 2, 1, 2, 2],
                   ' sales ': [5, 5, 7, 9, 12, 8]})

#view DataFrame
print (df)

  region store sales
0 East 1 5
1 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12
5 West 2 8

Exemplo 1: Remover duplicatas em todas as colunas

O código a seguir mostra como remover linhas com valores duplicados em todas as colunas:

 #drop rows that have duplicate values across all columns
df. drop_duplicates ()

	region store sales
0 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12
5 West 2 8

A linha na posição 1 do índice tinha os mesmos valores em todas as colunas que a linha na posição 0 do índice, por isso foi removida do DataFrame.

Por padrão, o pandas mantém a primeira linha como duplicada. No entanto, você pode usar o argumento keep para especificar a manutenção da última linha duplicada:

 #drop rows that have duplicate values across all columns (keep last duplicate)
df. drop_duplicates (keep=' last ')

	region store sales
1 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12
5 West 2 8

Exemplo 2: Remover duplicatas em colunas específicas

Você pode usar o código a seguir para remover linhas com valores duplicados apenas na região e armazenar colunas:

 #drop rows that have duplicate values across region and store columns
df. drop_duplicates ([' region ',' store '])

	region store sales
0 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12

No total, duas linhas foram removidas do DataFrame porque continham valores duplicados nas colunas Região e Loja .

Nota : Você pode encontrar a documentação completa para a função drop_duplicates() aqui .

Recursos adicionais

Os tutoriais a seguir explicam como realizar outras operações comuns em pandas:

Como encontrar duplicatas em pandas
Como remover colunas duplicadas no Pandas
Como remover a primeira linha no Pandas DataFrame

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *