Como remover linhas duplicadas em um dataframe do pandas


A maneira mais fácil de remover linhas duplicadas em um DataFrame do pandas é usar a função drop_duplicates() , que usa a seguinte sintaxe:

df.drop_duplicates(subset=Nenhum, keep=’primeiro’, inplace=Falso)

Ouro:

  • subconjunto: quais colunas levar em consideração para identificar duplicatas. O padrão são todas as colunas.
  • keep: especifica quais duplicatas (se houver) manter.
    • primeiro: Remova todas as linhas duplicadas, exceto a primeira.
    • last: remove todas as linhas duplicadas, exceto a última.
    • Falso : Remova todas as duplicatas.
  • inplace: Indica se deseja remover duplicatas no local ou retornar uma cópia do DataFrame.

Este tutorial fornece vários exemplos de uso prático desta função no seguinte DataFrame:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({'team': ['a', 'b', 'b', 'c', 'c', 'd'],
                   'points': [3, 7, 7, 8, 8, 9],
                   'assists': [8, 6, 7, 9, 9, 3]})

#display DataFrame
print (df)

  team points assists
0 to 3 8
1 b 7 6
2 b 7 7
3 c 8 9
4 c 8 9
5 d 9 3

Exemplo 1: Remova duplicatas em todas as colunas

O código a seguir mostra como remover linhas com valores duplicados em todas as colunas:

 df. drop_duplicates ()

        team points assists
0 to 3 8
1 b 7 6
2 b 7 7
3 c 8 9
5 d 9 3

Por padrão, a função drop_duplicates() remove todas as duplicatas, exceto a primeira.

No entanto, poderíamos usar o argumento keep=False para remover totalmente todas as duplicatas:

 df. drop_duplicates (keep= False )

	team points assists
0 to 3 8
1 b 7 6
2 b 7 7
5 d 9 3

Exemplo 2: Remover duplicatas em colunas específicas

O código a seguir mostra como remover linhas com valores duplicados apenas nas colunas denominadas team e points :

 df. drop_duplicates (subset=[' team ', ' points '])

        team points assists
0 to 3 8
1 b 7 6
3 c 8 9
5 d 9 3

Recursos adicionais

Como remover colunas duplicadas no Pandas
Como classificar valores em um DataFrame do Pandas
Como filtrar um DataFrame do Pandas em múltiplas condições
Como inserir uma coluna em um DataFrame do Pandas

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *