Como selecionar linhas únicas em um dataframe do pandas
Você pode usar a seguinte sintaxe para selecionar linhas únicas em um DataFrame do pandas:
df = df. drop_duplicates ()
E você pode usar a seguinte sintaxe para selecionar linhas únicas em colunas específicas em um DataFrame do pandas:
df = df. drop_duplicates (subset=[' col1 ', ' col2 ', ...])
Os exemplos a seguir mostram como usar essa sintaxe na prática com o seguinte DataFrame do pandas:
import pandas as pd #createDataFrame df = pd. DataFrame ({' a ':[4,4,3,8], ' b ': [2, 2, 6, 8], ' c ': [2, 2, 9, 9]}) #view DataFrame df a b c 0 4 2 2 1 4 2 2 2 3 6 9 3 8 8 9
Exemplo 1: Selecione linhas exclusivas em todas as colunas
O código a seguir mostra como selecionar linhas exclusivas em todas as colunas do DataFrame do pandas:
#drop duplicates from DataFrame df = df. drop_duplicates () #view DataFrame df a b c 0 4 2 2 2 3 6 9 3 8 8 9
A primeira e a segunda linhas eram duplicadas, então os pandas descartaram a segunda linha.
Por padrão, a função drop_duplicates() manterá a primeira duplicata. No entanto, você pode especificar para manter a última duplicata:
#drop duplicates from DataFrame, keep last duplicate df = df. drop_duplicates (keep=' last ') #view DataFrame df a b c 1 4 2 2 2 3 6 9 3 8 8 9
Exemplo 2: Selecione linhas exclusivas em colunas específicas
O código a seguir mostra como selecionar linhas únicas na coluna “c” única do DataFrame:
#drop duplicates from column 'c' in DataFrame df = df. drop_duplicates (subset=[' c ']) #view DataFrame df a b c 0 4 2 2 2 3 6 9
Duas linhas foram removidas do DataFrame.
Recursos adicionais
Como selecionar linhas por índice em um DataFrame do Pandas
Como obter números de linha em um DataFrame do Pandas
Como encontrar valores únicos em uma coluna no Pandas