Como selecionar linhas únicas em um dataframe do pandas


Você pode usar a seguinte sintaxe para selecionar linhas únicas em um DataFrame do pandas:

 df = df. drop_duplicates ()

E você pode usar a seguinte sintaxe para selecionar linhas únicas em colunas específicas em um DataFrame do pandas:

 df = df. drop_duplicates (subset=[' col1 ', ' col2 ', ...])

Os exemplos a seguir mostram como usar essa sintaxe na prática com o seguinte DataFrame do pandas:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' a ':[4,4,3,8],
                   ' b ': [2, 2, 6, 8],
                   ' c ': [2, 2, 9, 9]})

#view DataFrame
df

	a b c
0 4 2 2
1 4 2 2
2 3 6 9
3 8 8 9

Exemplo 1: Selecione linhas exclusivas em todas as colunas

O código a seguir mostra como selecionar linhas exclusivas em todas as colunas do DataFrame do pandas:

 #drop duplicates from DataFrame
df = df. drop_duplicates ()

#view DataFrame
df

	a b c
0 4 2 2
2 3 6 9
3 8 8 9

A primeira e a segunda linhas eram duplicadas, então os pandas descartaram a segunda linha.

Por padrão, a função drop_duplicates() manterá a primeira duplicata. No entanto, você pode especificar para manter a última duplicata:

 #drop duplicates from DataFrame, keep last duplicate
df = df. drop_duplicates (keep=' last ')

#view DataFrame
df

	a b c
1 4 2 2
2 3 6 9
3 8 8 9

Exemplo 2: Selecione linhas exclusivas em colunas específicas

O código a seguir mostra como selecionar linhas únicas na coluna “c” única do DataFrame:

 #drop duplicates from column 'c' in DataFrame
df = df. drop_duplicates (subset=[' c '])

#view DataFrame
df
	a b c
0 4 2 2
2 3 6 9

Duas linhas foram removidas do DataFrame.

Recursos adicionais

Como selecionar linhas por índice em um DataFrame do Pandas
Como obter números de linha em um DataFrame do Pandas
Como encontrar valores únicos em uma coluna no Pandas

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *