Pandy: jak usunąć duplikaty z wielu kolumn


Możesz użyć następujących metod, aby usunąć zduplikowane wiersze z wielu kolumn w ramce DataFrame pandy:

Metoda 1: Usuń duplikaty we wszystkich kolumnach

 df. drop_duplicates ()

Metoda 2: Usuń duplikaty w określonych kolumnach

 df. drop_duplicates ([' column1 ',' column3 '])

Poniższe przykłady pokazują, jak w praktyce używać każdej metody z następującą ramką DataFrame pand:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' region ': ['East', 'East', 'East', 'West', 'West', 'West'],
                   ' store ': [1, 1, 2, 1, 2, 2],
                   ' sales ': [5, 5, 7, 9, 12, 8]})

#view DataFrame
print (df)

  region store sales
0 East 1 5
1 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12
5 West 2 8

Przykład 1: Usuń duplikaty we wszystkich kolumnach

Poniższy kod pokazuje, jak usunąć wiersze ze zduplikowanymi wartościami we wszystkich kolumnach:

 #drop rows that have duplicate values across all columns
df. drop_duplicates ()

	region store sales
0 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12
5 West 2 8

Wiersz na pozycji indeksu 1 miał te same wartości we wszystkich kolumnach, co wiersz na pozycji indeksu 0, więc został usunięty z DataFrame.

Domyślnie pandas zachowuje pierwszą linię jako duplikat. Możesz jednak użyć argumentu keep , aby zachować ostatnią zduplikowaną linię:

 #drop rows that have duplicate values across all columns (keep last duplicate)
df. drop_duplicates (keep=' last ')

	region store sales
1 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12
5 West 2 8

Przykład 2: Usuń duplikaty w określonych kolumnach

Możesz użyć poniższego kodu, aby usunąć wiersze ze zduplikowanymi wartościami tylko w regionie i przechowywać kolumny:

 #drop rows that have duplicate values across region and store columns
df. drop_duplicates ([' region ',' store '])

	region store sales
0 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12

W sumie z DataFrame usunięto dwa wiersze, ponieważ zawierały zduplikowane wartości w kolumnach Region i Sklep .

Uwaga : pełną dokumentację funkcji drop_duplicates() można znaleźć tutaj .

Dodatkowe zasoby

Poniższe samouczki wyjaśniają, jak wykonywać inne typowe operacje na pandach:

Jak znaleźć duplikaty w pandach
Jak usunąć zduplikowane kolumny w Pandach
Jak usunąć pierwszy wiersz w Pandas DataFrame

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *