Jak znaleźć duplikaty w ramce danych pandas (z przykładami)

Przez Benjamin Anderson 21 lipca, 2023 Przewodnik 0 komentarzy

Możesz użyć funkcji duplikowanej() , aby znaleźć zduplikowane wartości w ramce DataFrame pandy.

Ta funkcja wykorzystuje następującą podstawową składnię:

 #find duplicate rows across all columns
duplicateRows = df[df. duplicated ()]

#find duplicate rows across specific columns
duplicateRows = df[df. duplicated ([' col1 ',' col2 '])]

Poniższe przykłady pokazują, jak w praktyce używać tej funkcji z następującą ramką DataFrame pand:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
                   ' points ': [10, 10, 12, 12, 15, 17, 20, 20],
                   ' assists ': [5, 5, 7, 9, 12, 9, 6, 6]})

#view DataFrame
print (df)

  team points assists
0 to 10 5
1 to 10 5
2 to 12 7
3 to 12 9
4 B 15 12
5 B 17 9
6 B 20 6
7 B 20 6

Przykład 1: Znajdź zduplikowane wiersze we wszystkich kolumnach

Poniższy kod pokazuje, jak znaleźć zduplikowane wiersze we wszystkich kolumnach ramki DataFrame:

 #identify duplicate rows
duplicateRows = df[df. duplicated ()]

#view duplicate rows
duplicateRows

        team points assists
1 to 10 5
7 B 20 6

Istnieją dwa wiersze, które są dokładnymi duplikatami innych wierszy w ramce DataFrame.

Zauważ, że możemy również użyć argumentu keep=’last’ , aby wyświetlić pierwsze zduplikowane linie zamiast ostatniej:

 #identify duplicate rows
duplicateRows = df[df. duplicated (keep=' last ')]

#view duplicate rows
print (duplicateRows)

	team points assists
0 to 10 5
6 B 20 6

Przykład 2: Znajdź zduplikowane wiersze w określonych kolumnach

Poniższy kod pokazuje, jak znaleźć zduplikowane wiersze tylko w kolumnach „zespół” i „punkty” ramki DataFrame:

 #identify duplicate rows across 'team' and 'points' columns
duplicateRows = df[df. duplicated ([' team ',' points '])]

#view duplicate rows
print (duplicateRows)

        team points assists
1 to 10 5
3 to 12 9
7 B 20 6

Istnieją trzy wiersze, w których wartości w kolumnach „zespół” i „punkty” są dokładnymi kopiami poprzednich wierszy.

Przykład 3: Znajdź zduplikowane wiersze w kolumnie

Poniższy kod pokazuje, jak znaleźć zduplikowane wiersze tylko w kolumnie „zespół” ramki DataFrame:

 #identify duplicate rows in 'team' column
duplicateRows = df[df. duplicated ([' team '])]

#view duplicate rows
print (duplicateRows)

	team points assists
1 to 10 5
2 to 12 7
3 to 12 9
5 B 17 9
6 B 20 6
7 B 20 6

W sumie jest sześć wierszy, w których wartości w kolumnie „zespół” są dokładnymi duplikatami poprzednich wierszy.

Dodatkowe zasoby

Poniższe samouczki wyjaśniają, jak wykonywać inne typowe operacje na pandach:

Jak usunąć zduplikowane wiersze w Pandach
Jak usunąć zduplikowane kolumny w Pandach
Jak wybierać kolumny według indeksu w Pandach

o autorze

Dr Benjamin Anderson

Cześć, jestem Benjamin i jestem emerytowanym profesorem statystyki, który został oddanym nauczycielem Statorials. Dzięki bogatemu doświadczeniu i wiedzy specjalistycznej w dziedzinie statystyki chętnie dzielę się swoją wiedzą, aby wzmocnić pozycję uczniów za pośrednictwem Statorials. Wiedzieć więcej