Jak liczyć duplikaty w pandach: z przykładami

Przez Benjamin Anderson 18 lipca, 2023 Przewodnik 0 komentarzy

Do zliczania duplikatów w ramce DataFrame pand można użyć następujących metod:

Metoda 1: Policz zduplikowane wartości w kolumnie

 len (df[' my_column ']) - len (df[' my_column ']. drop_duplicates ())

Metoda 2: Policz zduplikowane wiersze

 len (df) -len ( df.drop_duplicates ())

Metoda 3: Policz duplikaty dla każdego unikalnego wiersza

 df. groupby ( df.columns.tolist (), as_index= False ) . size ()

Poniższe przykłady pokazują, jak w praktyce używać każdej metody z następującą ramką DataFrame pand:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
                   ' position ': ['G', 'G', 'G', 'F', 'G', 'G', 'F', 'F'],
                   ' points ': [5, 5, 8, 10, 5, 7, 10, 10]})

#view DataFrame
print (df)

  team position points
0 AG 5
1 GA 5
2 AG 8
3 AF 10
4 BG 5
5 BG 7
6 BF 10
7 BF 10

Przykład 1: Zlicz zduplikowane wartości w kolumnie

Poniższy kod pokazuje, jak policzyć liczbę zduplikowanych wartości w kolumnie punktów :

 #count duplicate values in points column
len (df[' points '])- len (df[' points ']. drop_duplicates ())

4

Widzimy, że w kolumnie punktów znajdują się 4 zduplikowane wartości.

Przykład 2: Policz zduplikowane wiersze

Poniższy kod pokazuje, jak policzyć liczbę zduplikowanych wierszy w ramce DataFrame:

 #count number of duplicate rows
len (df) -len ( df.drop_duplicates ())

2

Widzimy, że w ramce danych znajdują się 2 zduplikowane wiersze.

Możemy użyć następującej składni, aby wyświetlić te 2 zduplikowane linie:

 #display duplicated rows
df[df. duplicated ()]

        team position points
1 A G 5
7 B F 10

Przykład 3: Policz duplikaty dla każdego unikalnego wiersza

Poniższy kod pokazuje, jak policzyć liczbę duplikatów dla każdego unikalnego wiersza w ramce DataFrame:

 #display number of duplicates for each unique row
df. groupby ( df.columns.tolist (), as_index= False ) . size ()

        team position points size
0 A F 10 1
1 A G 5 2
2 A G 8 1
3 B F 10 2
4 B G 5 1
5 B G 7 1

Kolumna Rozmiar wyświetla liczbę duplikatów dla każdego unikalnego wiersza.

Dodatkowe zasoby

Poniższe samouczki wyjaśniają, jak wykonywać inne typowe operacje na pandach:

Jak usunąć zduplikowane wiersze w Pandach
Jak usunąć zduplikowane kolumny w Pandach
Jak wybierać kolumny według indeksu w Pandach

o autorze

Dr Benjamin Anderson

Cześć, jestem Benjamin i jestem emerytowanym profesorem statystyki, który został oddanym nauczycielem Statorials. Dzięki bogatemu doświadczeniu i wiedzy specjalistycznej w dziedzinie statystyki chętnie dzielę się swoją wiedzą, aby wzmocnić pozycję uczniów za pośrednictwem Statorials. Wiedzieć więcej