Як порахувати дублікати в пандах: з прикладами
Ви можете використовувати такі методи для підрахунку дублікатів у pandas DataFrame:
Спосіб 1: Підрахуйте повторювані значення в стовпці
len (df[' my_column ']) - len (df[' my_column ']. drop_duplicates ())
Спосіб 2: підрахунок повторюваних рядків
len (df) -len ( df.drop_duplicates ())
Спосіб 3: підрахунок дублікатів для кожного унікального рядка
df. groupby ( df.columns.tolist (), as_index= False ) . size ()
Наступні приклади показують, як використовувати кожен метод на практиці з такими pandas DataFrame:
import pandas as pd #createDataFrame df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'], ' position ': ['G', 'G', 'G', 'F', 'G', 'G', 'F', 'F'], ' points ': [5, 5, 8, 10, 5, 7, 10, 10]}) #view DataFrame print (df) team position points 0 AG 5 1 GA 5 2 AG 8 3 AF 10 4 BG 5 5 BG 7 6 BF 10 7 BF 10
Приклад 1: підрахунок повторюваних значень у стовпці
Наступний код показує, як підрахувати кількість повторюваних значень у стовпці балів :
#count duplicate values in points column
len (df[' points '])- len (df[' points ']. drop_duplicates ())
4
Ми бачимо, що в стовпці балів є 4 повторюваних значення.
Приклад 2: підрахунок повторюваних рядків
Наступний код показує, як підрахувати кількість повторюваних рядків у DataFrame:
#count number of duplicate rows
len (df) -len ( df.drop_duplicates ())
2
Ми бачимо, що в DataFrame є 2 повторювані рядки.
Ми можемо використати такий синтаксис, щоб відобразити ці 2 повторювані рядки:
#display duplicated rows
df[df. duplicated ()]
team position points
1 A G 5
7 B F 10
Приклад 3: підрахунок дублікатів для кожного унікального рядка
Наступний код показує, як підрахувати кількість дублікатів для кожного унікального рядка в DataFrame:
#display number of duplicates for each unique row
df. groupby ( df.columns.tolist (), as_index= False ) . size ()
team position points size
0 A F 10 1
1 A G 5 2
2 A G 8 1
3 B F 10 2
4 B G 5 1
5 B G 7 1
У стовпці «Розмір» відображається кількість дублікатів для кожного унікального рядка.
Додаткові ресурси
У наступних посібниках пояснюється, як виконувати інші типові операції в pandas:
Як видалити повторювані рядки в Pandas
Як видалити дублікати стовпців у Pandas
Як вибрати стовпці за індексом у Pandas