Pandalarda kopyalar nasıl sayılır: örneklerle
Pandas DataFrame’deki kopyaları saymak için aşağıdaki yöntemleri kullanabilirsiniz:
Yöntem 1: Bir sütundaki yinelenen değerleri sayın
len (df[' my_column ']) - len (df[' my_column ']. drop_duplicates ())
Yöntem 2: Yinelenen satırları sayma
len (df) -len ( df.drop_duplicates ())
Yöntem 3: Her benzersiz satır için kopyaları sayın
df. groupby ( df.columns.tolist (), as_index= False ) . size ()
Aşağıdaki örnekler, her yöntemin pratikte aşağıdaki pandalar DataFrame ile nasıl kullanılacağını gösterir:
import pandas as pd #createDataFrame df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'], ' position ': ['G', 'G', 'G', 'F', 'G', 'G', 'F', 'F'], ' points ': [5, 5, 8, 10, 5, 7, 10, 10]}) #view DataFrame print (df) team position points 0 AG 5 1 GA 5 2 AG 8 3 AF 10 4 BG 5 5 BG 7 6 BF 10 7 BF 10
Örnek 1: Bir sütundaki yinelenen değerleri sayma
Aşağıdaki kod, puan sütunundaki yinelenen değerlerin sayısının nasıl sayılacağını gösterir:
#count duplicate values in points column
len (df[' points '])- len (df[' points ']. drop_duplicates ())
4
Puan sütununda 4 adet yinelenen değerin olduğunu görebiliriz.
Örnek 2: Yinelenen satırları sayma
Aşağıdaki kod, DataFrame’deki yinelenen satırların sayısının nasıl sayılacağını gösterir:
#count number of duplicate rows
len (df) -len ( df.drop_duplicates ())
2
DataFrame’de 2 kopya satır olduğunu görebiliriz.
Bu 2 yinelenen satırı görüntülemek için aşağıdaki sözdizimini kullanabiliriz:
#display duplicated rows
df[df. duplicated ()]
team position points
1 A G 5
7 B F 10
Örnek 3: Her benzersiz satır için kopyaları sayın
Aşağıdaki kod, DataFrame’deki her benzersiz satır için kopya sayısının nasıl sayılacağını gösterir:
#display number of duplicates for each unique row
df. groupby ( df.columns.tolist (), as_index= False ) . size ()
team position points size
0 A F 10 1
1 A G 5 2
2 A G 8 1
3 B F 10 2
4 B G 5 1
5 B G 7 1
Boyut sütunu, her benzersiz satır için kopya sayısını görüntüler.
Ek kaynaklar
Aşağıdaki eğitimlerde pandalarda diğer yaygın işlemlerin nasıl gerçekleştirileceği açıklanmaktadır:
Pandalar’da yinelenen satırlar nasıl kaldırılır
Pandalar’da yinelenen sütunlar nasıl kaldırılır
Pandalar’da dizine göre sütunlar nasıl seçilir