Pandas dataframe'de kopyalar nasıl bulunur (örneklerle)


Bir pandanın DataFrame’inde yinelenen değerleri bulmak için yinelenen() işlevini kullanabilirsiniz.

Bu işlev aşağıdaki temel sözdizimini kullanır:

 #find duplicate rows across all columns
duplicateRows = df[df. duplicated ()]

#find duplicate rows across specific columns
duplicateRows = df[df. duplicated ([' col1 ',' col2 '])]

Aşağıdaki örnekler, bu işlevin pratikte aşağıdaki pandalar DataFrame ile nasıl kullanılacağını gösterir:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
                   ' points ': [10, 10, 12, 12, 15, 17, 20, 20],
                   ' assists ': [5, 5, 7, 9, 12, 9, 6, 6]})

#view DataFrame
print (df)

  team points assists
0 to 10 5
1 to 10 5
2 to 12 7
3 to 12 9
4 B 15 12
5 B 17 9
6 B 20 6
7 B 20 6

Örnek 1: Tüm sütunlarda yinelenen satırları bulma

Aşağıdaki kod, DataFrame’in tüm sütunlarında yinelenen satırların nasıl bulunacağını gösterir:

 #identify duplicate rows
duplicateRows = df[df. duplicated ()]

#view duplicate rows
duplicateRows

        team points assists
1 to 10 5
7 B 20 6

DataFrame’de diğer satırların tam kopyaları olan iki satır vardır.

Son satır yerine ilk yinelenen satırları görüntülemek için keep=’last’ argümanını kullanabileceğimizi unutmayın:

 #identify duplicate rows
duplicateRows = df[df. duplicated (keep=' last ')]

#view duplicate rows
print (duplicateRows)

	team points assists
0 to 10 5
6 B 20 6

Örnek 2: Belirli sütunlarda yinelenen satırları bulma

Aşağıdaki kod, DataFrame’in yalnızca “ekip” ve “puan” sütunlarında yinelenen satırların nasıl bulunacağını gösterir:

 #identify duplicate rows across 'team' and 'points' columns
duplicateRows = df[df. duplicated ([' team ',' points '])]

#view duplicate rows
print (duplicateRows)

        team points assists
1 to 10 5
3 to 12 9
7 B 20 6

“Takım” ve “puan” sütunlarındaki değerlerin önceki satırların tam kopyaları olduğu üç satır vardır.

Örnek 3: Bir sütunda yinelenen satırları bulma

Aşağıdaki kod, yinelenen satırların yalnızca DataFrame’in “ekip” sütununda nasıl bulunacağını gösterir:

 #identify duplicate rows in 'team' column
duplicateRows = df[df. duplicated ([' team '])]

#view duplicate rows
print (duplicateRows)

	team points assists
1 to 10 5
2 to 12 7
3 to 12 9
5 B 17 9
6 B 20 6
7 B 20 6

“Takım” sütunundaki değerlerin önceki satırların tam kopyaları olduğu toplam altı satır vardır.

Ek kaynaklar

Aşağıdaki eğitimlerde pandalarda diğer yaygın işlemlerin nasıl gerçekleştirileceği açıklanmaktadır:

Pandalar’da yinelenen satırlar nasıl kaldırılır
Pandalar’da yinelenen sütunlar nasıl kaldırılır
Pandalar’da dizine göre sütunlar nasıl seçilir

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir