Pandas dataframe'de kopyalar nasıl bulunur (örneklerle)

İle Dr.benjamin anderson Temmuz 21, 2023 Rehber 0 Yorum

Bir pandanın DataFrame’inde yinelenen değerleri bulmak için yinelenen() işlevini kullanabilirsiniz.

Bu işlev aşağıdaki temel sözdizimini kullanır:

 #find duplicate rows across all columns
duplicateRows = df[df. duplicated ()]

#find duplicate rows across specific columns
duplicateRows = df[df. duplicated ([' col1 ',' col2 '])]

Aşağıdaki örnekler, bu işlevin pratikte aşağıdaki pandalar DataFrame ile nasıl kullanılacağını gösterir:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
                   ' points ': [10, 10, 12, 12, 15, 17, 20, 20],
                   ' assists ': [5, 5, 7, 9, 12, 9, 6, 6]})

#view DataFrame
print (df)

  team points assists
0 to 10 5
1 to 10 5
2 to 12 7
3 to 12 9
4 B 15 12
5 B 17 9
6 B 20 6
7 B 20 6

Örnek 1: Tüm sütunlarda yinelenen satırları bulma

Aşağıdaki kod, DataFrame’in tüm sütunlarında yinelenen satırların nasıl bulunacağını gösterir:

 #identify duplicate rows
duplicateRows = df[df. duplicated ()]

#view duplicate rows
duplicateRows

        team points assists
1 to 10 5
7 B 20 6

DataFrame’de diğer satırların tam kopyaları olan iki satır vardır.

Son satır yerine ilk yinelenen satırları görüntülemek için keep=’last’ argümanını kullanabileceğimizi unutmayın:

 #identify duplicate rows
duplicateRows = df[df. duplicated (keep=' last ')]

#view duplicate rows
print (duplicateRows)

	team points assists
0 to 10 5
6 B 20 6

Örnek 2: Belirli sütunlarda yinelenen satırları bulma

Aşağıdaki kod, DataFrame’in yalnızca “ekip” ve “puan” sütunlarında yinelenen satırların nasıl bulunacağını gösterir:

 #identify duplicate rows across 'team' and 'points' columns
duplicateRows = df[df. duplicated ([' team ',' points '])]

#view duplicate rows
print (duplicateRows)

        team points assists
1 to 10 5
3 to 12 9
7 B 20 6

“Takım” ve “puan” sütunlarındaki değerlerin önceki satırların tam kopyaları olduğu üç satır vardır.

Örnek 3: Bir sütunda yinelenen satırları bulma

Aşağıdaki kod, yinelenen satırların yalnızca DataFrame’in “ekip” sütununda nasıl bulunacağını gösterir:

 #identify duplicate rows in 'team' column
duplicateRows = df[df. duplicated ([' team '])]

#view duplicate rows
print (duplicateRows)

	team points assists
1 to 10 5
2 to 12 7
3 to 12 9
5 B 17 9
6 B 20 6
7 B 20 6

“Takım” sütunundaki değerlerin önceki satırların tam kopyaları olduğu toplam altı satır vardır.

Ek kaynaklar

Aşağıdaki eğitimlerde pandalarda diğer yaygın işlemlerin nasıl gerçekleştirileceği açıklanmaktadır:

Pandalar’da yinelenen satırlar nasıl kaldırılır
Pandalar’da yinelenen sütunlar nasıl kaldırılır
Pandalar’da dizine göre sütunlar nasıl seçilir

yazar hakkında

Dr.benjamin anderson

Merhaba, ben Benjamin, emekli bir istatistik profesörü ve Statorials öğretmenine dönüştüm. İstatistik alanındaki kapsamlı deneyimim ve uzmanlığımla, öğrencilerimi Statorials aracılığıyla güçlendirmek için bilgilerimi paylaşmaya can atıyorum. Daha fazlasını bil