كيفية إزالة الصفوف المكررة في pandas dataframe


أسهل طريقة لإزالة الصفوف المكررة في Pandas DataFrame هي استخدام الدالة drop_duplicates() ، التي تستخدم بناء الجملة التالي:

df.drop_duplicates(subset=None, keep=’first’, inplace=False)

ذهب:

  • المجموعة الفرعية: ما هي الأعمدة التي يجب مراعاتها لتحديد التكرارات. الافتراضي هو كافة الأعمدة.
  • الاحتفاظ: يحدد التكرارات (إن وجدت) التي يجب الاحتفاظ بها.
    • أولاً: إزالة كافة الأسطر المكررة باستثناء الأول.
    • الأخير: يزيل كافة الأسطر المكررة باستثناء الأسطر الأخيرة.
    • خطأ : إزالة كافة التكرارات.
  • inplace: يشير إلى ما إذا كان سيتم إزالة التكرارات في مكانها أو إرجاع نسخة من DataFrame.

يقدم هذا البرنامج التعليمي عدة أمثلة للاستخدام العملي لهذه الوظيفة على DataFrame التالي:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({'team': ['a', 'b', 'b', 'c', 'c', 'd'],
                   'points': [3, 7, 7, 8, 8, 9],
                   'assists': [8, 6, 7, 9, 9, 3]})

#display DataFrame
print (df)

  team points assists
0 to 3 8
1 b 7 6
2 b 7 7
3 c 8 9
4 c 8 9
5 d 9 3

مثال 1: إزالة التكرارات في كافة الأعمدة

يوضح الكود التالي كيفية إزالة الصفوف ذات القيم المكررة في جميع الأعمدة:

 df. drop_duplicates ()

        team points assists
0 to 3 8
1 b 7 6
2 b 7 7
3 c 8 9
5 d 9 3

بشكل افتراضي، تقوم الدالة drop_duplicates() بإزالة كافة التكرارات باستثناء الأولى.

ومع ذلك، يمكننا استخدام الوسيطة keep=False لإزالة جميع التكرارات تمامًا:

 df. drop_duplicates (keep= False )

	team points assists
0 to 3 8
1 b 7 6
2 b 7 7
5 d 9 3

المثال 2: إزالة التكرارات في أعمدة محددة

يوضح الكود التالي كيفية إزالة الصفوف ذات القيم المكررة فقط في الأعمدة المسماة الفريق والنقاط :

 df. drop_duplicates (subset=[' team ', ' points '])

        team points assists
0 to 3 8
1 b 7 6
3 c 8 9
5 d 9 3

مصادر إضافية

كيفية إزالة الأعمدة المكررة في الباندا
كيفية فرز القيم في Pandas DataFrame
كيفية تصفية Pandas DataFrame بشروط متعددة
كيفية إدراج عمود في Pandas DataFrame

Add a Comment

ایمئیل یایینلانمایاجاق ایسته‎نیله‎ن بوشلوقلار خاللانمیشدیر *