كيفية إزالة الصفوف المكررة في pandas dataframe
أسهل طريقة لإزالة الصفوف المكررة في Pandas DataFrame هي استخدام الدالة drop_duplicates() ، التي تستخدم بناء الجملة التالي:
df.drop_duplicates(subset=None, keep=’first’, inplace=False)
ذهب:
- المجموعة الفرعية: ما هي الأعمدة التي يجب مراعاتها لتحديد التكرارات. الافتراضي هو كافة الأعمدة.
- الاحتفاظ: يحدد التكرارات (إن وجدت) التي يجب الاحتفاظ بها.
- أولاً: إزالة كافة الأسطر المكررة باستثناء الأول.
- الأخير: يزيل كافة الأسطر المكررة باستثناء الأسطر الأخيرة.
- خطأ : إزالة كافة التكرارات.
- inplace: يشير إلى ما إذا كان سيتم إزالة التكرارات في مكانها أو إرجاع نسخة من DataFrame.
يقدم هذا البرنامج التعليمي عدة أمثلة للاستخدام العملي لهذه الوظيفة على DataFrame التالي:
import pandas as pd #createDataFrame df = pd. DataFrame ({'team': ['a', 'b', 'b', 'c', 'c', 'd'], 'points': [3, 7, 7, 8, 8, 9], 'assists': [8, 6, 7, 9, 9, 3]}) #display DataFrame print (df) team points assists 0 to 3 8 1 b 7 6 2 b 7 7 3 c 8 9 4 c 8 9 5 d 9 3
مثال 1: إزالة التكرارات في كافة الأعمدة
يوضح الكود التالي كيفية إزالة الصفوف ذات القيم المكررة في جميع الأعمدة:
df. drop_duplicates ()
team points assists
0 to 3 8
1 b 7 6
2 b 7 7
3 c 8 9
5 d 9 3
بشكل افتراضي، تقوم الدالة drop_duplicates() بإزالة كافة التكرارات باستثناء الأولى.
ومع ذلك، يمكننا استخدام الوسيطة keep=False لإزالة جميع التكرارات تمامًا:
df. drop_duplicates (keep= False ) team points assists 0 to 3 8 1 b 7 6 2 b 7 7 5 d 9 3
المثال 2: إزالة التكرارات في أعمدة محددة
يوضح الكود التالي كيفية إزالة الصفوف ذات القيم المكررة فقط في الأعمدة المسماة الفريق والنقاط :
df. drop_duplicates (subset=[' team ', ' points ']) team points assists 0 to 3 8 1 b 7 6 3 c 8 9 5 d 9 3
مصادر إضافية
كيفية إزالة الأعمدة المكررة في الباندا
كيفية فرز القيم في Pandas DataFrame
كيفية تصفية Pandas DataFrame بشروط متعددة
كيفية إدراج عمود في Pandas DataFrame