पांडा डेटाफ़्रेम में डुप्लिकेट कैसे खोजें (उदाहरण के साथ)

द्वारा डॉ. बेंजामिन एंडरसन जुलाई 21, 2023 मार्गदर्शक शून्य टिप्पणियां

आप पांडा डेटाफ़्रेम में डुप्लिकेट मान खोजने के लिए डुप्लिकेट() फ़ंक्शन का उपयोग कर सकते हैं।

यह फ़ंक्शन निम्नलिखित मूल सिंटैक्स का उपयोग करता है:

 #find duplicate rows across all columns
duplicateRows = df[df. duplicated ()]

#find duplicate rows across specific columns
duplicateRows = df[df. duplicated ([' col1 ',' col2 '])]

निम्नलिखित उदाहरण दिखाते हैं कि निम्नलिखित पांडा डेटाफ़्रेम के साथ व्यवहार में इस फ़ंक्शन का उपयोग कैसे करें:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
                   ' points ': [10, 10, 12, 12, 15, 17, 20, 20],
                   ' assists ': [5, 5, 7, 9, 12, 9, 6, 6]})

#view DataFrame
print (df)

  team points assists
0 to 10 5
1 to 10 5
2 to 12 7
3 to 12 9
4 B 15 12
5 B 17 9
6 B 20 6
7 B 20 6

उदाहरण 1: सभी स्तंभों में डुप्लिकेट पंक्तियाँ ढूँढ़ें

निम्नलिखित कोड दिखाता है कि डेटाफ़्रेम के सभी कॉलमों में डुप्लिकेट पंक्तियाँ कैसे खोजें:

 #identify duplicate rows
duplicateRows = df[df. duplicated ()]

#view duplicate rows
duplicateRows

        team points assists
1 to 10 5
7 B 20 6

ऐसी दो पंक्तियाँ हैं जो डेटाफ़्रेम में अन्य पंक्तियों की सटीक डुप्लिकेट हैं।

ध्यान दें कि हम अंतिम के बजाय पहली डुप्लिकेट लाइनें प्रदर्शित करने के लिए Keep=’last’ तर्क का भी उपयोग कर सकते हैं:

 #identify duplicate rows
duplicateRows = df[df. duplicated (keep=' last ')]

#view duplicate rows
print (duplicateRows)

	team points assists
0 to 10 5
6 B 20 6

उदाहरण 2: विशिष्ट स्तंभों में डुप्लिकेट पंक्तियाँ ढूँढ़ें

निम्नलिखित कोड दिखाता है कि डेटाफ़्रेम के केवल “टीम” और “पॉइंट” कॉलम में डुप्लिकेट पंक्तियाँ कैसे खोजें:

 #identify duplicate rows across 'team' and 'points' columns
duplicateRows = df[df. duplicated ([' team ',' points '])]

#view duplicate rows
print (duplicateRows)

        team points assists
1 to 10 5
3 to 12 9
7 B 20 6

ऐसी तीन पंक्तियाँ हैं जहाँ “टीम” और “अंक” कॉलम में मान पिछली पंक्तियों की सटीक प्रतिलिपियाँ हैं।

उदाहरण 3: किसी कॉलम में डुप्लिकेट पंक्तियाँ ढूँढ़ें

निम्नलिखित कोड दिखाता है कि डेटाफ़्रेम के केवल “टीम” कॉलम में डुप्लिकेट पंक्तियाँ कैसे खोजें:

 #identify duplicate rows in 'team' column
duplicateRows = df[df. duplicated ([' team '])]

#view duplicate rows
print (duplicateRows)

	team points assists
1 to 10 5
2 to 12 7
3 to 12 9
5 B 17 9
6 B 20 6
7 B 20 6

कुल छह पंक्तियाँ हैं जहाँ “टीम” कॉलम में मान पिछली पंक्तियों के सटीक डुप्लिकेट हैं।

अतिरिक्त संसाधन

निम्नलिखित ट्यूटोरियल बताते हैं कि पांडा में अन्य सामान्य ऑपरेशन कैसे करें:

पांडा में डुप्लिकेट पंक्तियाँ कैसे हटाएँ
पंडों में डुप्लिकेट कॉलम कैसे हटाएं
पंडों में इंडेक्स द्वारा कॉलम का चयन कैसे करें

लेखक के बारे में

डॉ. बेंजामिन एंडरसन

नमस्ते, मैं बेंजामिन हूं, एक सेवानिवृत्त सांख्यिकी प्रोफेसर जो अब समर्पित Statorials शिक्षक बन गया है। सांख्यिकी के क्षेत्र में व्यापक अनुभव और विशेषज्ञता के साथ, मैं Statorials के माध्यम से छात्रों को सशक्त बनाने के लिए अपना ज्ञान साझा करने के लिए उत्सुक हूं। अधिक जाने