पांडा डेटाफ़्रेम में डुप्लिकेट कैसे खोजें (उदाहरण के साथ)
आप पांडा डेटाफ़्रेम में डुप्लिकेट मान खोजने के लिए डुप्लिकेट() फ़ंक्शन का उपयोग कर सकते हैं।
यह फ़ंक्शन निम्नलिखित मूल सिंटैक्स का उपयोग करता है:
#find duplicate rows across all columns duplicateRows = df[df. duplicated ()] #find duplicate rows across specific columns duplicateRows = df[df. duplicated ([' col1 ',' col2 '])]
निम्नलिखित उदाहरण दिखाते हैं कि निम्नलिखित पांडा डेटाफ़्रेम के साथ व्यवहार में इस फ़ंक्शन का उपयोग कैसे करें:
import pandas as pd #createDataFrame df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'], ' points ': [10, 10, 12, 12, 15, 17, 20, 20], ' assists ': [5, 5, 7, 9, 12, 9, 6, 6]}) #view DataFrame print (df) team points assists 0 to 10 5 1 to 10 5 2 to 12 7 3 to 12 9 4 B 15 12 5 B 17 9 6 B 20 6 7 B 20 6
उदाहरण 1: सभी स्तंभों में डुप्लिकेट पंक्तियाँ ढूँढ़ें
निम्नलिखित कोड दिखाता है कि डेटाफ़्रेम के सभी कॉलमों में डुप्लिकेट पंक्तियाँ कैसे खोजें:
#identify duplicate rows
duplicateRows = df[df. duplicated ()]
#view duplicate rows
duplicateRows
team points assists
1 to 10 5
7 B 20 6
ऐसी दो पंक्तियाँ हैं जो डेटाफ़्रेम में अन्य पंक्तियों की सटीक डुप्लिकेट हैं।
ध्यान दें कि हम अंतिम के बजाय पहली डुप्लिकेट लाइनें प्रदर्शित करने के लिए Keep=’last’ तर्क का भी उपयोग कर सकते हैं:
#identify duplicate rows
duplicateRows = df[df. duplicated (keep=' last ')]
#view duplicate rows
print (duplicateRows)
team points assists
0 to 10 5
6 B 20 6
उदाहरण 2: विशिष्ट स्तंभों में डुप्लिकेट पंक्तियाँ ढूँढ़ें
निम्नलिखित कोड दिखाता है कि डेटाफ़्रेम के केवल “टीम” और “पॉइंट” कॉलम में डुप्लिकेट पंक्तियाँ कैसे खोजें:
#identify duplicate rows across 'team' and 'points' columns
duplicateRows = df[df. duplicated ([' team ',' points '])]
#view duplicate rows
print (duplicateRows)
team points assists
1 to 10 5
3 to 12 9
7 B 20 6
ऐसी तीन पंक्तियाँ हैं जहाँ “टीम” और “अंक” कॉलम में मान पिछली पंक्तियों की सटीक प्रतिलिपियाँ हैं।
उदाहरण 3: किसी कॉलम में डुप्लिकेट पंक्तियाँ ढूँढ़ें
निम्नलिखित कोड दिखाता है कि डेटाफ़्रेम के केवल “टीम” कॉलम में डुप्लिकेट पंक्तियाँ कैसे खोजें:
#identify duplicate rows in 'team' column
duplicateRows = df[df. duplicated ([' team '])]
#view duplicate rows
print (duplicateRows)
team points assists
1 to 10 5
2 to 12 7
3 to 12 9
5 B 17 9
6 B 20 6
7 B 20 6
कुल छह पंक्तियाँ हैं जहाँ “टीम” कॉलम में मान पिछली पंक्तियों के सटीक डुप्लिकेट हैं।
अतिरिक्त संसाधन
निम्नलिखित ट्यूटोरियल बताते हैं कि पांडा में अन्य सामान्य ऑपरेशन कैसे करें:
पांडा में डुप्लिकेट पंक्तियाँ कैसे हटाएँ
पंडों में डुप्लिकेट कॉलम कैसे हटाएं
पंडों में इंडेक्स द्वारा कॉलम का चयन कैसे करें