Dplyr का उपयोग करके डुप्लिकेट तत्वों को कैसे खोजें


आप dplyr का उपयोग करके डेटा फ़्रेम में डुप्लिकेट तत्वों को खोजने के लिए निम्नलिखित विधियों का उपयोग कर सकते हैं:

विधि 1: सभी डुप्लिकेट पंक्तियाँ दिखाएँ

 library (dplyr)

#display all duplicate rows
df %>%
  group_by_all() %>%
  filter(n()> 1 ) %>%
  A group()

विधि 2: सभी डुप्लिकेट पंक्तियों के लिए डुप्लिकेट की संख्या दिखाएँ

 library (dplyr)

#display duplicate count for all duplicated rows
df %>%
  add_count(col1, col2, col3) %>%
  filter(n> 1 ) %>%
  distinct()

यह ट्यूटोरियल बताता है कि निम्नलिखित डेटा फ्रेम के साथ अभ्यास में प्रत्येक विधि का उपयोग कैसे करें:

 #create data frame
df <- data. frame (team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'),
                 position=c('G', 'G', 'F', 'F', 'G', 'G', 'F', 'F'),
                 points=c(10, 10, 8, 14, 15, 15, 17, 17))

#view data frame
df

  team position points
1 AG 10
2 AG 10
3AF 8
4 AF 14
5 BG 15
6 BG 15
7 BF 17
8 BF 17

उदाहरण 1: सभी डुप्लिकेट पंक्तियाँ दिखाएँ

निम्नलिखित कोड दिखाता है कि डेटा फ़्रेम में सभी डुप्लिकेट पंक्तियों को कैसे प्रदर्शित किया जाए:

 library (dplyr)

#display all duplicate rows in data frame
df %>%
  group_by_all() %>%
  filter(n()> 1 ) %>%
  A group()

# A tibble: 6 x 3
  team position points
        
1 AG 10
2 AG 10
3 BG 15
4 BG 15
5 BF 17
6 BF 17

परिणाम एक डेटा फ़्रेम है जिसमें 6 पंक्तियाँ हैं, जिनमें से प्रत्येक एक डुप्लिकेट पंक्ति है।

ध्यान दें : यदि आप केवल यह जानना चाहते हैं कि किन पंक्तियों में विशिष्ट कॉलम में डुप्लिकेट मान हैं, तो आप केवल टीम कॉलम में डुप्लिकेट मान वाली पंक्तियों को खोजने के लिए इसके बजाय ग्रुप_बी (टीम) जैसी किसी चीज़ का उपयोग कर सकते हैं।

उदाहरण 2: सभी डुप्लिकेट पंक्तियों के लिए डुप्लिकेट की संख्या दिखाएं

निम्नलिखित कोड दिखाता है कि डेटा फ़्रेम में सभी डुप्लिकेट पंक्तियों के लिए डुप्लिकेट गिनती कैसे प्रदर्शित करें:

 library (dplyr)

#display duplicate count for each row
df %>%
  add_count(team, position, points) %>%
  filter(n> 1 ) %>%
  distinct()

  team position points n
1 GA 10 2
2 BG 15 2
3 BF 17 2

कॉलम n प्रत्येक पंक्ति के लिए डुप्लिकेट की कुल संख्या प्रदर्शित करता है।

उदाहरण के लिए:

  • ए, जी और 10 मान वाली रेखा डेटा ब्लॉक में 2 बार दिखाई देती है।
  • डेटा ब्लॉक में बी, जी और 15 मान वाली रेखा 2 बार दिखाई देती है।
  • बी, एफ और 17 मान वाली रेखा डेटा ब्लॉक में 2 बार दिखाई देती है।

ध्यान दें : यदि आप केवल यह जानना चाहते हैं कि किन पंक्तियों में विशिष्ट कॉलम में डुप्लिकेट मान हैं, तो add_count() फ़ंक्शन में केवल उन विशिष्ट कॉलमों को शामिल करें।

अतिरिक्त संसाधन

निम्नलिखित ट्यूटोरियल बताते हैं कि आर में अन्य सामान्य कार्य कैसे करें:

Dplyr का उपयोग करके अद्वितीय मानों को कैसे फ़िल्टर करें
Dplyr का उपयोग करके अनेक स्थितियों के आधार पर फ़िल्टर कैसे करें
आर में कॉलम में घटनाओं की संख्या की गणना कैसे करें

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *