Dplyr का उपयोग करके समूह द्वारा चरों को कैसे क्रमबद्ध करें


आप dplyr में वेरिएबल्स को समूहित करने के लिए निम्नलिखित मूल सिंटैक्स का उपयोग कर सकते हैं:

 df %>% arrange (group_var, numeric_var) %>%
    group_by (group_var) %>% 
    mutate (rank = rank(numeric_var))

निम्नलिखित उदाहरण दिखाते हैं कि निम्नलिखित डेटा फ़्रेम के साथ व्यवहार में इस सिंटैक्स का उपयोग कैसे करें:

 #create data frame
df <- data. frame (team = c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'C', 'C', 'C'),
                 points = c(12, 28, 19, 22, 32, 45, 22, 28, 13, 19),
                 rebounds = c(5, 7, 7, 12, 11, 4, 10, 7, 8, 8))

#view data frame
df

   team points rebounds
1 to 12 5
2 to 28 7
3 to 19 7
4 A 22 12
5 B 32 11
6 B 45 4
7 B 22 10
8 C 28 7
9 C 13 8
10 C 19 8

उदाहरण 1: आरोही क्रम में रैंकिंग

निम्नलिखित कोड दिखाता है कि खिलाड़ियों द्वारा बनाए गए अंकों को टीम के आधार पर आरोही क्रम में कैसे क्रमबद्ध किया जाए:

 library (dplyr)

#rank points scored, grouped by team
df %>% arrange (team, points) %>%
    group_by (team) %>% 
    mutate (rank = rank(points))

# A tibble: 10 x 4
# Groups: team [3]
   team points rebounds rank
          
 1 A 12 5 1
 2 A 19 7 2
 3 A 22 12 3
 4 A 28 7 4
 5 B 22 10 1
 6 B 32 11 2
 7 B 45 4 3
 8 C 13 8 1
 9 C 19 8 2
10 C 28 7 3

उदाहरण 2: अवरोही क्रम में रैंकिंग

हम रैंक() फ़ंक्शन के भीतर एक नकारात्मक चिह्न का उपयोग करके, समूह द्वारा अवरोही क्रम में प्राप्त अंकों को वर्गीकृत भी कर सकते हैं:

 library (dplyr)

#rank points scored in reverse, grouped by team
df %>% arrange (team, points) %>%
    group_by (team) %>% 
    mutate (rank = rank(-points))

# A tibble: 10 x 4
# Groups: team [3]
   team points rebounds rank
          
 1 to 12 5 4
 2 A 19 7 3
 3 A 22 12 2
 4 A 28 7 1
 5 B 22 10 3
 6 B 32 11 2
 7 B 45 4 1
 8 C 13 8 3
 9 C 19 8 2
10 C 28 7 1

रैंकिंग में संबंधों को कैसे संभालें

हम यह निर्दिष्ट करने के लिए टाई.मेथड तर्क का उपयोग कर सकते हैं कि संख्यात्मक मानों को ऑर्डर करते समय हमें संबंधों को कैसे संभालना चाहिए।

 rank(points, ties. method = ' average ')

लिंक को संभालने का तरीका निर्दिष्ट करने के लिए आप निम्न विकल्पों में से किसी एक का उपयोग कर सकते हैं:

  • औसत : (डिफ़ॉल्ट) प्रत्येक लिंक किए गए आइटम को औसत रैंक देता है (तीसरे और चौथे स्थान पर मौजूद आइटम दोनों को 3.5 की रैंक प्राप्त होगी)
  • प्रथम : पहले लिंक किए गए तत्व को निम्नतम रैंक पर निर्दिष्ट करता है (तीसरे और चौथे स्थान पर मौजूद तत्वों को क्रमशः रैंक 3 और 4 प्राप्त होगा)
  • न्यूनतम : प्रत्येक लिंक किए गए आइटम को निम्नतम रैंक पर असाइन करता है (तीसरे और चौथे स्थान पर मौजूद आइटम दोनों को 3 की रैंक प्राप्त होगी)
  • अधिकतम : प्रत्येक लिंक किए गए आइटम को उच्चतम रैंक प्रदान करता है (तीसरे और चौथे स्थान वाले आइटम दोनों को 4 की रैंक प्राप्त होगी)
  • यादृच्छिक : प्रत्येक बंधे हुए तत्व को एक यादृच्छिक रैंक प्रदान करता है (तीसरे और चौथे स्थान के लिए बंधे तत्वों में से कोई भी रैंक प्राप्त कर सकता है)

अतिरिक्त संसाधन

निम्नलिखित ट्यूटोरियल बताते हैं कि dplyr में अन्य सामान्य कार्य कैसे करें:

dplyr का उपयोग करके समूह द्वारा पहली पंक्ति का चयन कैसे करें
Dplyr का उपयोग करके सापेक्ष आवृत्तियों की गणना कैसे करें
Dplyr का उपयोग करके मानों को कैसे रिकोड करें
dplyr में NA को शून्य से कैसे बदलें

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *