Dplyr: डेटा को सारांशित कैसे करें लेकिन सभी कॉलम कैसे रखें


dplyr में summarise() फ़ंक्शन का उपयोग करते समय, summarise() या Group_by() फ़ंक्शन में शामिल नहीं किए गए किसी भी वेरिएबल को स्वचालित रूप से हटा दिया जाएगा।

हालाँकि, आप डेटा फ्रेम में सभी कॉलमों को बनाए रखते हुए डेटा को सारांशित करने के लिए mutate() फ़ंक्शन का उपयोग कर सकते हैं।

निम्नलिखित उदाहरण दिखाता है कि व्यवहार में इस फ़ंक्शन का उपयोग कैसे करें।

उदाहरण: डेटा को सारांशित करें लेकिन सभी कॉलमों को dplyr का उपयोग करके रखें

मान लीजिए कि हमारे पास निम्नलिखित डेटा फ़्रेम है जिसमें विभिन्न बास्केटबॉल खिलाड़ियों के बारे में जानकारी है:

 #create data frame
df <- data. frame (team=rep(c(' A ', ' B ', ' C '), each= 3 ),
                 points=c(4, 9, 8, 12, 15, 14, 29, 30, 22),
                 assists=c(3, 3, 2, 5, 8, 10, 4, 5, 12))

#view data frame
df

  team points assists
1 to 4 3
2 to 9 3
3 to 8 2
4 B 12 5
5 B 15 8
6 B 14 10
7 C 29 4
8 C 30 5
9 C 22 12

हम प्रति टीम प्राप्त औसत अंकों को सारांशित करने के लिए निम्नलिखित सिंटैक्स का उपयोग कर सकते हैं:

 library (dplyr)

#summarize mean points values by team
df %>%
  group_by(team) %>%
  summarize(mean_pts = mean(points))

# A tibble: 3 x 2
  team mean_pts
      
1 to 7  
2 B 13.7
3 C 27

Mean_pts नामक कॉलम प्रत्येक टीम द्वारा बनाए गए औसत अंक प्रदर्शित करता है।

परिणाम से हम देख सकते हैं:

  • टीम A के खिलाड़ियों द्वारा अर्जित औसत अंक 7 है।
  • टीम बी के खिलाड़ियों द्वारा अर्जित औसत अंक 13.7 है।
  • टीम C के खिलाड़ियों द्वारा अर्जित औसत अंक 27 है।

हालाँकि, मान लें कि हम अन्य सभी कॉलमों को मूल डेटा फ़्रेम से रखना चाहते हैं।

ऐसा करने के लिए हम mutate() फ़ंक्शन के साथ निम्नलिखित सिंटैक्स का उपयोग कर सकते हैं:

 library (dplyr)

#summarize mean points values by team and keep all columns
df %>%
  group_by(team) %>%
  mutate(mean_pts = mean(points)) %>%
  A group()

# A tibble: 9 x 4
  team points assists mean_pts
           
1 to 4 3 7  
2 to 9 3 7  
3 to 8 2 7  
4 B 12 5 13.7
5 B 15 8 13.7
6 B 14 10 13.7
7 C 29 4 27  
8 C 30 5 27  
9 C 22 12 27

mutate() फ़ंक्शन का उपयोग करके, हम Mean_pts नामक एक नया कॉलम बना सकते हैं जो मूल डेटा फ़्रेम से अन्य सभी कॉलमों को बनाए रखते हुए प्रति टीम द्वारा बनाए गए औसत अंकों का सारांश देता है।

अतिरिक्त संसाधन

निम्नलिखित ट्यूटोरियल बताते हैं कि dplyr में अन्य सामान्य कार्य कैसे करें:

dplyr: यदि कॉलम में एक स्ट्रिंग है तो किसी वेरिएबल को कैसे बदलें
dplyr: mutate() का उपयोग करके कारक स्तर कैसे बदलें
dplyr: एकाधिक कॉलम कैसे जोड़ें

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *