Dplyr का उपयोग करके एकाधिक कॉलमों का सारांश कैसे करें


आप dplyr का उपयोग करके डेटा फ़्रेम में एकाधिक कॉलम को सारांशित करने के लिए निम्न विधियों का उपयोग कर सकते हैं:

विधि 1: सभी स्तंभों का सारांश बनाएँ

 #summarize mean of all columns
df %>%
  group_by(group_var) %>%
  summarise(across(everything(), mean, na. rm = TRUE ))

विधि 2: विशिष्ट स्तंभों का सारांश बनाएँ

 #summarize mean of col1 and col2 only
df %>%
  group_by(group_var) %>%
  summarise(across(c(col1, col2), mean, na. rm = TRUE ))

विधि 3: सभी संख्यात्मक स्तंभों का सारांश बनाएँ

 #summarize mean and standard deviation of all numeric columns
df %>%
  group_by(group_var) %>%
  summarise(across(where(is. numeric ), list(mean=mean, sd=sd), na. rm = TRUE ))

निम्नलिखित उदाहरण दिखाते हैं कि निम्नलिखित डेटा फ़्रेम के साथ प्रत्येक विधि का उपयोग कैसे करें:

 #create data frame
df <- data. frame (team=c('A', 'A', 'A', 'B', 'B', 'B'),
                 points=c(99, 90, 86, 88, 95, 90),
                 assists=c(33, 28, 31, 39, 34, 25),
                 rebounds=c(NA, 28, 24, 24, 28, 19))

#view data frame
df

  team points assists rebounds
1 A 99 33 NA
2 A 90 28 28
3 A 86 31 24
4 B 88 39 24
5 B 95 34 28
6 B 90 25 19

उदाहरण 1: सभी स्तंभों का सारांश प्रस्तुत करें

निम्नलिखित कोड दिखाता है कि सभी स्तंभों के औसत का सारांश कैसे दिया जाए:

 library (dplyr)

#summarize mean of all columns, grouped by team
df %>%
  group_by(team) %>%
  summarise(across(everything(), mean, na. rm = TRUE ))

# A tibble: 2 x 4
  team points assists rebounds
           
1 A 91.7 30.7 26  
2 B 91 32.7 23.7

उदाहरण 2: विशिष्ट स्तंभों का सारांश प्रस्तुत करें

निम्नलिखित कोड दिखाता है कि केवल अंक और रिबाउंड कॉलम के औसत को कैसे सारांशित किया जाए:

 library (dplyr)

#summarize mean of points and rebounds, grouped by team
df %>%
  group_by(team) %>%
  summarise(across(c(points, rebounds), mean, na. rm = TRUE ))

# A tibble: 2 x 3
  team points rebounds
        
1 A 91.7 26  
2 B 91 23.7

उदाहरण 3: सभी संख्यात्मक स्तंभों का सारांश प्रस्तुत करें

निम्नलिखित कोड दिखाता है कि डेटा फ़्रेम में सभी संख्यात्मक स्तंभों के माध्य और मानक विचलन को कैसे सारांशित किया जाए:

 library (dplyr)

#summarize mean and standard deviation of all numeric columns
df %>%
  group_by(team) %>%
  summarise(across(where(is. numeric ), list(mean=mean, sd=sd), na. rm = TRUE ))

# A tibble: 2 x 7
  team points_mean points_sd assists_mean assists_sd rebounds_mean rebounds_sd
                                            
1 A 91.7 6.66 30.7 2.52 26 2.83
2 B 91 3.61 32.7 7.09 23.7 4.51

आउटपुट डेटा फ़्रेम में सभी संख्यात्मक चर का माध्य और मानक विचलन प्रदर्शित करता है।

ध्यान दें कि इस उदाहरण में हमने कई सारांश आँकड़ों को सूचीबद्ध करने के लिए सूची() फ़ंक्शन का उपयोग किया था जिनकी हम गणना करना चाहते थे।

नोट : प्रत्येक उदाहरण में, हमने dplyrcross() फ़ंक्शन का उपयोग किया। आप इस फ़ंक्शन के लिए संपूर्ण दस्तावेज़ यहां पा सकते हैं।

अतिरिक्त संसाधन

निम्नलिखित ट्यूटोरियल बताते हैं कि dplyr का उपयोग करके अन्य सामान्य कार्य कैसे करें:

Dplyr का उपयोग करके पंक्तियों को कैसे हटाएं
Dplyr का उपयोग करके पंक्तियों को कैसे व्यवस्थित करें
Dplyr का उपयोग करके अनेक स्थितियों के आधार पर फ़िल्टर कैसे करें

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *