Dplyr का उपयोग करके एकाधिक कॉलमों का सारांश कैसे करें
आप dplyr का उपयोग करके डेटा फ़्रेम में एकाधिक कॉलम को सारांशित करने के लिए निम्न विधियों का उपयोग कर सकते हैं:
विधि 1: सभी स्तंभों का सारांश बनाएँ
#summarize mean of all columns df %>% group_by(group_var) %>% summarise(across(everything(), mean, na. rm = TRUE ))
विधि 2: विशिष्ट स्तंभों का सारांश बनाएँ
#summarize mean of col1 and col2 only df %>% group_by(group_var) %>% summarise(across(c(col1, col2), mean, na. rm = TRUE ))
विधि 3: सभी संख्यात्मक स्तंभों का सारांश बनाएँ
#summarize mean and standard deviation of all numeric columns df %>% group_by(group_var) %>% summarise(across(where(is. numeric ), list(mean=mean, sd=sd), na. rm = TRUE ))
निम्नलिखित उदाहरण दिखाते हैं कि निम्नलिखित डेटा फ़्रेम के साथ प्रत्येक विधि का उपयोग कैसे करें:
#create data frame df <- data. frame (team=c('A', 'A', 'A', 'B', 'B', 'B'), points=c(99, 90, 86, 88, 95, 90), assists=c(33, 28, 31, 39, 34, 25), rebounds=c(NA, 28, 24, 24, 28, 19)) #view data frame df team points assists rebounds 1 A 99 33 NA 2 A 90 28 28 3 A 86 31 24 4 B 88 39 24 5 B 95 34 28 6 B 90 25 19
उदाहरण 1: सभी स्तंभों का सारांश प्रस्तुत करें
निम्नलिखित कोड दिखाता है कि सभी स्तंभों के औसत का सारांश कैसे दिया जाए:
library (dplyr) #summarize mean of all columns, grouped by team df %>% group_by(team) %>% summarise(across(everything(), mean, na. rm = TRUE )) # A tibble: 2 x 4 team points assists rebounds 1 A 91.7 30.7 26 2 B 91 32.7 23.7
उदाहरण 2: विशिष्ट स्तंभों का सारांश प्रस्तुत करें
निम्नलिखित कोड दिखाता है कि केवल अंक और रिबाउंड कॉलम के औसत को कैसे सारांशित किया जाए:
library (dplyr) #summarize mean of points and rebounds, grouped by team df %>% group_by(team) %>% summarise(across(c(points, rebounds), mean, na. rm = TRUE )) # A tibble: 2 x 3 team points rebounds 1 A 91.7 26 2 B 91 23.7
उदाहरण 3: सभी संख्यात्मक स्तंभों का सारांश प्रस्तुत करें
निम्नलिखित कोड दिखाता है कि डेटा फ़्रेम में सभी संख्यात्मक स्तंभों के माध्य और मानक विचलन को कैसे सारांशित किया जाए:
library (dplyr) #summarize mean and standard deviation of all numeric columns df %>% group_by(team) %>% summarise(across(where(is. numeric ), list(mean=mean, sd=sd), na. rm = TRUE )) # A tibble: 2 x 7 team points_mean points_sd assists_mean assists_sd rebounds_mean rebounds_sd 1 A 91.7 6.66 30.7 2.52 26 2.83 2 B 91 3.61 32.7 7.09 23.7 4.51
आउटपुट डेटा फ़्रेम में सभी संख्यात्मक चर का माध्य और मानक विचलन प्रदर्शित करता है।
ध्यान दें कि इस उदाहरण में हमने कई सारांश आँकड़ों को सूचीबद्ध करने के लिए सूची() फ़ंक्शन का उपयोग किया था जिनकी हम गणना करना चाहते थे।
नोट : प्रत्येक उदाहरण में, हमने dplyrcross() फ़ंक्शन का उपयोग किया। आप इस फ़ंक्शन के लिए संपूर्ण दस्तावेज़ यहां पा सकते हैं।
अतिरिक्त संसाधन
निम्नलिखित ट्यूटोरियल बताते हैं कि dplyr का उपयोग करके अन्य सामान्य कार्य कैसे करें:
Dplyr का उपयोग करके पंक्तियों को कैसे हटाएं
Dplyr का उपयोग करके पंक्तियों को कैसे व्यवस्थित करें
Dplyr का उपयोग करके अनेक स्थितियों के आधार पर फ़िल्टर कैसे करें