संपूर्ण गाइड: आर में डेटा को समूहीकृत और सारांशित कैसे करें
डेटा का विश्लेषण करते समय आपके द्वारा किए जाने वाले दो सबसे सामान्य कार्य डेटा को समूहीकृत करना और सारांशित करना है।
सौभाग्य से, R में dplyr पैकेज आपको डेटा को शीघ्रता से समूहित करने और सारांशित करने की अनुमति देता है।
यह ट्यूटोरियल dplyr के साथ आरंभ करने के लिए एक त्वरित मार्गदर्शिका प्रदान करता है।
dplyr पैकेज स्थापित करें और लोड करें
इससे पहले कि आप dplyr पैकेज में फ़ंक्शंस का उपयोग कर सकें, आपको पहले पैकेज लोड करना होगा:
#install dplyr (if not already installed)
install.packages(' dplyr ')
#load dplyr
library(dplyr)
इसके बाद, हम mtcars नामक अंतर्निहित R डेटासेट का उपयोग करके डेटा को समूहीकृत और सारांशित करने के लिए dplyr के फ़ंक्शंस का उपयोग करने के कई उदाहरण दिखाएंगे:
#obtain rows and columns of mtcars dim(mtcars) [1] 32 11 #view first six rows of mtcars head(mtcars) mpg cyl disp hp drat wt qsec vs am gear carb Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4 Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4 Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1 Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1 Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2 Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1
डेटा को समूहीकृत और सारांशित करने के लिए हम जिस मूल सिंटैक्स का उपयोग करेंगे वह है:
data %>% group_by (col_name) %>% summarize (summary_name = summary_function)
नोट: सारांश() और सारांश() फ़ंक्शन समतुल्य हैं।
उदाहरण 1: समूह द्वारा माध्य और माध्यिका ज्ञात कीजिए
निम्नलिखित कोड दिखाता है कि माध्य और माध्यिका सहित समूह द्वारा केंद्रीय प्रवृत्ति के माप की गणना कैसे करें:
#find mean mpg by cylinder mtcars %>% group_by (cyl) %>% summarize (mean_mpg = mean(mpg, na.rm = TRUE )) # A tibble: 3 x 2 cyl mean_mpg 1 4 26.7 2 6 19.7 3 8 15.1 #find median mpg by cylinder mtcars %>% group_by (cyl) %>% summarize (median_mpg = median(mpg, na.rm = TRUE )) # A tibble: 3 x 2 cyl median_mpg 1 4 26 2 6 19.7 3 8 15.2
उदाहरण 2: समूह द्वारा प्रसार के उपाय ढूँढना
निम्नलिखित कोड दिखाता है कि समूह द्वारा फैलाव माप की गणना कैसे करें, जिसमें मानक विचलन, अंतःचतुर्थक सीमा और पूर्ण औसत विचलन शामिल हैं:
#find sd, IQR, and mad by cylinder mtcars %>% group_by (cyl) %>% summarize (sd_mpg = sd(mpg, na.rm = TRUE ), iqr_mpg = IQR(mpg, na.rm = TRUE ), mad_mpg = mad(mpg, na.rm = TRUE )) # A tibble: 3 x 4 cyl sd_mpg iqr_mpg mad_mpg 1 4 4.51 7.60 6.52 2 6 1.45 2.35 1.93 3 8 2.56 1.85 1.56
उदाहरण 3: समूह द्वारा संख्या ज्ञात करें
निम्नलिखित कोड दिखाता है कि आर में समूह द्वारा संख्या और अद्वितीय संख्या कैसे खोजें:
#find row count and unique row count by cylinder mtcars %>% group_by (cyl) %>% summarize (count_mpg = n(), u_count_mpg = n_distinct(mpg)) # A tibble: 3 x 3 cyl count_mpg u_count_mpg 1 4 11 9 2 6 7 6 3 8 14 12
उदाहरण 4: समूह द्वारा प्रतिशतक ज्ञात कीजिए
निम्नलिखित कोड दिखाता है कि सिलेंडर समूह द्वारा एमपीजी मानों का 90वां प्रतिशत कैसे प्राप्त करें:
#find 90th percentile of mpg for each cylinder group mtcars %>% group_by (cyl) %>% summarize (quant90 = quantile(mpg, probs = .9)) # A tibble: 3 x 2 cyl quant90 1 4 32.4 2 6 21.2 3 8 18.3
अतिरिक्त संसाधन
आप संपूर्ण dplyr पैकेज दस्तावेज़ीकरण के साथ-साथ सहायक विज़ुअलाइज़ेशन चीट शीट यहां पा सकते हैं।
अन्य उपयोगी फ़ंक्शंस जिन्हें आप ग्रुप_बी() और सारांश() के साथ उपयोग कर सकते हैं, उनमें डेटा फ़्रेम की पंक्तियों को फ़िल्टर करने और उन्हें निश्चित क्रम में व्यवस्थित करने के फ़ंक्शंस शामिल हैं।