संपूर्ण गाइड: आर में डेटा को समूहीकृत और सारांशित कैसे करें

द्वारा डॉ. बेंजामिन एंडरसन जुलाई 28, 2023 मार्गदर्शक शून्य टिप्पणियां

डेटा का विश्लेषण करते समय आपके द्वारा किए जाने वाले दो सबसे सामान्य कार्य डेटा को समूहीकृत करना और सारांशित करना है।

सौभाग्य से, R में dplyr पैकेज आपको डेटा को शीघ्रता से समूहित करने और सारांशित करने की अनुमति देता है।

यह ट्यूटोरियल dplyr के साथ आरंभ करने के लिए एक त्वरित मार्गदर्शिका प्रदान करता है।

dplyr पैकेज स्थापित करें और लोड करें

इससे पहले कि आप dplyr पैकेज में फ़ंक्शंस का उपयोग कर सकें, आपको पहले पैकेज लोड करना होगा:

 #install dplyr (if not already installed)
install.packages(' dplyr ')

#load dplyr 
library(dplyr)

इसके बाद, हम mtcars नामक अंतर्निहित R डेटासेट का उपयोग करके डेटा को समूहीकृत और सारांशित करने के लिए dplyr के फ़ंक्शंस का उपयोग करने के कई उदाहरण दिखाएंगे:

 #obtain rows and columns of mtcars
dim(mtcars)

[1] 32 11

#view first six rows of mtcars
head(mtcars)

                   mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1

डेटा को समूहीकृत और सारांशित करने के लिए हम जिस मूल सिंटैक्स का उपयोग करेंगे वह है:

 data %>%
  group_by (col_name) %>%
  summarize (summary_name = summary_function)

नोट: सारांश() और सारांश() फ़ंक्शन समतुल्य हैं।

उदाहरण 1: समूह द्वारा माध्य और माध्यिका ज्ञात कीजिए

निम्नलिखित कोड दिखाता है कि माध्य और माध्यिका सहित समूह द्वारा केंद्रीय प्रवृत्ति के माप की गणना कैसे करें:

 #find mean mpg by cylinder
mtcars %>%
  group_by (cyl) %>%
  summarize (mean_mpg = mean(mpg, na.rm = TRUE ))

# A tibble: 3 x 2
    cyl mean_mpg
      
1 4 26.7
2 6 19.7
3 8 15.1

#find median mpg by cylinder
mtcars %>%
  group_by (cyl) %>%
  summarize (median_mpg = median(mpg, na.rm = TRUE ))

# A tibble: 3 x 2
    cyl median_mpg
        
1 4 26  
2 6 19.7
3 8 15.2

उदाहरण 2: समूह द्वारा प्रसार के उपाय ढूँढना

निम्नलिखित कोड दिखाता है कि समूह द्वारा फैलाव माप की गणना कैसे करें, जिसमें मानक विचलन, अंतःचतुर्थक सीमा और पूर्ण औसत विचलन शामिल हैं:

 #find sd, IQR, and mad by cylinder
mtcars %>%
group_by (cyl) %>%
summarize (sd_mpg = sd(mpg, na.rm = TRUE ),
            iqr_mpg = IQR(mpg, na.rm = TRUE ),
            mad_mpg = mad(mpg, na.rm = TRUE ))

# A tibble: 3 x 4
    cyl sd_mpg iqr_mpg mad_mpg
          
1 4 4.51 7.60 6.52
2 6 1.45 2.35 1.93
3 8 2.56 1.85 1.56

उदाहरण 3: समूह द्वारा संख्या ज्ञात करें

निम्नलिखित कोड दिखाता है कि आर में समूह द्वारा संख्या और अद्वितीय संख्या कैसे खोजें:

 #find row count and unique row count by cylinder
mtcars %>%
group_by (cyl) %>%
summarize (count_mpg = n(),
            u_count_mpg = n_distinct(mpg))

# A tibble: 3 x 3
    cyl count_mpg u_count_mpg
              
1 4 11 9
2 6 7 6
3 8 14 12

उदाहरण 4: समूह द्वारा प्रतिशतक ज्ञात कीजिए

निम्नलिखित कोड दिखाता है कि सिलेंडर समूह द्वारा एमपीजी मानों का 90वां प्रतिशत कैसे प्राप्त करें:

 #find 90th percentile of mpg for each cylinder group
mtcars %>%
group_by (cyl) %>%
summarize (quant90 = quantile(mpg, probs = .9))

# A tibble: 3 x 2
    cyl quant90
     
1 4 32.4
2 6 21.2
3 8 18.3

अतिरिक्त संसाधन

आप संपूर्ण dplyr पैकेज दस्तावेज़ीकरण के साथ-साथ सहायक विज़ुअलाइज़ेशन चीट शीट यहां पा सकते हैं।

अन्य उपयोगी फ़ंक्शंस जिन्हें आप ग्रुप_बी() और सारांश() के साथ उपयोग कर सकते हैं, उनमें डेटा फ़्रेम की पंक्तियों को फ़िल्टर करने और उन्हें निश्चित क्रम में व्यवस्थित करने के फ़ंक्शंस शामिल हैं।

लेखक के बारे में

डॉ. बेंजामिन एंडरसन

नमस्ते, मैं बेंजामिन हूं, एक सेवानिवृत्त सांख्यिकी प्रोफेसर जो अब समर्पित Statorials शिक्षक बन गया है। सांख्यिकी के क्षेत्र में व्यापक अनुभव और विशेषज्ञता के साथ, मैं Statorials के माध्यम से छात्रों को सशक्त बनाने के लिए अपना ज्ञान साझा करने के लिए उत्सुक हूं। अधिक जाने