आर में डेटा ग्रुपिंग कैसे करें: उदाहरणों के साथ


आप R में डेटा ग्रुपिंग करने के लिए दो तरीकों में से एक का उपयोग कर सकते हैं:

विधि 1: कट() फ़ंक्शन का उपयोग करें

 library (dplyr)

#perform binning with custom breaks
df %>% mutate(new_bin = cut(variable_name, breaks=c(0, 10, 20, 30)))

#perform binning with specific number of bins
df %>% mutate(new_bin = cut(variable_name, breaks= 3 ))

विधि 2: एनटीइल() फ़ंक्शन का उपयोग करें

 library (dplyr)

#perform binning with specific number of bins
df %>% mutate(new_bin = ntile(variable_name, n= 3 ))

निम्नलिखित उदाहरण दिखाते हैं कि निम्नलिखित डेटा फ़्रेम के साथ व्यवहार में प्रत्येक विधि का उपयोग कैसे करें:

 #create data frame
df <- data. frame (points=c(4, 4, 7, 8, 12, 13, 15, 18, 22, 23, 23, 25),
                 assists=c(2, 5, 4, 7, 7, 8, 5, 4, 5, 11, 13, 8),
                 rebounds=c(7, 7, 4, 6, 3, 8, 9, 9, 12, 11, 8, 9))

#view head of data frame
head(df)

  points assists rebounds
1 4 2 7
2 4 5 7
3 7 4 4
4 8 7 6
5 12 7 3
6 13 8 8

उदाहरण 1: कट() फ़ंक्शन के साथ डेटा ग्रुपिंग करें

निम्नलिखित कोड दिखाता है कि विशिष्ट ब्रेक मार्क्स के साथ कट() फ़ंक्शन का उपयोग करके पॉइंट वेरिएबल पर डेटा ग्रुपिंग कैसे करें:

 library (dplyr)

#perform data binning on variable points
df %>% mutate(points_bin = cut(points, breaks=c(0, 10, 20, 30)))

   points assists rebounds points_bin
1 4 2 7 (0.10]
2 4 5 7 (0.10]
3 7 4 4 (0.10]
4 8 7 6 (0.10]
5 12 7 3 (10.20]
6 13 8 8 (10.20]
7 15 5 9 (10.20]
8 18 4 9 (10.20]
9 22 5 12 (20.30]
10 23 11 11 (20.30]
11 23 13 8 (20.30]
12 25 8 9 (20.30]

ध्यान दें कि डेटा फ़्रेम में प्रत्येक पंक्ति को बिंदु कॉलम के मान के आधार पर तीन समूहों में से एक में रखा गया है।

हम बिंदुओं के कॉलम के न्यूनतम मान से अधिकतम मान तक समान चौड़ाई के बॉक्स बनाने के लिए उपयोग किए जाने वाले जंप की संख्या भी निर्दिष्ट कर सकते हैं:

 library (dplyr)

#perform data binning on variable points
df %>% mutate(points_bin = cut(points, breaks= 3 ))

   points assists rebounds points_bin
1 4 2 7 (3.98.11]
2 4 5 7 (3.98.11]
3 7 4 4 (3.98.11]
4 8 7 6 (3.98.11]
5 12 7 3 (11.18]
6 13 8 8 (11.18]
7 15 5 9 (11.18]
8 18 4 9 (11.18]
9 22 5 12 (18.25]
10 23 11 11 (18.25]
11 23 13 8 (18.25]
12 25 8 9 (18.25]

उदाहरण 2: ntile() फ़ंक्शन के साथ डेटा ग्रुपिंग करें

निम्नलिखित कोड दिखाता है कि विशिष्ट संख्या में परिणामी समूहों के साथ ntile() फ़ंक्शन का उपयोग करके पॉइंट वेरिएबल पर डेटा ग्रुपिंग कैसे करें:

 library (dplyr)

#perform data binning on variable points
df %>% mutate(points_bin = ntile(points, n= 3 ))

   points assists rebounds points_bin
1 4 2 7 1
2 4 5 7 1
3 7 4 4 1
4 8 7 6 1
5 12 7 3 2
6 13 8 8 2
7 15 5 9 2
8 18 4 9 2
9 22 5 12 3
10 23 11 11 3
11 23 13 8 3
12 25 8 9 3

ध्यान दें कि प्रत्येक पंक्ति को बिंदु स्तंभ मान के आधार पर 1 से 3 तक एक बॉक्स दिया गया है।

जब आप बिन की सीमा को इंगित करने वाले अंतराल के बजाय प्रत्येक पंक्ति में एक पूर्णांक मान प्रदर्शित करना चाहते हैं तो ntile() फ़ंक्शन का उपयोग करना सबसे अच्छा है।

अतिरिक्त संसाधन

निम्नलिखित ट्यूटोरियल बताते हैं कि आर में अन्य सामान्य कार्य कैसे करें:

आर में डेटा फ़्रेम में मानों को सशर्त रूप से कैसे बदलें
आर में ट्रिम किए गए माध्य की गणना कैसे करें
आर में सशर्त माध्य की गणना कैसे करें

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *