आर में डेटा ग्रुपिंग कैसे करें: उदाहरणों के साथ
आप R में डेटा ग्रुपिंग करने के लिए दो तरीकों में से एक का उपयोग कर सकते हैं:
विधि 1: कट() फ़ंक्शन का उपयोग करें
library (dplyr) #perform binning with custom breaks df %>% mutate(new_bin = cut(variable_name, breaks=c(0, 10, 20, 30))) #perform binning with specific number of bins df %>% mutate(new_bin = cut(variable_name, breaks= 3 ))
विधि 2: एनटीइल() फ़ंक्शन का उपयोग करें
library (dplyr) #perform binning with specific number of bins df %>% mutate(new_bin = ntile(variable_name, n= 3 ))
निम्नलिखित उदाहरण दिखाते हैं कि निम्नलिखित डेटा फ़्रेम के साथ व्यवहार में प्रत्येक विधि का उपयोग कैसे करें:
#create data frame
df <- data. frame (points=c(4, 4, 7, 8, 12, 13, 15, 18, 22, 23, 23, 25),
assists=c(2, 5, 4, 7, 7, 8, 5, 4, 5, 11, 13, 8),
rebounds=c(7, 7, 4, 6, 3, 8, 9, 9, 12, 11, 8, 9))
#view head of data frame
head(df)
points assists rebounds
1 4 2 7
2 4 5 7
3 7 4 4
4 8 7 6
5 12 7 3
6 13 8 8
उदाहरण 1: कट() फ़ंक्शन के साथ डेटा ग्रुपिंग करें
निम्नलिखित कोड दिखाता है कि विशिष्ट ब्रेक मार्क्स के साथ कट() फ़ंक्शन का उपयोग करके पॉइंट वेरिएबल पर डेटा ग्रुपिंग कैसे करें:
library (dplyr)
#perform data binning on variable points
df %>% mutate(points_bin = cut(points, breaks=c(0, 10, 20, 30)))
points assists rebounds points_bin
1 4 2 7 (0.10]
2 4 5 7 (0.10]
3 7 4 4 (0.10]
4 8 7 6 (0.10]
5 12 7 3 (10.20]
6 13 8 8 (10.20]
7 15 5 9 (10.20]
8 18 4 9 (10.20]
9 22 5 12 (20.30]
10 23 11 11 (20.30]
11 23 13 8 (20.30]
12 25 8 9 (20.30]
ध्यान दें कि डेटा फ़्रेम में प्रत्येक पंक्ति को बिंदु कॉलम के मान के आधार पर तीन समूहों में से एक में रखा गया है।
हम बिंदुओं के कॉलम के न्यूनतम मान से अधिकतम मान तक समान चौड़ाई के बॉक्स बनाने के लिए उपयोग किए जाने वाले जंप की संख्या भी निर्दिष्ट कर सकते हैं:
library (dplyr)
#perform data binning on variable points
df %>% mutate(points_bin = cut(points, breaks= 3 ))
points assists rebounds points_bin
1 4 2 7 (3.98.11]
2 4 5 7 (3.98.11]
3 7 4 4 (3.98.11]
4 8 7 6 (3.98.11]
5 12 7 3 (11.18]
6 13 8 8 (11.18]
7 15 5 9 (11.18]
8 18 4 9 (11.18]
9 22 5 12 (18.25]
10 23 11 11 (18.25]
11 23 13 8 (18.25]
12 25 8 9 (18.25]
उदाहरण 2: ntile() फ़ंक्शन के साथ डेटा ग्रुपिंग करें
निम्नलिखित कोड दिखाता है कि विशिष्ट संख्या में परिणामी समूहों के साथ ntile() फ़ंक्शन का उपयोग करके पॉइंट वेरिएबल पर डेटा ग्रुपिंग कैसे करें:
library (dplyr)
#perform data binning on variable points
df %>% mutate(points_bin = ntile(points, n= 3 ))
points assists rebounds points_bin
1 4 2 7 1
2 4 5 7 1
3 7 4 4 1
4 8 7 6 1
5 12 7 3 2
6 13 8 8 2
7 15 5 9 2
8 18 4 9 2
9 22 5 12 3
10 23 11 11 3
11 23 13 8 3
12 25 8 9 3
ध्यान दें कि प्रत्येक पंक्ति को बिंदु स्तंभ मान के आधार पर 1 से 3 तक एक बॉक्स दिया गया है।
जब आप बिन की सीमा को इंगित करने वाले अंतराल के बजाय प्रत्येक पंक्ति में एक पूर्णांक मान प्रदर्शित करना चाहते हैं तो ntile() फ़ंक्शन का उपयोग करना सबसे अच्छा है।
अतिरिक्त संसाधन
निम्नलिखित ट्यूटोरियल बताते हैं कि आर में अन्य सामान्य कार्य कैसे करें:
आर में डेटा फ़्रेम में मानों को सशर्त रूप से कैसे बदलें
आर में ट्रिम किए गए माध्य की गणना कैसे करें
आर में सशर्त माध्य की गणना कैसे करें