Dplyr का उपयोग करके r में सारांश आँकड़ों की गणना कैसे करें
आप dplyr पैकेज में फ़ंक्शंस का उपयोग करके आर में डेटा फ़्रेम में सभी संख्यात्मक चर के लिए सारांश आंकड़ों की गणना करने के लिए निम्नलिखित सिंटैक्स का उपयोग कर सकते हैं:
library (dplyr) library (tidyr) df %>% summarise(across(where(is. numeric ), .fns = list(min = min, median = median, mean = mean, stdev = sd, q25 = ~quantile(., 0.25 ), q75 = ~quantile(., 0.75 ), max = max))) %>% pivot_longer(everything(), names_sep=' _ ', names_to=c(' variable ', ' .value '))
सारांश () फ़ंक्शन dplyr पैकेज से आता है और इसका उपयोग चर के लिए सारांश आंकड़ों की गणना करने के लिए किया जाता है।
Pivot_longer() फ़ंक्शन Tidyr पैकेज से आता है और इसे पढ़ने में आसान बनाने के लिए आउटपुट को प्रारूपित करने के लिए उपयोग किया जाता है।
यह विशेष सिंटैक्स डेटा फ़्रेम में प्रत्येक संख्यात्मक चर के लिए निम्नलिखित सारांश आंकड़ों की गणना करता है:
- न्यूनतम मूल्य
- माध्य मान
- औसत मूल्य
- मानक विचलन
- 25वाँ प्रतिशतक
- 75वाँ प्रतिशतक
- अधिकतम मूल्य
निम्नलिखित उदाहरण दिखाता है कि व्यवहार में इस फ़ंक्शन का उपयोग कैसे करें।
उदाहरण: dplyr का उपयोग करके R में सारांश आँकड़ों की गणना करें
मान लीजिए कि हमारे पास आर में निम्नलिखित डेटा फ्रेम है जिसमें विभिन्न बास्केटबॉल खिलाड़ियों के बारे में जानकारी है:
#create data frame df <- data. frame (team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'), points=c(12, 15, 19, 14, 24, 25, 39, 34), assists=c(6, 8, 8, 9, 12, 6, 8, 10), rebounds=c(9, 9, 8, 10, 8, 4, 3, 3)) #view data frame df team points assists rebounds 1 to 12 6 9 2 A 15 8 9 3 A 19 8 8 4 A 14 9 10 5 B 24 12 8 6 B 25 6 4 7 B 39 8 3 8 B 34 10 3
हम डेटा फ़्रेम में प्रत्येक संख्यात्मक चर के लिए सारांश आंकड़ों की गणना करने के लिए निम्नलिखित सिंटैक्स का उपयोग कर सकते हैं:
library (dplyr) library (tidyr) #calculate summary statistics for each numeric variable in data frame df %>% summarise(across(where(is. numeric ), .fns = list(min = min, median = median, mean = mean, stdev = sd, q25 = ~quantile(., 0.25 ), q75 = ~quantile(., 0.75 ), max = max))) %>% pivot_longer(everything(), names_sep=' _ ', names_to=c(' variable ', ' .value ')) # A tibble: 3 x 8 variable min median mean stdev q25 q75 max 1 points 12 21.5 22.8 9.74 14.8 27.2 39 2 assists 6 8 8.38 2.00 7.5 9.25 12 3 rebounds 3 8 6.75 2.92 3.75 9 10
परिणाम से हम देख सकते हैं:
- अंक कॉलम में न्यूनतम मान 12 है।
- अंक कॉलम में माध्य मान 21.5 है।
- अंक कॉलम में औसत मान 22.8 है।
और इसी तरह।
ध्यान दें : इस उदाहरण में, हमने dplyrcross() फ़ंक्शन का उपयोग किया है। आप इस फ़ंक्शन के लिए संपूर्ण दस्तावेज़ यहां पा सकते हैं।
अतिरिक्त संसाधन
निम्नलिखित ट्यूटोरियल बताते हैं कि dplyr का उपयोग करके अन्य सामान्य कार्य कैसे करें:
डेटा को सारांशित कैसे करें लेकिन dplyr का उपयोग करके सभी कॉलम कैसे रखें
Dplyr का उपयोग करके एकाधिक कॉलमों का सारांश कैसे करें
Dplyr का उपयोग करके मानक विचलन की गणना कैसे करें