आर में वर्णनात्मक सांख्यिकी की गणना कैसे करें (उदाहरण के साथ)
वर्णनात्मक आँकड़े वे मान हैं जो डेटा के एक सेट का वर्णन करते हैं।
वे हमें यह समझने में मदद करते हैं कि डेटा सेट का केंद्र कहाँ है और साथ ही डेटा सेट में मूल्यों का वितरण भी।
आर में वर्णनात्मक आंकड़ों की गणना के लिए हम दो कार्यों का उपयोग कर सकते हैं:
विधि 1: सारांश() फ़ंक्शन का उपयोग करें
summary(my_data)
सारांश() फ़ंक्शन R में डेटा फ़्रेम में प्रत्येक चर के लिए निम्नलिखित मानों की गणना करता है:
- न्यूनतम
- प्रथम चतुर्थक
- मंझला
- अर्थ
- तृतीय चतुर्थक
- अधिकतम
विधि 2: sapply() फ़ंक्शन का उपयोग करें
sapply(my_data, sd, na. rm = TRUE )
sapply() फ़ंक्शन का उपयोग डेटा फ़्रेम में प्रत्येक चर के लिए सारांश() फ़ंक्शन द्वारा गणना किए गए वर्णनात्मक आंकड़ों के अलावा अन्य वर्णनात्मक आंकड़ों की गणना करने के लिए किया जा सकता है।
उदाहरण के लिए, उपरोक्त sapply() फ़ंक्शन डेटा फ़्रेम में प्रत्येक चर के मानक विचलन की गणना करता है।
निम्नलिखित उदाहरण दिखाता है कि आर में डेटा फ्रेम में चर के लिए वर्णनात्मक आंकड़ों की गणना करने के लिए इन दो कार्यों का उपयोग कैसे करें।
उदाहरण: आर में वर्णनात्मक आँकड़ों की गणना
मान लीजिए कि हमारे पास R में निम्नलिखित डेटा फ़्रेम है जिसमें तीन चर हैं:
#create data frame df <- data. frame (x=c(1, 4, 4, 5, 6, 7, 10, 12), y=c(2, 2, 3, 3, 4, 5, 11, 11), z=c(8, 9, 9, 9, 10, 13, 15, 17)) #view data frame df X Y Z 1 1 2 8 2 4 2 9 3 4 3 9 4 5 3 9 5 6 4 10 6 7 5 13 7 10 11 15 8 12 11 17
हम प्रत्येक चर के लिए विभिन्न वर्णनात्मक आँकड़ों की गणना करने के लिए सारांश() फ़ंक्शन का उपयोग कर सकते हैं:
#calculate descriptive statistics for each variable
summary(df)
xyz Min. : 1,000 Min. : 2,000 Min. : 8.00
1st Qu.: 4,000 1st Qu.: 2,750 1st Qu.: 9.00
Median: 5,500 Median: 3,500 Median: 9.50
Mean: 6.125 Mean: 5.125 Mean: 11.25
3rd Qu.: 7,750 3rd Qu.: 6,500 3rd Qu.: 13.50
Max. :12,000 Max. :11,000 Max. :17.00
हम डेटा फ़्रेम में विशिष्ट चर के लिए केवल वर्णनात्मक आंकड़ों की गणना करने के लिए कोष्ठक का उपयोग भी कर सकते हैं:
#calculate descriptive statistics for 'x' and 'z' only summary(df[, c(' x ', ' z ')]) xz Min. : 1,000 Min. : 8.00 1st Qu.: 4.000 1st Qu.: 9.00 Median: 5.500 Median: 9.50 Mean: 6.125 Mean: 11.25 3rd Qu.: 7.750 3rd Qu.: 13.50 Max. :12,000 Max. :17.00
हम प्रत्येक चर के लिए विशिष्ट वर्णनात्मक आँकड़ों की गणना करने के लिए sapply() फ़ंक्शन का भी उपयोग कर सकते हैं।
उदाहरण के लिए, निम्नलिखित कोड दिखाता है कि प्रत्येक चर के मानक विचलन की गणना कैसे करें:
#calculate standard deviation for each variable sapply(df, sd, na. rm = TRUE ) X Y Z 3.522884 3.758324 3.327376
हम वर्णनात्मक आँकड़ों की गणना करने के लिए sapply() में एक फ़ंक्शन() का भी उपयोग कर सकते हैं।
उदाहरण के लिए, निम्नलिखित कोड दिखाता है कि प्रत्येक चर के लिए सीमा की गणना कैसे करें:
#calculate range for each variable sapply(df, function(df) max(df, na. rm = TRUE )-min(df, na. rm = TRUE )) X Y Z 11 9 9
अंत में, हम एक जटिल फ़ंक्शन बना सकते हैं जो वर्णनात्मक आंकड़ों की गणना करता है और फिर इस फ़ंक्शन का उपयोग sapply() फ़ंक्शन के साथ करता है।
उदाहरण के लिए, निम्नलिखित कोड दिखाता है कि डेटा फ़्रेम में प्रत्येक चर के मोड की गणना कैसे करें:
#define function that calculates mode find_mode <- function (x) { u <- unique(x) tab <- tabulate(match(x, u)) u[tab == max(tab)] } #calculate mode for each variable sapply(df, find_mode) $x [1] 4 $y [1] 2 3 11 $z [1] 9
परिणाम से हम देख सकते हैं:
- वेरिएबल x का मोड 4 है।
- y वेरिएबल का मोड 2 , 3 और 11 है (क्योंकि इनमें से प्रत्येक मान सबसे अधिक बार दिखाई देता है)
- वेरिएबल z का मोड 9 है।
सारांश() और sapply() फ़ंक्शंस का उपयोग करके, हम डेटा फ़्रेम में प्रत्येक चर के लिए जो भी वर्णनात्मक आँकड़े चाहते हैं, उसकी गणना कर सकते हैं।
अतिरिक्त संसाधन
निम्नलिखित ट्यूटोरियल बताते हैं कि आर में अन्य सामान्य कार्य कैसे करें:
आर में सारांश तालिकाएँ कैसे बनाएँ
आर में अंतरचतुर्थक सीमा कैसे ज्ञात करें
आर में आउटलेर्स को कैसे हटाएं