आर में वर्णनात्मक सांख्यिकी की गणना कैसे करें (उदाहरण के साथ)


वर्णनात्मक आँकड़े वे मान हैं जो डेटा के एक सेट का वर्णन करते हैं।

वे हमें यह समझने में मदद करते हैं कि डेटा सेट का केंद्र कहाँ है और साथ ही डेटा सेट में मूल्यों का वितरण भी।

आर में वर्णनात्मक आंकड़ों की गणना के लिए हम दो कार्यों का उपयोग कर सकते हैं:

विधि 1: सारांश() फ़ंक्शन का उपयोग करें

 summary(my_data)

सारांश() फ़ंक्शन R में डेटा फ़्रेम में प्रत्येक चर के लिए निम्नलिखित मानों की गणना करता है:

  • न्यूनतम
  • प्रथम चतुर्थक
  • मंझला
  • अर्थ
  • तृतीय चतुर्थक
  • अधिकतम

विधि 2: sapply() फ़ंक्शन का उपयोग करें

 sapply(my_data, sd, na. rm = TRUE )

sapply() फ़ंक्शन का उपयोग डेटा फ़्रेम में प्रत्येक चर के लिए सारांश() फ़ंक्शन द्वारा गणना किए गए वर्णनात्मक आंकड़ों के अलावा अन्य वर्णनात्मक आंकड़ों की गणना करने के लिए किया जा सकता है।

उदाहरण के लिए, उपरोक्त sapply() फ़ंक्शन डेटा फ़्रेम में प्रत्येक चर के मानक विचलन की गणना करता है।

निम्नलिखित उदाहरण दिखाता है कि आर में डेटा फ्रेम में चर के लिए वर्णनात्मक आंकड़ों की गणना करने के लिए इन दो कार्यों का उपयोग कैसे करें।

उदाहरण: आर में वर्णनात्मक आँकड़ों की गणना

मान लीजिए कि हमारे पास R में निम्नलिखित डेटा फ़्रेम है जिसमें तीन चर हैं:

 #create data frame
df <- data. frame (x=c(1, 4, 4, 5, 6, 7, 10, 12),
                 y=c(2, 2, 3, 3, 4, 5, 11, 11),
                 z=c(8, 9, 9, 9, 10, 13, 15, 17))

#view data frame
df

   X Y Z
1 1 2 8
2 4 2 9
3 4 3 9
4 5 3 9
5 6 4 10
6 7 5 13
7 10 11 15
8 12 11 17

हम प्रत्येक चर के लिए विभिन्न वर्णनात्मक आँकड़ों की गणना करने के लिए सारांश() फ़ंक्शन का उपयोग कर सकते हैं:

 #calculate descriptive statistics for each variable
summary(df)

       xyz Min. : 1,000 Min. : 2,000 Min. : 8.00  
 1st Qu.: 4,000 1st Qu.: 2,750 1st Qu.: 9.00  
 Median: 5,500 Median: 3,500 Median: 9.50  
 Mean: 6.125 Mean: 5.125 Mean: 11.25  
 3rd Qu.: 7,750 3rd Qu.: 6,500 3rd Qu.: 13.50  
 Max. :12,000 Max. :11,000 Max. :17.00

हम डेटा फ़्रेम में विशिष्ट चर के लिए केवल वर्णनात्मक आंकड़ों की गणना करने के लिए कोष्ठक का उपयोग भी कर सकते हैं:

 #calculate descriptive statistics for 'x' and 'z' only
summary(df[, c(' x ', ' z ')])

       xz Min. : 1,000 Min. : 8.00  
 1st Qu.: 4.000 1st Qu.: 9.00  
 Median: 5.500 Median: 9.50  
 Mean: 6.125 Mean: 11.25  
 3rd Qu.: 7.750 3rd Qu.: 13.50  
 Max. :12,000 Max. :17.00 

हम प्रत्येक चर के लिए विशिष्ट वर्णनात्मक आँकड़ों की गणना करने के लिए sapply() फ़ंक्शन का भी उपयोग कर सकते हैं।

उदाहरण के लिए, निम्नलिखित कोड दिखाता है कि प्रत्येक चर के मानक विचलन की गणना कैसे करें:

 #calculate standard deviation for each variable
sapply(df, sd, na. rm = TRUE )

       X Y Z
3.522884 3.758324 3.327376

हम वर्णनात्मक आँकड़ों की गणना करने के लिए sapply() में एक फ़ंक्शन() का भी उपयोग कर सकते हैं।

उदाहरण के लिए, निम्नलिखित कोड दिखाता है कि प्रत्येक चर के लिए सीमा की गणना कैसे करें:

 #calculate range for each variable
sapply(df, function(df) max(df, na. rm = TRUE )-min(df, na. rm = TRUE ))

 X Y Z
11 9 9

अंत में, हम एक जटिल फ़ंक्शन बना सकते हैं जो वर्णनात्मक आंकड़ों की गणना करता है और फिर इस फ़ंक्शन का उपयोग sapply() फ़ंक्शन के साथ करता है।

उदाहरण के लिए, निम्नलिखित कोड दिखाता है कि डेटा फ़्रेम में प्रत्येक चर के मोड की गणना कैसे करें:

 #define function that calculates mode
find_mode <- function (x) {
  u <- unique(x)
  tab <- tabulate(match(x, u))
  u[tab == max(tab)]
}

#calculate mode for each variable
sapply(df, find_mode)

$x
[1] 4

$y
[1] 2 3 11

$z
[1] 9

परिणाम से हम देख सकते हैं:

  • वेरिएबल x का मोड 4 है।
  • y वेरिएबल का मोड 2 , 3 और 11 है (क्योंकि इनमें से प्रत्येक मान सबसे अधिक बार दिखाई देता है)
  • वेरिएबल z का मोड 9 है।

सारांश() और sapply() फ़ंक्शंस का उपयोग करके, हम डेटा फ़्रेम में प्रत्येक चर के लिए जो भी वर्णनात्मक आँकड़े चाहते हैं, उसकी गणना कर सकते हैं।

अतिरिक्त संसाधन

निम्नलिखित ट्यूटोरियल बताते हैं कि आर में अन्य सामान्य कार्य कैसे करें:

आर में सारांश तालिकाएँ कैसे बनाएँ
आर में अंतरचतुर्थक सीमा कैसे ज्ञात करें
आर में आउटलेर्स को कैसे हटाएं

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *