आर में अंगूठे का नियम कैसे लागू करें
अंगूठे का नियम , जिसे कभी-कभी 68-95-99.7 नियम कहा जाता है, बताता है कि सामान्य वितरण के साथ दिए गए डेटा सेट के लिए:
- 68% डेटा मान माध्य के एक मानक विचलन के भीतर हैं।
- 95% डेटा मान माध्य के दो मानक विचलन के भीतर हैं।
- 99.7% डेटा मान माध्य के तीन मानक विचलन के अंतर्गत आते हैं।
इस ट्यूटोरियल में, हम बताते हैं कि किसी दिए गए डेटासेट पर आर में अंगूठे का नियम कैसे लागू किया जाए।
आर में अंगूठे का नियम लागू करना
R में pnorm() फ़ंक्शन सामान्य वितरण के संचयी घनत्व फ़ंक्शन का मान लौटाता है।
यह फ़ंक्शन निम्नलिखित मूल सिंटैक्स का उपयोग करता है:
पोनॉर्म (क्यू, माध्य, एसडी)
सोना:
- q : सामान्य रूप से वितरित यादृच्छिक चर मान
- माध्य : माध्य वितरण
- एसडी : वितरण का मानक विचलन
हम विभिन्न मानक विचलनों के बीच स्थित सामान्य वितरण वक्र के अंतर्गत क्षेत्र को खोजने के लिए निम्नलिखित वाक्यविन्यास का उपयोग कर सकते हैं:
#find area under normal curve within 1 standard deviation of mean pnorm(1) - pnorm(-1) [1] 0.6826895 #find area under normal curve within 2 standard deviations of mean pnorm(2) - pnorm(-2) [1] 0.9544997 #find area under normal curve within 3 standard deviations of mean pnorm(3) - pnorm(-3) [1] 0.9973002
परिणाम से हम पुष्टि कर सकते हैं:
- 68% डेटा मान माध्य के एक मानक विचलन के भीतर हैं।
- 95% डेटा मान माध्य के दो मानक विचलन के भीतर हैं।
- 99.7% डेटा मान माध्य के तीन मानक विचलन के अंतर्गत आते हैं।
निम्नलिखित उदाहरण दिखाते हैं कि व्यवहार में विभिन्न डेटा सेटों के साथ अंगूठे के नियम का उपयोग कैसे किया जाए।
उदाहरण 1: आर में डेटासेट पर अनुभवजन्य नियम लागू करना
मान लीजिए कि हमारे पास 7 के माध्य और 2.2 के मानक विचलन के साथ सामान्य रूप से वितरित डेटा सेट है।
हम यह निर्धारित करने के लिए निम्नलिखित कोड का उपयोग कर सकते हैं कि किन मानों में 68%, 95% और 99.7% डेटा है:
#define mean and standard deviation values mean=7 sd=2.2 #find which values contain 68% of data mean-2.2; mean+2.2 [1] 4.8 [1] 9.2 #find which values contain 95% of data mean-2*2.2; mean+2*2.2 [1] 2.6 [1] 11.4 #find which values contain 99.7% of data mean-3*2.2; mean+3*2.2 [1] 0.4 [1] 13.6
इस आउटपुट से हम देख सकते हैं:
- 68% डेटा 4.8 और 9.2 के बीच है
- 95% डेटा 2.6 और 11.4 के बीच है
- 99.7% डेटा 0.4 और 13.6 के बीच है
उदाहरण 2: निर्धारित करें कि डेटा का कितना प्रतिशत कुछ मानों के बीच आता है
कल्पना करें कि हमारे पास 100 के माध्य और 5 के मानक विचलन के साथ सामान्य रूप से वितरित डेटा सेट है।
मान लीजिए हम जानना चाहते हैं कि इस वितरण में डेटा का कितना प्रतिशत मान 99 और 105 के बीच आता है।
उत्तर खोजने के लिए हम pnorm( ) फ़ंक्शन का उपयोग कर सकते हैं:
#find area under normal curve between 99 and 105
pnorm(105, mean=100, sd=5) - pnorm(99, mean=100, sd=5)
[1] 0.4206045
हम देखते हैं कि 42.06% डेटा इस वितरण के लिए मान 99 और 105 के बीच आता है।
अतिरिक्त संसाधन
एक्सेल में अंगूठे का नियम कैसे लागू करें
सामान्य नियमों का अभ्यास करने में समस्याएँ
अंगूठे कैलकुलेटर के नियम