मानक विचलन का उपयोग करने के फायदे और नुकसान


डेटा सेट का मानक विचलन औसत मूल्य से व्यक्तिगत मूल्यों के विशिष्ट विचलन को मापने का एक तरीका है।

नमूना मानक विचलन की गणना करने का सूत्र, जिसे s दर्शाया गया है, है:

s = √ Σ(x i – x̄) 2 / (n – 1)

सोना:

  • Σ : एक प्रतीक जिसका अर्थ है “योग”
  • x i : डेटा सेट में i वां मान
  • : नमूना का अर्थ है
  • n : नमूना आकार

डेटा सेट में मूल्यों के वितरण का वर्णन करने के लिए मानक विचलन का उपयोग करने के दो मुख्य फायदे हैं:

लाभ #1: मानक विचलन अपनी गणना में डेटा सेट के सभी अवलोकनों का उपयोग करता है। आंकड़ों में, हम आम तौर पर कहते हैं कि गणना करने के लिए डेटा सेट में सभी अवलोकनों का उपयोग करने में सक्षम होना एक अच्छी बात है, क्योंकि हम डेटा सेट में उपलब्ध सभी संभावित “जानकारी” का उपयोग कर रहे हैं।

लाभ #2: मानक विचलन की व्याख्या करना आसान है । मानक विचलन एक एकल मान है जो हमें एक अच्छा विचार देता है कि डेटा सेट में “विशिष्ट” अवलोकन औसत मूल्य से कितना दूर है।

हालाँकि, मानक विचलन का उपयोग करने में एक बड़ी खामी है:

नुकसान #1: मानक विचलन आउटलेर्स से प्रभावित हो सकता है । जब किसी डेटा सेट में चरम आउटलेर्स मौजूद होते हैं, तो यह मानक विचलन मान को बढ़ा सकता है और इस प्रकार डेटा सेट में मूल्यों के वितरण का एक भ्रामक विचार दे सकता है।

निम्नलिखित उदाहरण मानक विचलन का उपयोग करने के फायदे और नुकसान के बारे में अधिक जानकारी प्रदान करते हैं।

लाभ #1: मानक विचलन सभी अवलोकनों का उपयोग करता है

मान लीजिए कि हमारे पास निम्नलिखित डेटासेट हैं जो एक कक्षा में छात्रों के लिए परीक्षा अंकों के वितरण को दर्शाते हैं:

रेटिंग: 68, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92

हम यह पता लगाने के लिए कैलकुलेटर या सांख्यिकीय सॉफ़्टवेयर का उपयोग कर सकते हैं कि इस डेटा सेट का नमूना मानक विचलन 8.46 है।

इस उदाहरण में मानक विचलन का उपयोग करने का लाभ यह है कि हम मूल्यों के विशिष्ट “वितरण” को खोजने के लिए डेटा सेट में सभी संभावित अवलोकनों का उपयोग करते हैं।

इसके विपरीत, हम इस डेटा सेट में मूल्यों के वितरण को मापने के लिए एक अन्य मीट्रिक जैसे इंटरक्वेर्टाइल रेंज का उपयोग कर सकते हैं।

हम यह पता लगाने के लिए कैलकुलेटर का उपयोग कर सकते हैं कि अंतरचतुर्थक सीमा 17.5 है । यह डेटासेट में मध्य 50% मानों के बीच के अंतर को दर्शाता है।

अब मान लीजिए कि हम डेटासेट में न्यूनतम मान को बहुत कम कर देते हैं:

रेटिंग: 22, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92

हम यह जानने के लिए कैलकुलेटर का उपयोग कर सकते हैं कि नमूना मानक विचलन 18.37 है

हालाँकि, अंतरचतुर्थक सीमा अभी भी 17.5 है क्योंकि मध्य 50% मानों में से कोई भी प्रभावित नहीं होता है।

इससे पता चलता है कि फैलाव के अन्य उपायों के विपरीत, नमूना मानक विचलन अपनी गणना में डेटासेट में सभी टिप्पणियों को ध्यान में रखता है।

लाभ #2: मानक विचलन की व्याख्या करना आसान है

निम्नलिखित डेटासेट को याद करें जो एक कक्षा में छात्रों के लिए परीक्षा अंकों के वितरण को दर्शाता है:

रेटिंग: 68, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92

हमने यह पता लगाने के लिए एक कैलकुलेटर का उपयोग किया कि इस डेटा सेट का नमूना मानक विचलन 8.46 था।

इसकी व्याख्या करना आसान है क्योंकि इसका सीधा सा मतलब है कि “सामान्य” परीक्षा स्कोर का विचलन औसत परीक्षा स्कोर से लगभग 8.46 है।

दूसरी ओर, फैलाव के अन्य उपायों की व्याख्या करना उतना आसान नहीं है।

उदाहरण के लिए, भिन्नता का गुणांक फैलाव का एक और माप है जो नमूना माध्य के मानक विचलन के अनुपात को दर्शाता है।

भिन्नता का गुणांक: s/x̄

इस उदाहरण में, औसत परीक्षा स्कोर 81.46 है, इसलिए भिन्नता के गुणांक की गणना निम्नानुसार की जाती है: 8.46 / 81.46 = 0.104

यह नमूना मानक विचलन और नमूना माध्य के अनुपात को दर्शाता है, जो कई डेटा सेटों में मूल्यों के वितरण की तुलना करने के लिए उपयोगी हो सकता है, लेकिन इसे अपने आप में एक मीट्रिक के रूप में व्याख्या करना बहुत सरल नहीं है।

नुकसान #1: मानक विचलन आउटलेर्स से प्रभावित हो सकता है

मान लीजिए कि हमारे पास निम्नलिखित डेटासेट है जिसमें किसी कंपनी में 10 कर्मचारियों (हजारों डॉलर में) के वेतन की जानकारी है:

वेतन: 44, 48, 57, 68, 70, 71, 73, 79, 84, 94

वेतन का नमूना मानक विचलन लगभग 15.57 है।

अब मान लीजिए कि हमारे पास बिल्कुल वही डेटा सेट है, लेकिन उच्चतम वेतन बहुत अधिक है:

वेतन: 44, 48, 57, 68, 70, 71, 73, 79, 84, 895

इस डेटासेट में वेतन का नमूना मानक विचलन लगभग 262.47 है।

केवल एक चरम बाह्य को शामिल करने से, मानक विचलन बहुत प्रभावित होता है और अब “सामान्य” वेतन वितरण का एक भ्रामक विचार देता है।

ध्यान दें : जब डेटा सेट में आउटलेर्स मौजूद होते हैं, तो इंटरक्वेर्टाइल रेंज फैलाव का बेहतर माप प्रदान कर सकती है क्योंकि यह आउटलेर्स से प्रभावित नहीं होती है।

अतिरिक्त संसाधन

निम्नलिखित ट्यूटोरियल सांख्यिकी में मानक विचलन का उपयोग करने के बारे में अतिरिक्त जानकारी प्रदान करते हैं:

अंतरचतुर्थक सीमा और मानक विचलन: अंतर
भिन्नता का गुणांक बनाम मानक विचलन: अंतर
जनसंख्या बनाम नमूना मानक विचलन: प्रत्येक का उपयोग कब करें

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *