असामान्य मूल्य (आउटलेर्स)

यह आलेख बताता है कि आउटलेयर क्या हैं और उनकी गणना कैसे की जाती है। इसके अतिरिक्त, आप ऑनलाइन कैलकुलेटर से किसी भी डेटा नमूने के लिए आउटलेर्स की गणना कर सकते हैं।

आउटलाइर्स क्या हैं?

आँकड़ों में, आउटलेर्स , जिन्हें आउटलेर्स या आउटलेर्स भी कहा जाता है, वे मान हैं जो बाकी डेटा सेट से काफी भिन्न होते हैं। दूसरे शब्दों में, आउटलायर एक असामान्य मान है जो नमूने के बाकी मानों से बेहद अलग है।

किसी नमूने में आउटलेर्स की पहचान करना महत्वपूर्ण है क्योंकि वे सांख्यिकीय उपायों की गणना को महत्वपूर्ण रूप से प्रभावित कर सकते हैं।

उदाहरण के लिए, यदि हमारे पास डेटा श्रृंखला [1, 3, 5, 2, 79, 4, 8, 6] है, तो संख्या 79 स्पष्ट रूप से एक बाहरी है। क्योंकि इसकी वैल्यू बाकी डेटा से बेहद ज्यादा है. इस मामले में, बाहरी सहित माध्य 13.5 है, जबकि बाहरी के बिना माध्य 4.14 होगा। जैसा कि आप देख सकते हैं, एक एकल आउटलायर पहले से ही सांख्यिकीय माप के परिणाम को महत्वपूर्ण रूप से प्रभावित करता है।

 1, \ 3, \ 5, \ 2, \ 79, \ 4, \ 8, \ 6 \quad \color{orange}\bm{\longrightarrow}\color{black}\quad \text{Valor at\'ipico: } 79

आमतौर पर, आउटलेर्स को स्कैटरप्लॉट्स में आसानी से पहचाना जा सकता है क्योंकि वे बाकी डेटा से अलग होते हैं। निम्नलिखित स्कैटरप्लॉट को देखें, बाहरी मान शेष मानों से बहुत अलग है:

आउटलेर्स या अन्य का स्कैटरप्लॉट

👉 आप किसी भी डेटा सेट के आउटलेर्स का पता लगाने के लिए नीचे दिए गए कैलकुलेटर का उपयोग कर सकते हैं।

आउटलेर्स की गणना कैसे करें

डेटा नमूने से आउटलेर्स की गणना करने के लिए, निम्नलिखित चरणों का पालन किया जाना चाहिए:

  1. डेटासेट के चतुर्थक की गणना करें.
  2. डेटा की अंतरचतुर्थक सीमा की गणना करें।
  3. असामान्य मूल्यों (आउटलेर्स) को वे मान माना जाएगा जो निम्नलिखित शर्तों में से किसी एक को पूरा करते हैं:

निम्नलिखित बॉक्सप्लॉट में, आप ग्राफ़िक रूप से दर्शाए गए इस मानदंड के अनुसार दो आउटलेर्स देख सकते हैं:

बॉक्सप्लॉट आउटलेर्स

ध्यान दें: ध्यान रखें कि सीमाएँ निर्धारित करने के लिए कई मानदंड हैं जिनके परे डेटा को आउटलेयर माना जाता है। इस लेख में, तुकी परीक्षण मानदंड को एक संदर्भ के रूप में लिया गया था, क्योंकि यह सबसे अधिक उपयोग किया जाता है।

आउटलेर्स का उदाहरण

आउटलेयर की परिभाषा पर विचार करते हुए, इस अनुभाग में हम डेटा श्रृंखला में आउटलेर्स की पहचान कैसे करें इसका एक व्यावहारिक उदाहरण देखेंगे।

  • निम्नलिखित सांख्यिकीय डेटा सेट से आउटलेर्स या आउटलेर्स की गणना करें।

सबसे पहले, हम डेटासेट के तीन चतुर्थक की गणना करते हैं:

Q_1=4,06

Q_2=4,38

Q_3=4,66

एक बार जब हम तीन चतुर्थक ज्ञात कर लेते हैं, तो हम चतुर्थक 3 घटा चतुर्थक 1 घटाकर अंतरचतुर्थक सीमा ज्ञात करते हैं:

IQR=Q_3-Q_1=4,66-4,06=0,6

और अब हम आउटलेर्स द्वारा निर्धारित सीमाओं की गणना करते हैं। ऐसा करने के लिए, हम उपरोक्त अनुभाग में बताए गए सूत्रों का उपयोग करते हैं:

Q_1-1,5\cdot IQR=4,06-1,5\cdot 0,6=3,16

Q_3+1,5\cdot IQR=4,66+1,5\cdot 0,6=5,56

इसलिए यदि कोई भी मान 3.16 से कम है, तो यह एक बाह्य है। इसी तरह, यदि कोई मान 5.56 से अधिक है, तो यह भी एक बाह्य है।

निष्कर्षतः, इस मामले में हमारे पास दो चरम मान हैं, क्योंकि 3.02, 3.16 से कम है और 5.71, 5.56 से अधिक है।

\text{Valores at\'ipicos} =\Bigl\{3,02 \ ; \ 5,71\Bigr\}

बाहरी कैलकुलेटर

इसके आउटलेर्स, यदि कोई हो, की गणना करने के लिए निम्नलिखित कैलकुलेटर में एक सांख्यिकीय डेटा सेट दर्ज करें। डेटा को एक स्थान से अलग किया जाना चाहिए और दशमलव विभाजक के रूप में अवधि का उपयोग करके दर्ज किया जाना चाहिए।

आउटलेर्स के कारण

आउटलेर्स के कई संभावित कारण हैं, जिनमें से सबसे आम हैं:

  • माप लेने के लिए उपयोग किया जाने वाला उपकरण टूट गया है या दुर्घटनाग्रस्त हो गया है।
  • मापे गए हिस्से में किसी असामान्य कारण से खराबी थी।
  • डेटा के प्रसारण या प्रतिलेखन में कोई त्रुटि उत्पन्न हुई है।
  • मानवीय भूल हुई थी. बरती जाने वाली सावधानियों के बावजूद, मानवीय त्रुटियाँ पूरी तरह से अपरिहार्य नहीं हैं और इसलिए असामान्य मूल्य अभी भी मौजूद हो सकते हैं।

ये सबसे आम कारण हैं, लेकिन जाहिर तौर पर कारण कुछ भी हो सकता है। इसी तरह, यह ध्यान में रखा जाना चाहिए कि जब एक सांख्यिकीय अध्ययन कई टिप्पणियों के साथ किया जाता है, तो कुछ आउटलेर्स का प्रकट होना सामान्य है।

आउटलेर्स का क्या करें

जब हमारा सामना किसी बाहरी चीज़ से होता है तो एक सामान्य प्रश्न यह होता है कि हमें इसके साथ क्या करना चाहिए। क्या आउटलेर्स को नमूने से हटा दिया जाना चाहिए?

ऐसा माना जाता है कि आउटलेर्स को हमेशा हटा देना चाहिए, क्योंकि वे ऐसे डेटा हैं जो सेट के बाकी हिस्सों से मेल नहीं खाते हैं। हालाँकि, भले ही आउटलेर्स कुछ सांख्यिकीय उपायों के परिणामों को बहुत प्रभावित करते हैं, इसका मतलब यह नहीं है कि उन्हें हमेशा समाप्त कर दिया जाना चाहिए।

सामान्य तौर पर, आउटलेर्स को केवल तभी हटाया जाना चाहिए यदि हम जानते हैं कि विसंगति का कारण वास्तव में उचित है और इसलिए, ये आउटलेर्स ऐसे अवलोकन हैं जो अध्ययन किए जा रहे से मेल नहीं खाते हैं।

यह छोटे नमूना आकारों में विशेष रूप से महत्वपूर्ण है, क्योंकि चरम मान तब सांख्यिकीय मैट्रिक्स को अधिक प्रभावित करते हैं।

उदाहरण के लिए, यदि गुणवत्ता नियंत्रण करने के लिए किसी उत्पाद के एक हिस्से की लंबाई मापी जाती है, तो तार्किक रूप से यदि किसी अन्य प्रकार का उत्पाद अचानक सामने आता है और उसी हिस्से को मापा जाता है, तो मापा गया मूल्य पिछले वाले से बहुत अलग होगा और संभवतः होगा एक बाहरी व्यक्ति बनें. इस मामले में, बाहरी बात को खारिज किया जा सकता है क्योंकि इसका कारण ज्ञात है और यह ज्ञात है कि मापा गया डेटा विश्लेषण की जाने वाली आबादी का हिस्सा नहीं है।

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *