डेटा कैसे जीतें: परिभाषा और उदाहरण


विंसोराइज़िंग डेटा का अर्थ है डेटा के एक निर्दिष्ट प्रतिशत के बराबर चरम आउटलेयर सेट करना।

उदाहरण के लिए, 90% विंसोराइज़ेशन 95वें प्रतिशतक से ऊपर के सभी अवलोकनों को 95वें प्रतिशतक के मान के बराबर और 5वें प्रतिशतक के नीचे के सभी अवलोकनों को 5वें प्रतिशतक के मान के बराबर सेट करता है।

दरअसल, डेटा को विंसोराइज़ करने का अर्थ है डेटा सेट के चरम मूल्यों को कम चरम मूल्यों में बदलना।

उदाहरण: डेटा को कैसे विंसोराइज़ करें

मान लीजिए हमारे पास निम्नलिखित डेटा सेट है:

 3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98

इस डेटासेट पर 90% विंसोराइजेशन करने के लिए, हम पहले 5वां प्रतिशतक और 95वां प्रतिशतक ढूंढेंगे, जो इस प्रकार हैं:

  • 5वां प्रतिशतक: 12.35
  • 95वां प्रतिशतक: 92.05

फिर हम 12.35 से कम के सभी मानों को 12.35 के बराबर और 92.05 से अधिक के सभी मानों को 92.05 के बराबर सेट करेंगे:

 12.35, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 92.05

इस स्थिति में, मान 3 12.35 हो गया और मान 98 92.05 हो गया।

विंसोराइज़ डेटा क्यों?

माध्य और मानक विचलन क्रमशः डेटा सेट के केंद्र के स्थान और डेटा सेट में अवलोकनों के वितरण को मापने के लिए दो सामान्य तरीके हैं।

हालाँकि, ये दोनों उपाय अत्यधिक आउटलेर्स से प्रभावित हो सकते हैं। इस प्रकार, डेटा को विनसोराइज़ करने से हमें कम चरम मूल्यों के बराबर चरम आउटलेर्स को परिभाषित करने की अनुमति मिलती है।

यह अक्सर हमें डेटा सेट के माध्य और मानक विचलन का अधिक सटीक दृश्य प्राप्त करने की अनुमति देता है।

प्लम गोल्ड विन्सोराइज़

आउटलेर्स से निपटने का एक और सामान्य तरीका उन्हें डेटासेट से हटाना है, जिसका अर्थ है उन्हें पूरी तरह से हटाना।

उदाहरण के लिए, पिछले डेटासेट पर विचार करें:

 3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98

यदि हम 5वें प्रतिशतक से नीचे या 95वें प्रतिशतक से ऊपर के मूल्यों को कम करना चाहते हैं, तो हम बस 3 और 98 के मूल्यों को हटा देंगे।

स्लाइसिंग या विंसोराइजेशन का उपयोग कब करना है इसके लिए यहां कुछ सामान्य नियम दिए गए हैं:

ट्रिमिंग: डेटा मानों को ट्रिम करना तब समझ में आता है जब कुछ मान पूरी तरह से अनुचित लगते हैं, यानी, वे डेटा प्रविष्टि त्रुटि का परिणाम हैं।

विंसोराइज़ेशन: डेटा को विंसोराइज़ करना तब समझ में आता है जब हम उन टिप्पणियों को रखना चाहते हैं जो चरम सीमा पर हैं, लेकिन उन्हें बहुत शाब्दिक रूप से नहीं लेना चाहते हैं।

डेटा के विंसोराइजेशन के संबंध में सावधानियां

डेटा हासिल करने का निर्णय लेते समय ध्यान रखने योग्य कुछ बातें यहां दी गई हैं:

1. यदि कोई चरम आउटलेयर नहीं हैं, तो डेटा को विंसोराइज़ करने से केवल सबसे छोटे और सबसे बड़े मानों में थोड़ा बदलाव आएगा। यह आम तौर पर एक अच्छा विचार नहीं है क्योंकि इसका मतलब है कि हम केवल डेटा मानों को बदलने के एकमात्र उद्देश्य के लिए बदल रहे हैं।

2. आउटलेयर डेटा में दिलचस्प बढ़त वाले मामलों का प्रतिनिधित्व कर सकते हैं। इसलिए, इससे पहले कि आप आउटलेर्स को संपादित करें, उन पर करीब से नज़र डालना एक अच्छा विचार है कि उनके कारण क्या हो सकते हैं।

3. आपको यह निर्णय लेना चाहिए कि डेटा संग्रह के बाद डेटा को विंसोराइज़ करना है या नहीं, पहले नहीं। विंसोराइज़ करने का निर्णय लेने से पहले आपको यह देखना चाहिए कि क्या वास्तव में कोई अत्यधिक आउटलेयर हैं। यदि कोई चरम आउटलेयर मौजूद नहीं है, तो विंसोराइज़ेशन अनावश्यक हो सकता है।

ट्यूटोरियल: एक्सेल में डेटा विंसोराइज़ करें

एक्सेल में डेटा सेट को विंसोराइज़ करने के चरण-दर-चरण उदाहरण के लिए इस ट्यूटोरियल का संदर्भ लें।

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *