संपूर्ण गाइड: डेटा में आउटलेर्स को कब हटाएं
आउटलायर एक ऐसा अवलोकन है जो डेटा सेट में अन्य मानों से असामान्य रूप से दूर होता है।
आउटलेर्स समस्याग्रस्त हो सकते हैं क्योंकि वे विश्लेषण के परिणामों को प्रभावित कर सकते हैं।
हालाँकि, वे आपके द्वारा अध्ययन किए गए डेटा में अंतर्दृष्टि भी प्रदान कर सकते हैं, क्योंकि वे असामान्य मामलों या दुर्लभ लक्षणों वाले व्यक्तियों को प्रकट कर सकते हैं।
किसी भी विश्लेषण में, आपको यह तय करना होगा कि आउटलेर्स को हटाना है या रखना है।
सौभाग्य से, आप निर्णय लेने में सहायता के लिए निम्नलिखित फ़्लोचार्ट का उपयोग कर सकते हैं:
आइए फ़्लोचार्ट में प्रत्येक प्रश्न पर करीब से नज़र डालें।
क्या बाह्य डेटा प्रविष्टि त्रुटि का परिणाम है?
कभी-कभी डेटा सेट में आउटलेयर केवल डेटा प्रविष्टि त्रुटि का परिणाम होते हैं।
उदाहरण के लिए, मान लीजिए कि एक जीवविज्ञानी एक निश्चित पौधे की प्रजाति की ऊंचाई पर डेटा एकत्र करता है और निम्नलिखित डेटा रिकॉर्ड करता है:
- 6.83 इंच
- 7.51 इंच
- 5.21 इंच
- 5.84 इंच
- 7.83 इंच
- 755 इंच
- 6.53 इंच
- 6.31 इंच
- 5.91 इंच
स्पष्ट रूप से 755 इंच की प्रविष्टि एक बाहरी चीज़ है और संभवतः डेटा प्रविष्टि त्रुटि का परिणाम है। अधिक संभावना है कि ऊँचाई 7.55 इंच होनी चाहिए थी, लेकिन इसे ग़लत तरीके से दर्ज किया गया था।
यदि जीवविज्ञानी ने यह अवलोकन रखा और नमूने में पौधों की औसत ऊंचाई जैसे एक वर्णनात्मक आंकड़े की गणना की, तो यह अवलोकन परिणामों को बहुत खराब कर देगा और वास्तविक औसत पौधे की ऊंचाई की गलत तस्वीर देगा।
इस परिदृश्य में (और इसके समान परिदृश्यों में), डेटा सेट से इस बाहरी हिस्से को हटाना समझ में आता है क्योंकि यह एक त्रुटि है और विश्लेषण में शामिल करने के लिए वैध डेटा बिंदु नहीं है।
क्या बाह्यता विश्लेषण परिणामों को महत्वपूर्ण रूप से प्रभावित करती है?
यदि कोई अवलोकन वास्तविक बाह्य है और केवल डेटा प्रविष्टि त्रुटि का परिणाम नहीं है, तो हमें यह जांचने की आवश्यकता है कि बाह्य वस्तु विश्लेषण के परिणामों को प्रभावित करती है या नहीं।
उदाहरण के लिए, मान लीजिए कि एक जीवविज्ञानी उर्वरक और पौधे की ऊंचाई के बीच संबंध का अध्ययन कर रहा है। वह भविष्यवक्ता चर के रूप में उर्वरक और प्रतिक्रिया चर के रूप में पौधे की ऊंचाई का उपयोग करके एक सरल रैखिक प्रतिगमन मॉडल फिट करना चाहती है।
यह 12 विभिन्न कारखानों के लिए निम्नलिखित डेटा एकत्र करता है:
यह स्पष्ट है कि अंतिम अवलोकन अप्रासंगिक है।
हालाँकि, यदि हम इस डेटा सेट की कल्पना करने के लिए एक स्कैटरप्लॉट बनाते हैं, तो हम देख सकते हैं कि प्रतिगमन रेखा बहुत अधिक नहीं बदलेगी चाहे हम बाहरी को शामिल करें या नहीं:
इस परिदृश्य में, बाह्य वास्तव में रैखिक प्रतिगमन मॉडल की किसी भी धारणा का उल्लंघन नहीं करता है, इसलिए हम इसे डेटासेट में रख सकते हैं।
हालाँकि, मान लीजिए कि हमारे पास डेटा में निम्नलिखित बातें हैं:
जाहिर है, यह आउटलायर रिग्रेशन लाइन को महत्वपूर्ण रूप से प्रभावित करता है, इसलिए हम एक रिग्रेशन मॉडल को आउटलायर के साथ और एक उसके बिना फिट कर सकते हैं, और फिर दोनों रिग्रेशन मॉडल के परिणामों की रिपोर्ट कर सकते हैं।
क्या बाहरी बातें विश्लेषण में बनी धारणाओं को प्रभावित करती हैं?
यदि आउटलायर डेटा प्रविष्टि त्रुटि का परिणाम नहीं है और विश्लेषण के परिणामों को महत्वपूर्ण रूप से प्रभावित नहीं करता है, तो हमें यह पूछना चाहिए कि क्या आउटलायर विश्लेषण में बनाई गई परिकल्पनाओं को प्रभावित करता है या नहीं। विश्लेषण।
यदि यह धारणाओं को प्रभावित नहीं करता है, तो हम इसे केवल डेटा में रख सकते हैं।
हालाँकि, यदि यह धारणाओं को प्रभावित करता है, तो हमारे पास कई विकल्प हैं:
1. इसे हटा दें. हम इसे आसानी से डेटा से हटा सकते हैं और परिणामों की रिपोर्ट करते समय इसे नोट कर सकते हैं।
2. डेटा पर परिवर्तन करें. बाह्य को हटाने के बजाय, हम डेटा पर परिवर्तन करने का प्रयास कर सकते हैं, उदाहरण के लिए डेटा में सभी मानों का वर्गमूल या लॉग लेना। यह आउटलेर्स को कम करने और अक्सर डेटा को अधिक सामान्य रूप से वितरित करने के लिए दिखाया गया है।
भले ही आप अपने डेटा में आउटलेर्स को संभालने का निर्णय कैसे लेते हैं, आपको अपने तर्क के साथ-साथ अपने विश्लेषण के परिणाम में अपना निर्णय नोट करना चाहिए।
अतिरिक्त संसाधन
निम्नलिखित ट्यूटोरियल बताते हैं कि विभिन्न सांख्यिकीय सॉफ़्टवेयर में आउटलेर्स को कैसे ढूंढें और हटाएं:
एक्सेल में आउटलेर्स कैसे खोजें
Google शीट्स में आउटलेर्स कैसे खोजें
आर में आउटलेर्स कैसे खोजें
पायथन में आउटलेर्स कैसे खोजें
एसपीएसएस में आउटलेर्स कैसे खोजें