एसपीएसएस में आउटलेर्स की पहचान कैसे करें


आउटलायर एक ऐसा अवलोकन है जो डेटा सेट में अन्य मानों से असामान्य रूप से दूर होता है। आउटलेर्स समस्याग्रस्त हो सकते हैं क्योंकि वे विश्लेषण के परिणामों को प्रभावित कर सकते हैं।

यह ट्यूटोरियल बताता है कि एसपीएसएस में आउटलेर्स को कैसे पहचानें और कैसे संभालें।

एसपीएसएस में आउटलेर्स की पहचान कैसे करें

मान लीजिए कि हमारे पास निम्नलिखित डेटासेट है जो 15 लोगों की वार्षिक आय (हजारों में) दिखाता है:

यह निर्धारित करने का एक तरीका है कि आउटलेर्स मौजूद हैं या नहीं, डेटा सेट के लिए एक बॉक्सप्लॉट बनाना है। ऐसा करने के लिए, विश्लेषण टैब पर क्लिक करें, फिर वर्णनात्मक सांख्यिकी , फिर अन्वेषण करें :

दिखाई देने वाली नई विंडो में, परिवर्तनीय आय को आश्रितों की सूची लेबल वाले बॉक्स में खींचें। फिर सांख्यिकी पर क्लिक करें और सुनिश्चित करें कि प्रतिशत के आगे वाला बॉक्स चेक किया गया है। फिर जारी रखें पर क्लिक करें. फिर ओके पर क्लिक करें.

एक बार जब आप ओके पर क्लिक करेंगे, तो एक बॉक्सप्लॉट दिखाई देगा:

एसपीएसएस में बॉक्सप्लॉट

यदि बॉक्सप्लॉट के दोनों छोर पर कोई वृत्त या तारांकन नहीं है, तो यह इंगित करता है कि कोई आउटलेयर मौजूद नहीं है।

SPSS किसी भी डेटा मान को बाहरी मानता है यदि वह निम्नलिखित सीमाओं से बाहर आता है:

  • तृतीय चतुर्थक + 1.5*अंतःचतुर्थक सीमा
  • प्रथम चतुर्थक – 1.5*अंतःचतुर्थक सीमा

हम परिणाम में तुकी हिंग्स लेबल वाली पंक्ति में 75वें और 25वें प्रतिशतक के बीच अंतर लेकर इंटरक्वेर्टाइल रेंज की गणना कर सकते हैं:

एसपीएसएस में टकीज़ हिंग्स की इंटरक्वेर्टाइल रेंज

इस डेटा सेट के लिए, अंतरचतुर्थक सीमा 82 – 36 = 46 है। इस प्रकार, निम्नलिखित श्रेणियों के बाहर के किसी भी मान को आउटलेयर माना जाएगा:

  • 82 + 1.5*46 = 151
  • 36 – 1.5*46 = -33

जाहिर है, आय नकारात्मक नहीं हो सकती, इसलिए इस उदाहरण में निचली सीमा उपयोगी नहीं है। हालाँकि, 151 से ऊपर की किसी भी आय को बाह्य माना जाएगा।

उदाहरण के लिए, मान लें कि हमारे डेटासेट में सबसे बड़ा मान 152 है। यहां उस डेटासेट के लिए बॉक्स प्लॉट है:

एसपीएसएस में आउटलेयर के साथ बॉक्सप्लॉट

वृत्त इंगित करता है कि डेटा में एक बाहरी वस्तु मौजूद है। संख्या 15 इंगित करती है कि डेटासेट में कौन सा अवलोकन बाहरी है।

एसपीएसएस किसी भी डेटा मान को अत्यधिक बाह्य मानता है यदि वह निम्नलिखित सीमाओं से बाहर आता है:

  • तृतीय चतुर्थक + 3*अंतःचतुर्थक श्रेणी
  • प्रथम चतुर्थक – 3*अंतःचतुर्थक श्रेणी

इसलिए निम्नलिखित श्रेणियों के बाहर के किसी भी मान को इस उदाहरण में अत्यधिक आउटलेयर माना जाएगा:

  • 82 + 3*46 = 220
  • 36 – 3*46 = -102

उदाहरण के लिए, मान लें कि हमारे डेटासेट में सबसे बड़ा मान 221 है। यहां इस डेटासेट का बॉक्स प्लॉट है:

एसपीएसएस में एक बॉक्सप्लॉट में अत्यधिक बाह्यता

तारांकन चिह्न (*) इंगित करता है कि डेटा में अत्यधिक बाह्यता मौजूद है। संख्या 15 इंगित करती है कि डेटासेट में कौन सा अवलोकन अत्यधिक बाहरी है।

आउटलेर्स को कैसे संभालें

यदि आपके डेटा में कोई बाहरी चीज़ मौजूद है, तो आपके पास कई विकल्प हैं:

1. सुनिश्चित करें कि बाहरी डेटा प्रविष्टि त्रुटि का परिणाम नहीं है।

कभी-कभी कोई व्यक्ति डेटा सहेजते समय गलत डेटा मान दर्ज कर देता है। यदि कोई बाहरी वस्तु मौजूद है, तो पहले सत्यापित करें कि मान सही ढंग से दर्ज किया गया था और यह कोई त्रुटि नहीं थी।

2. बाहरी हिस्से को हटा दें.

यदि मान वास्तव में एक बाहरी है, तो आप इसे हटाने का विकल्प चुन सकते हैं यदि इसका आपके समग्र विश्लेषण पर महत्वपूर्ण प्रभाव पड़ेगा। बस अपनी अंतिम रिपोर्ट या विश्लेषण में यह उल्लेख करना सुनिश्चित करें कि आपने एक बाहरी चीज़ हटा दी है।

3. आउटलेयर को एक नया मान निर्दिष्ट करें

यदि आउटलेयर डेटा प्रविष्टि त्रुटि का परिणाम बनता है, तो आप इसे एक नया मान निर्दिष्ट करने का निर्णय ले सकते हैं जैसे कि डेटा सेट का माध्य या माध्यिका

अतिरिक्त संसाधन

यदि आप एक साथ कई वेरिएबल्स के साथ काम कर रहे हैं, तो आप आउटलेर्स का पता लगाने के लिए महालनोबिस दूरी का उपयोग करना चाह सकते हैं।

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *