एसपीएसएस में आउटलेर्स की पहचान कैसे करें
आउटलायर एक ऐसा अवलोकन है जो डेटा सेट में अन्य मानों से असामान्य रूप से दूर होता है। आउटलेर्स समस्याग्रस्त हो सकते हैं क्योंकि वे विश्लेषण के परिणामों को प्रभावित कर सकते हैं।
यह ट्यूटोरियल बताता है कि एसपीएसएस में आउटलेर्स को कैसे पहचानें और कैसे संभालें।
एसपीएसएस में आउटलेर्स की पहचान कैसे करें
मान लीजिए कि हमारे पास निम्नलिखित डेटासेट है जो 15 लोगों की वार्षिक आय (हजारों में) दिखाता है:
यह निर्धारित करने का एक तरीका है कि आउटलेर्स मौजूद हैं या नहीं, डेटा सेट के लिए एक बॉक्सप्लॉट बनाना है। ऐसा करने के लिए, विश्लेषण टैब पर क्लिक करें, फिर वर्णनात्मक सांख्यिकी , फिर अन्वेषण करें :
दिखाई देने वाली नई विंडो में, परिवर्तनीय आय को आश्रितों की सूची लेबल वाले बॉक्स में खींचें। फिर सांख्यिकी पर क्लिक करें और सुनिश्चित करें कि प्रतिशत के आगे वाला बॉक्स चेक किया गया है। फिर जारी रखें पर क्लिक करें. फिर ओके पर क्लिक करें.
एक बार जब आप ओके पर क्लिक करेंगे, तो एक बॉक्सप्लॉट दिखाई देगा:
यदि बॉक्सप्लॉट के दोनों छोर पर कोई वृत्त या तारांकन नहीं है, तो यह इंगित करता है कि कोई आउटलेयर मौजूद नहीं है।
SPSS किसी भी डेटा मान को बाहरी मानता है यदि वह निम्नलिखित सीमाओं से बाहर आता है:
- तृतीय चतुर्थक + 1.5*अंतःचतुर्थक सीमा
- प्रथम चतुर्थक – 1.5*अंतःचतुर्थक सीमा
हम परिणाम में तुकी हिंग्स लेबल वाली पंक्ति में 75वें और 25वें प्रतिशतक के बीच अंतर लेकर इंटरक्वेर्टाइल रेंज की गणना कर सकते हैं:
इस डेटा सेट के लिए, अंतरचतुर्थक सीमा 82 – 36 = 46 है। इस प्रकार, निम्नलिखित श्रेणियों के बाहर के किसी भी मान को आउटलेयर माना जाएगा:
- 82 + 1.5*46 = 151
- 36 – 1.5*46 = -33
जाहिर है, आय नकारात्मक नहीं हो सकती, इसलिए इस उदाहरण में निचली सीमा उपयोगी नहीं है। हालाँकि, 151 से ऊपर की किसी भी आय को बाह्य माना जाएगा।
उदाहरण के लिए, मान लें कि हमारे डेटासेट में सबसे बड़ा मान 152 है। यहां उस डेटासेट के लिए बॉक्स प्लॉट है:
वृत्त इंगित करता है कि डेटा में एक बाहरी वस्तु मौजूद है। संख्या 15 इंगित करती है कि डेटासेट में कौन सा अवलोकन बाहरी है।
एसपीएसएस किसी भी डेटा मान को अत्यधिक बाह्य मानता है यदि वह निम्नलिखित सीमाओं से बाहर आता है:
- तृतीय चतुर्थक + 3*अंतःचतुर्थक श्रेणी
- प्रथम चतुर्थक – 3*अंतःचतुर्थक श्रेणी
इसलिए निम्नलिखित श्रेणियों के बाहर के किसी भी मान को इस उदाहरण में अत्यधिक आउटलेयर माना जाएगा:
- 82 + 3*46 = 220
- 36 – 3*46 = -102
उदाहरण के लिए, मान लें कि हमारे डेटासेट में सबसे बड़ा मान 221 है। यहां इस डेटासेट का बॉक्स प्लॉट है:
तारांकन चिह्न (*) इंगित करता है कि डेटा में अत्यधिक बाह्यता मौजूद है। संख्या 15 इंगित करती है कि डेटासेट में कौन सा अवलोकन अत्यधिक बाहरी है।
आउटलेर्स को कैसे संभालें
यदि आपके डेटा में कोई बाहरी चीज़ मौजूद है, तो आपके पास कई विकल्प हैं:
1. सुनिश्चित करें कि बाहरी डेटा प्रविष्टि त्रुटि का परिणाम नहीं है।
कभी-कभी कोई व्यक्ति डेटा सहेजते समय गलत डेटा मान दर्ज कर देता है। यदि कोई बाहरी वस्तु मौजूद है, तो पहले सत्यापित करें कि मान सही ढंग से दर्ज किया गया था और यह कोई त्रुटि नहीं थी।
2. बाहरी हिस्से को हटा दें.
यदि मान वास्तव में एक बाहरी है, तो आप इसे हटाने का विकल्प चुन सकते हैं यदि इसका आपके समग्र विश्लेषण पर महत्वपूर्ण प्रभाव पड़ेगा। बस अपनी अंतिम रिपोर्ट या विश्लेषण में यह उल्लेख करना सुनिश्चित करें कि आपने एक बाहरी चीज़ हटा दी है।
3. आउटलेयर को एक नया मान निर्दिष्ट करें ।
यदि आउटलेयर डेटा प्रविष्टि त्रुटि का परिणाम बनता है, तो आप इसे एक नया मान निर्दिष्ट करने का निर्णय ले सकते हैं जैसे कि डेटा सेट का माध्य या माध्यिका ।
अतिरिक्त संसाधन
यदि आप एक साथ कई वेरिएबल्स के साथ काम कर रहे हैं, तो आप आउटलेर्स का पता लगाने के लिए महालनोबिस दूरी का उपयोग करना चाह सकते हैं।