सांख्यिकी में एक प्रभावशाली अवलोकन क्या है?


आंकड़ों में, एक प्रभावशाली अवलोकन एक डेटा सेट में एक अवलोकन होता है, जिसे हटाए जाने पर, प्रतिगमन मॉडल के गुणांक अनुमान में महत्वपूर्ण परिवर्तन होता है।

अवलोकनों के प्रभाव को मापने का सबसे आम तरीका कुक की दूरी का उपयोग करना है, जो यह निर्धारित करता है कि i वें अवलोकन को हटा दिए जाने पर प्रतिगमन मॉडल में सभी फिट किए गए मान कितने बदल जाते हैं।

आम तौर पर, 1 से अधिक कुक दूरी वाले किसी भी अवलोकन को उच्च उत्तोलन अवलोकन माना जाता है।

निम्नलिखित उदाहरण दिखाता है कि संभावित प्रभावशाली टिप्पणियों का पता लगाने के लिए दिए गए डेटासेट के लिए कुक की दूरी की गणना और व्याख्या कैसे करें।

उदाहरण: प्रभावशाली टिप्पणियों का पता लगाना

मान लीजिए हमारे पास 14 मानों के साथ निम्नलिखित डेटा सेट है:

अब मान लीजिए कि हम एक सरल रैखिक प्रतिगमन मॉडल फिट करते हैं। प्रतिगमन परिणाम नीचे प्रस्तुत किया गया है:

सांख्यिकीय सॉफ़्टवेयर का उपयोग करके, हम प्रत्येक अवलोकन के लिए कुक की दूरी के लिए निम्नलिखित मानों की गणना कर सकते हैं:

ध्यान दें कि कुक की दूरी के लिए अंतिम अवलोकन का मान 1 से काफी अधिक है, जो हमें बताता है कि यह एक प्रभावशाली अवलोकन है।

मान लीजिए कि हम इस मान को डेटासेट से हटा देते हैं और एक नया सरल रैखिक प्रतिगमन मॉडल फिट करते हैं। इस मॉडल का आउटपुट नीचे दिखाया गया है:

ध्यान दें कि अवरोधन और x दोनों के लिए प्रतिगमन गुणांक नाटकीय रूप से बदल गए हैं। यह हमें बताता है कि डेटासेट से प्रभावशाली अवलोकन को हटाने से फिटेड रिग्रेशन मॉडल पूरी तरह से बदल गया है।

निम्नलिखित ग्राफ़ इन दो फिट प्रतिगमन समीकरणों के बीच अंतर दिखाते हैं:

ध्यान दें कि एकल प्रभावशाली अवलोकन प्रतिगमन रेखा को कितना बदलता है। इस अवलोकन को हटाकर, हम एक प्रतिगमन रेखा ढूंढने में सक्षम हुए जो डेटा को अधिक बारीकी से फिट करती है।

टिप्पणियाँ

यह ध्यान रखना महत्वपूर्ण है कि संभावित प्रभावशाली टिप्पणियों की पहचान करने के लिए कुक की दूरी का उपयोग किया जाना चाहिए। हालाँकि, सिर्फ इसलिए कि कोई अवलोकन प्रभावशाली है इसका मतलब यह नहीं है कि उसे डेटासेट से हटा दिया जाना चाहिए।

सबसे पहले, आपको यह सत्यापित करना होगा कि अवलोकन डेटा प्रविष्टि त्रुटि या अन्य अजीब घटना का परिणाम नहीं है। यदि यह वैध मूल्य साबित होता है, तो आप इसे निम्नलिखित में से किसी एक तरीके से व्यवहार करने का निर्णय ले सकते हैं:

  • इसे डेटासेट से हटा दें.
  • इसे डेटासेट में छोड़ दें.
  • इसे माध्य या माध्यिका जैसे वैकल्पिक मान से बदलें।

आपके विशिष्ट परिदृश्य के आधार पर, इनमें से एक विकल्प दूसरों की तुलना में अधिक सार्थक हो सकता है।

व्यवहार में रसोइये की दूरी की गणना कैसे करें

निम्नलिखित ट्यूटोरियल बताते हैं कि पायथन और आर में दिए गए डेटासेट के लिए कुक की दूरी की गणना कैसे करें:

पायथन में कुक की दूरी की गणना कैसे करें
आर में कुक की दूरी की गणना कैसे करें

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *