मानकीकृत अवशेष क्या हैं?


अवशिष्ट एक प्रतिगमन मॉडल में देखे गए मूल्य और अनुमानित मूल्य के बीच का अंतर है।

इसकी गणना इस प्रकार की जाती है:

अवशिष्ट = प्रेक्षित मूल्य – अनुमानित मूल्य

यदि हम देखे गए मानों को प्लॉट करते हैं और फिटेड रिग्रेशन लाइन को सुपरइम्पोज़ करते हैं, तो प्रत्येक अवलोकन के लिए अवशेष अवलोकन और रिग्रेशन लाइन के बीच ऊर्ध्वाधर दूरी होगी:

सांख्यिकी में अवशिष्ट का उदाहरण

एक प्रकार का अवशिष्ट जिसे हम अक्सर प्रतिगमन मॉडल में आउटलेर्स की पहचान करने के लिए उपयोग करते हैं , मानकीकृत अवशिष्ट कहा जाता है।

इसकी गणना इस प्रकार की जाती है:

आर आई = ई आई / एस(ई आई ) = आई / आरएसई√ 1-एच ii

सोना:

  • e i : i वां अवशेष
  • आरएसई: मॉडल की अवशिष्ट मानक त्रुटि
  • h ii : ith अवलोकन का उदय

व्यवहार में, हम अक्सर किसी भी मानकीकृत अवशिष्ट पर विचार करते हैं जिसका पूर्ण मूल्य 3 से अधिक है।

इसका मतलब यह नहीं है कि हम इन टिप्पणियों को मॉडल से हटा देंगे, लेकिन हमें यह सत्यापित करने के लिए कम से कम उनका आगे अध्ययन करना चाहिए कि वे डेटा प्रविष्टि त्रुटि या किसी अन्य अजीब घटना का परिणाम नहीं हैं।

नोट: कभी-कभी मानकीकृत अवशेषों को “इन-हाउस अध्ययनित अवशेष” भी कहा जाता है।

उदाहरण: मानकीकृत अवशेषों की गणना कैसे करें

मान लीजिए कि हमारे पास कुल 12 अवलोकनों के साथ निम्नलिखित डेटासेट हैं:

यदि हम इस डेटा सेट में एक रेखीय प्रतिगमन रेखा को फिट करने के लिए सांख्यिकीय सॉफ़्टवेयर (जैसे आर , एक्सेल , पायथन , स्टेटा , आदि) का उपयोग करते हैं, तो हम पाएंगे कि सबसे अच्छी फिट की रेखा इस प्रकार है:

y = 29.63 + 0.7553x

इस पंक्ति का उपयोग करके, हम X के मान के आधार पर प्रत्येक Y मान के लिए अनुमानित मान की गणना कर सकते हैं। उदाहरण के लिए, पहले अवलोकन का अनुमानित मान होगा:

y = 29.63 + 0.7553*(8) = 35.67

फिर हम इस अवलोकन के लिए शेष की गणना इस प्रकार कर सकते हैं:

अवशिष्ट = प्रेक्षित मूल्य – अनुमानित मूल्य = 41 – 35.67 = 5.33

हम प्रत्येक अवलोकन के लिए अवशेष खोजने के लिए इस प्रक्रिया को दोहरा सकते हैं:

अवशेषों की गणना कैसे करें

हम यह पता लगाने के लिए सांख्यिकीय सॉफ़्टवेयर का भी उपयोग कर सकते हैं कि मॉडल की अवशिष्ट मानक त्रुटि 4.44 है।

और, यद्यपि यह इस ट्यूटोरियल के दायरे से परे है, हम प्रत्येक अवलोकन के लिए उत्तोलन आँकड़ा (एच ii ) खोजने के लिए सॉफ़्टवेयर का उपयोग कर सकते हैं:

फिर हम प्रत्येक अवलोकन के लिए मानकीकृत अवशिष्ट की गणना करने के लिए निम्नलिखित सूत्र का उपयोग कर सकते हैं:

आर आई = आई / आरएसई√ 1-एच ii

उदाहरण के लिए, पहले अवलोकन के लिए मानकीकृत अवशेष की गणना निम्नानुसार की जाती है:

आर आई = 5.33 / 4.44√ 1-0.27 = 1.404

हम प्रत्येक अवलोकन के लिए मानकीकृत अवशेष खोजने के लिए इस प्रक्रिया को दोहरा सकते हैं:

मानकीकृत अवशेषों की गणना का उदाहरण

फिर हम यह देखने के लिए मानकीकृत अवशेषों के विरुद्ध पूर्वानुमानित मूल्यों का एक त्वरित स्कैटरप्लॉट बना सकते हैं कि क्या मानकीकृत अवशेषों में से कोई भी 3 की पूर्ण मूल्य सीमा से अधिक है:

पूर्वानुमानित मूल्यों बनाम मानकीकृत अवशेषों का प्लॉट

ग्राफ़ से, हम देख सकते हैं कि कोई भी मानकीकृत अवशेष 3 के निरपेक्ष मान से अधिक नहीं है। इस प्रकार, कोई भी अवलोकन आउटलेयर प्रतीत नहीं होता है।

यह ध्यान दिया जाना चाहिए कि कुछ मामलों में, शोधकर्ता उन टिप्पणियों पर विचार करते हैं जिनके मानकीकृत अवशेष 2 के निरपेक्ष मान से अधिक हो जाते हैं।

आप जिस क्षेत्र में काम कर रहे हैं और जिस विशिष्ट समस्या पर आप काम कर रहे हैं, उसके आधार पर यह आप पर निर्भर करता है कि आप आउटलेर्स के लिए अपनी सीमा के रूप में 2 या 3 के पूर्ण मान का उपयोग करना चाहते हैं या नहीं।

अतिरिक्त संसाधन

निम्नलिखित ट्यूटोरियल मानकीकृत अवशेषों के बारे में अतिरिक्त जानकारी प्रदान करते हैं:

सांख्यिकी में अवशेष क्या हैं?
एक्सेल में मानकीकृत अवशेषों की गणना कैसे करें
आर में मानकीकृत अवशेषों की गणना कैसे करें
पायथन में मानकीकृत अवशेषों की गणना कैसे करें

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *