प्रतिगमन की मानक त्रुटि को समझना


जब हम एक प्रतिगमन मॉडल को डेटा सेट में फिट करते हैं, तो हम अक्सर इस बात में रुचि रखते हैं कि प्रतिगमन मॉडल डेटा सेट में कितनी अच्छी तरह “फिट” होता है। फिट की अच्छाई को मापने के लिए आमतौर पर उपयोग किए जाने वाले दो मेट्रिक्स में आर वर्ग ( आर 2 ) और प्रतिगमन की मानक त्रुटि शामिल है, जिसे अक्सर एस के रूप में दर्शाया जाता है।

यह ट्यूटोरियल बताता है कि प्रतिगमन (एस) की मानक त्रुटि की व्याख्या कैसे करें और साथ ही यह आर 2 की तुलना में अधिक उपयोगी जानकारी क्यों प्रदान कर सकता है।

प्रतिगमन में मानक त्रुटि बनाम आर-वर्ग

मान लीजिए कि हमारे पास एक सरल डेटासेट है जो दिखाता है कि एक महत्वपूर्ण परीक्षा तक पहुंचने के लिए 12 छात्रों ने एक महीने तक प्रति दिन कितने घंटे अध्ययन किया, साथ ही उनका परीक्षा स्कोर भी दिखाया:

यदि हम एक्सेल में इस डेटासेट में एक सरल रैखिक प्रतिगमन मॉडल फिट करते हैं, तो हमें निम्नलिखित परिणाम प्राप्त होते हैं:

आर वर्ग प्रतिक्रिया चर में भिन्नता का अनुपात है जिसे भविष्यवक्ता चर द्वारा समझाया जा सकता है। इस मामले में, परीक्षा के अंकों में 65.76% अंतर को पढ़ाई में बिताए गए घंटों की संख्या से समझाया जा सकता है।

प्रतिगमन की मानक त्रुटि प्रेक्षित मानों और प्रतिगमन रेखा के बीच की औसत दूरी है। इस मामले में, देखे गए मान प्रतिगमन रेखा से औसतन 4.89 इकाइयों तक विचलित होते हैं।

यदि हम वास्तविक डेटा बिंदुओं को प्रतिगमन रेखा के साथ प्लॉट करते हैं, तो हम इसे और अधिक स्पष्ट रूप से देख सकते हैं:

ध्यान दें कि कुछ अवलोकन प्रतिगमन रेखा के बहुत करीब होते हैं, जबकि अन्य नहीं। लेकिन औसतन, देखे गए मान प्रतिगमन रेखा से 4.19 इकाइयों से विचलित होते हैं।

प्रतिगमन की मानक त्रुटि विशेष रूप से उपयोगी है क्योंकि इसका उपयोग भविष्यवाणियों की सटीकता का मूल्यांकन करने के लिए किया जा सकता है। लगभग 95% अवलोकन प्रतिगमन की +/- दो मानक त्रुटियों के भीतर आना चाहिए, जो 95% भविष्यवाणी अंतराल का त्वरित अनुमान है।

यदि हम प्रतिगमन मॉडल का उपयोग करके भविष्यवाणियां करना चाहते हैं, तो प्रतिगमन की मानक त्रुटि आर-वर्ग की तुलना में जानने के लिए अधिक उपयोगी उपाय हो सकती है, क्योंकि यह हमें यह अंदाजा देती है कि इकाइयों के संदर्भ में हमारी भविष्यवाणियां कितनी सटीक हैं।

यह समझाने के लिए कि किसी मॉडल की “फिट” का आकलन करने के लिए प्रतिगमन की मानक त्रुटि अधिक उपयोगी उपाय क्यों हो सकती है, आइए एक अन्य उदाहरण डेटा सेट पर विचार करें जो दर्शाता है कि एक महत्वपूर्ण परीक्षा से पहले एक महीने तक 12 छात्रों ने प्रति दिन कितने घंटे अध्ययन किया। उनका परीक्षा परिणाम:

ध्यान दें कि यह बिल्कुल पहले जैसा ही डेटा सेट है, सिवाय इसके कि सभी एस-वैल्यू आधे हो गए हैं । इस प्रकार, इस डेटासेट में छात्रों ने पिछले डेटासेट में छात्रों की तुलना में ठीक आधा समय अध्ययन किया और परीक्षा ग्रेड का बिल्कुल आधा हिस्सा प्राप्त किया।

यदि हम एक्सेल में इस डेटासेट में एक सरल रैखिक प्रतिगमन मॉडल फिट करते हैं, तो हमें निम्नलिखित परिणाम प्राप्त होते हैं:

ध्यान दें कि 65.76% का आर वर्ग बिल्कुल पिछले उदाहरण के समान है।

हालाँकि, प्रतिगमन की मानक त्रुटि 2.095 है, जो पिछले उदाहरण में प्रतिगमन की मानक त्रुटि का ठीक आधा है।

यदि हम वास्तविक डेटा बिंदुओं को प्रतिगमन रेखा के साथ प्लॉट करते हैं, तो हम इसे और अधिक स्पष्ट रूप से देख सकते हैं:

ध्यान दें कि कैसे अवलोकन प्रतिगमन रेखा के आसपास अधिक निकटता से एकत्रित होते हैं। औसतन, देखे गए मान प्रतिगमन रेखा से 2,095 इकाइयों पर स्थित हैं।

इसलिए भले ही दोनों प्रतिगमन मॉडल में 65.76% का आर-वर्ग है, हम जानते हैं कि दूसरा मॉडल अधिक सटीक भविष्यवाणियां प्रदान करेगा क्योंकि इसमें कम प्रतिगमन मानक त्रुटि है।

मानक त्रुटि का उपयोग करने के लाभ

प्रतिगमन (एस) की मानक त्रुटि अक्सर मॉडल के आर वर्ग की तुलना में जानना अधिक उपयोगी होती है क्योंकि यह हमें वास्तविक इकाइयाँ देती है। यदि हम भविष्यवाणियाँ उत्पन्न करने के लिए एक प्रतिगमन मॉडल का उपयोग करना चाहते हैं, तो एस हमें बहुत आसानी से बता सकता है कि क्या कोई मॉडल भविष्यवाणी उद्देश्यों के लिए उपयोग करने के लिए पर्याप्त सटीक है।

उदाहरण के लिए, मान लीजिए कि हम 95% पूर्वानुमान अंतराल तैयार करना चाहते हैं जिसमें हम वास्तविक स्कोर के 6 अंकों के भीतर परीक्षा स्कोर की भविष्यवाणी कर सकते हैं।

हमारे पहले मॉडल का आर-वर्ग 65.76% है, लेकिन यह हमें हमारे पूर्वानुमान अंतराल की सटीकता के बारे में कुछ नहीं बताता है। सौभाग्य से, हम यह भी जानते हैं कि पहले मॉडल का S 4.19 है। इसका मतलब यह है कि 95% पूर्वानुमान अंतराल लगभग 2*4.19 = +/- 8.38 इकाई चौड़ा होगा, जो हमारे पूर्वानुमान अंतराल के लिए बहुत व्यापक है।

हमारे दूसरे मॉडल में भी 65.76% का आर-वर्ग है, लेकिन फिर, यह हमें हमारे पूर्वानुमान अंतराल की सटीकता के बारे में कुछ नहीं बताता है। हालाँकि, हम जानते हैं कि दूसरे मॉडल का S 2.095 है। इसका मतलब यह है कि 95% पूर्वानुमान अंतराल लगभग 2*2.095 = +/- 4.19 इकाई चौड़ा होगा, जो 6 से कम है और इसलिए पूर्वानुमान अंतराल उत्पन्न करने के लिए उपयोग किए जाने के लिए पर्याप्त सटीक है।

अग्रिम पठन

सरल रेखीय प्रतिगमन का परिचय
एक अच्छा आर-वर्ग मान क्या है?

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *