एक अच्छा आर-वर्ग मान क्या है?


आर-स्क्वायर मापता है कि एक रैखिक प्रतिगमन मॉडल एक डेटा सेट में कितनी अच्छी तरह “फिट” होता है। इसे आमतौर पर निर्धारण का गुणांक भी कहा जाता है, आर-वर्ग प्रतिक्रिया चर में भिन्नता का अनुपात है जिसे भविष्यवक्ता चर द्वारा समझाया जा सकता है।

आर-वर्ग मान 0 से 1 तक हो सकता है। 0 का मान इंगित करता है कि प्रतिक्रिया चर को भविष्यवक्ता चर द्वारा बिल्कुल भी समझाया नहीं जा सकता है। 1 का मान इंगित करता है कि प्रतिक्रिया चर को भविष्यवक्ता चर द्वारा त्रुटि के बिना पूरी तरह से समझाया जा सकता है।

व्यवहार में, आपको संभवतः R-वर्ग के लिए 0 या 1 का मान कभी नहीं दिखेगा। इसके बजाय, आपको संभवतः 0 और 1 के बीच मान का सामना करना पड़ेगा।

उदाहरण के लिए, मान लें कि आपके पास एक डेटासेट है जिसमें 30 अलग-अलग शहरों में जनसंख्या का आकार और फूल विक्रेताओं की संख्या शामिल है। आप जनसंख्या आकार को भविष्यवक्ता चर के रूप में और फूलों को प्रतिक्रिया चर के रूप में उपयोग करके डेटा सेट में एक सरल रैखिक प्रतिगमन मॉडल फिट करते हैं। प्रतिगमन परिणामों के परिणाम में आप देखते हैं कि R 2 = 0.2। इससे पता चलता है कि फूल विक्रेताओं की संख्या में 20% अंतर को जनसंख्या के आकार से समझाया जा सकता है।

यह हमें एक महत्वपूर्ण प्रश्न पर लाता है: क्या यह आर-स्क्वायर के लिए “अच्छा” मूल्य है?

इस प्रश्न का उत्तर प्रतिगमन मॉडल के लिए आपके लक्ष्य पर निर्भर करता है। जानने के:

1. क्या आप भविष्यवक्ता(ओं) और प्रतिक्रिया चर के बीच संबंध को समझाना चाहेंगे?

सोना

2. क्या आप प्रतिक्रिया चर की भविष्यवाणी करना चाहते हैं?

उद्देश्य के आधार पर, प्रश्न का उत्तर “R वर्ग के लिए अच्छा मान क्या है?” “अलग होगा.

भविष्यवक्ता(ओं) और प्रतिक्रिया चर के बीच संबंध स्पष्ट करें

यदि आपके प्रतिगमन मॉडल के लिए आपका प्राथमिक लक्ष्य भविष्यवक्ता और प्रतिक्रिया चर के बीच संबंध को समझाना है, तो आर-वर्ग वस्तुतः अप्रासंगिक है।

उदाहरण के लिए, मान लें कि उपरोक्त प्रतिगमन उदाहरण में आप देखते हैं कि पूर्वानुमानित जनसंख्या आकार का गुणांक 0.005 है और यह सांख्यिकीय रूप से महत्वपूर्ण है। इसका मतलब यह है कि जनसंख्या में एक की वृद्धि किसी शहर में फूल विक्रेताओं की संख्या में 0.005 की औसत वृद्धि के साथ जुड़ी हुई है। इसके अतिरिक्त, जनसंख्या का आकार किसी शहर में फूल विक्रेताओं की संख्या का सांख्यिकीय रूप से महत्वपूर्ण संकेतक है।

चाहे इस प्रतिगमन मॉडल का आर-वर्ग मान 0.2 है या 0.9, इस व्याख्या को नहीं बदलता है। चूँकि आप केवल जनसंख्या के आकार और फूल विक्रेताओं की संख्या के बीच संबंध में रुचि रखते हैं, इसलिए आपको मॉडल के आर-वर्ग मूल्य के बारे में बहुत अधिक चिंता करने की आवश्यकता नहीं है।

प्रतिक्रिया चर की भविष्यवाणी करें

यदि आपका प्राथमिक लक्ष्य भविष्यवक्ता चर का उपयोग करके प्रतिक्रिया चर के मूल्य का सटीक अनुमान लगाना है, तो आर-वर्ग महत्वपूर्ण है।

सामान्य तौर पर, आर-वर्ग मान जितना बड़ा होगा, भविष्यवक्ता चर उतनी ही सटीकता से प्रतिक्रिया चर के मूल्य की भविष्यवाणी करने में सक्षम होंगे।

आर-वर्ग मान के लिए आवश्यक मान आपके लिए आवश्यक परिशुद्धता पर निर्भर करता है। उदाहरण के लिए, वैज्ञानिक अध्ययनों में, किसी प्रतिगमन मॉडल को विश्वसनीय माने जाने के लिए आर-वर्ग का 0.95 से अधिक होना आवश्यक हो सकता है। अन्य क्षेत्रों में, यदि डेटा सेट में अत्यधिक परिवर्तनशीलता है तो केवल 0.3 का आर वर्ग पर्याप्त हो सकता है।

यह जानने के लिए कि “अच्छा” आर-वर्ग मान क्या माना जाता है, आपको यह पता लगाना होगा कि आपके अध्ययन के विशेष क्षेत्र में कौन से आर-वर्ग मान आम तौर पर स्वीकार किए जाते हैं। यदि आप किसी ग्राहक या कंपनी के लिए प्रतिगमन विश्लेषण कर रहे हैं, तो आप उनसे पूछ सकते हैं कि स्वीकार्य आर-वर्ग मान क्या माना जाता है।

पूर्वानुमान अंतराल

एक पूर्वानुमान अंतराल एक सीमा निर्दिष्ट करता है जिसके भीतर भविष्यवक्ता चर के मूल्यों के आधार पर एक नया अवलोकन गिर सकता है। संकीर्ण भविष्यवाणी अंतराल से संकेत मिलता है कि भविष्यवक्ता चर प्रतिक्रिया चर की अधिक सटीक भविष्यवाणी कर सकते हैं।

अक्सर एक पूर्वानुमान अंतराल आर-वर्ग मान से अधिक उपयोगी हो सकता है क्योंकि यह आपको मूल्यों की एक सटीक सीमा देता है जिसके भीतर एक नया अवलोकन आ सकता है। यह विशेष रूप से उपयोगी है यदि आपका प्रतिगमन का प्राथमिक लक्ष्य प्रतिक्रिया चर के नए मूल्यों की भविष्यवाणी करना है।

उदाहरण के लिए, मान लें कि 40,000 की आबादी किसी विशेष शहर में 30 से 35 फूल विक्रेताओं का पूर्वानुमान अंतराल उत्पन्न करती है। प्रतिगमन मॉडल के उपयोग के आधार पर इसे मूल्यों की स्वीकार्य सीमा माना जा सकता है या नहीं भी।

निष्कर्ष

सामान्य तौर पर, आर-वर्ग मान जितना बड़ा होगा, भविष्यवक्ता चर उतनी ही सटीकता से प्रतिक्रिया चर के मूल्य की भविष्यवाणी करने में सक्षम होंगे।

“अच्छा” माने जाने के लिए R-वर्ग मान कितना अच्छा होना चाहिए, यह डोमेन पर निर्भर करता है। कुछ क्षेत्रों को दूसरों की तुलना में अधिक परिशुद्धता की आवश्यकता होती है।

यह पता लगाने के लिए कि “अच्छा” आर-स्क्वायर मान क्या माना जाता है, इस पर विचार करें कि जिस क्षेत्र में आप काम करते हैं उसमें आम तौर पर क्या स्वीकार किया जाता है, किसी विशिष्ट क्षेत्र में विशिष्ट ज्ञान रखने वाले किसी व्यक्ति से पूछें, या क्लाइंट/ग्राहक से पूछें। जिस कंपनी के लिए आप प्रतिगमन विश्लेषण कर रहे हैं। जिसे वे स्वीकार्य मानते हैं।

यदि आप भविष्यवक्ता और प्रतिक्रिया चर के बीच संबंध को समझाना चाहते हैं, तो आर-स्क्वायर काफी हद तक अप्रासंगिक है क्योंकि इसका प्रतिगमन मॉडल की व्याख्या पर कोई प्रभाव नहीं पड़ता है।

यदि आप प्रतिक्रिया चर की भविष्यवाणी करना चाहते हैं, तो भविष्यवाणी अंतराल आम तौर पर आर-वर्ग मानों की तुलना में अधिक उपयोगी होते हैं।

अग्रिम पठन:

पियर्सन सहसंबंध गुणांक
सरल रेखीय प्रतिगमन का परिचय

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *