समायोजित आर-वर्ग की व्याख्या कैसे करें (उदाहरण के साथ)
जब हम रैखिक प्रतिगमन मॉडल फिट करते हैं, तो हम अक्सर मॉडल के आर-वर्ग मान की गणना करते हैं।
आर-वर्ग मान प्रतिक्रिया चर में भिन्नता का अनुपात है जिसे मॉडल में भविष्यवक्ता चर द्वारा समझाया जा सकता है।
R वर्ग का मान 0 से 1 तक भिन्न हो सकता है जहाँ:
- 0 का मान इंगित करता है कि प्रतिक्रिया चर को भविष्यवक्ता चर द्वारा बिल्कुल भी समझाया नहीं जा सकता है।
- 1 का मान इंगित करता है कि प्रतिक्रिया चर को भविष्यवक्ता चर द्वारा पूरी तरह से समझाया जा सकता है।
हालाँकि इस मीट्रिक का उपयोग आमतौर पर यह मूल्यांकन करने के लिए किया जाता है कि एक प्रतिगमन मॉडल किसी डेटा सेट में कितनी अच्छी तरह फिट बैठता है, इसमें एक गंभीर खामी है:
आर-स्क्वायर का नुकसान:
जब प्रतिगमन मॉडल में एक नया भविष्यवक्ता चर जोड़ा जाता है तो आर-वर्ग हमेशा बढ़ेगा।
यहां तक कि अगर एक नए भविष्यवक्ता चर का प्रतिक्रिया चर से लगभग कोई संबंध नहीं है, तो मॉडल का आर-वर्ग मान बढ़ जाएगा, भले ही केवल थोड़ी मात्रा में।
इस कारण से, बड़ी संख्या में भविष्यवक्ता चर वाले प्रतिगमन मॉडल के लिए उच्च आर-वर्ग मान होना संभव है, भले ही मॉडल डेटा को अच्छी तरह से फिट न करे।
सौभाग्य से, आर-स्क्वायर का एक विकल्प है जिसे समायोजित आर-स्क्वायर कहा जाता है।
समायोजित आर-स्क्वायर आर-स्क्वायर का एक संशोधित संस्करण है जो एक प्रतिगमन मॉडल में भविष्यवक्ताओं की संख्या को समायोजित करता है।
इसकी गणना इस प्रकार की जाती है:
समायोजित आर 2 = 1 – [(1-आर 2 )*(एन-1)/(एनके-1)]
सोना:
- आर 2 : मॉडल का आर 2
- n : प्रेक्षणों की संख्या
- k : भविष्यवक्ता चर की संख्या
चूंकि जब आप किसी मॉडल में भविष्यवक्ता जोड़ते हैं तो आर-स्क्वायर हमेशा बढ़ता है, समायोजित आर-स्क्वायर आपको बता सकता है कि एक मॉडल कितना उपयोगी है, एक मॉडल में भविष्यवक्ताओं की संख्या के लिए समायोजित किया गया है।
समायोजित आर-वर्ग का लाभ:
समायोजित आर-वर्ग हमें बताता है कि किसी मॉडल में भविष्यवक्ताओं की संख्या के लिए समायोजित , भविष्यवक्ता चर का एक सेट प्रतिक्रिया चर में भिन्नता को समझाने में कितनी अच्छी तरह सक्षम है।
जिस तरह से इसकी गणना की जाती है, उसके कारण समायोजित आर-स्क्वायर का उपयोग विभिन्न संख्या में भविष्यवक्ता चर के साथ प्रतिगमन मॉडल के फिट की तुलना करने के लिए किया जा सकता है।
समायोजित आर-वर्ग को बेहतर ढंग से समझने के लिए, निम्नलिखित उदाहरण देखें।
उदाहरण: प्रतिगमन मॉडल में समायोजित आर-वर्ग को समझना
मान लीजिए कि एक प्रोफेसर अपनी कक्षा में छात्रों पर डेटा एकत्र करता है और यह समझने के लिए निम्नलिखित प्रतिगमन मॉडल को फिट करता है कि अध्ययन में बिताए गए घंटे और कक्षा में वर्तमान ग्रेड एक छात्र को अंतिम परीक्षा में प्राप्त ग्रेड को कैसे प्रभावित करते हैं।
परीक्षा स्कोर = β 0 + β 1 (अध्ययन में बिताए गए घंटे) + β 2 (वर्तमान ग्रेड)
आइए मान लें कि इस प्रतिगमन मॉडल में निम्नलिखित मीट्रिक हैं:
- आर वर्ग: 0.955
- समायोजित आर-वर्ग: 0.946
अब मान लीजिए कि शिक्षक प्रत्येक छात्र के लिए दूसरे चर पर डेटा एकत्र करने का निर्णय लेता है: जूते का आकार।
हालाँकि इस चर का अंतिम परीक्षा ग्रेड से कोई संबंध नहीं होना चाहिए, वह निम्नलिखित प्रतिगमन मॉडल को अनुकूलित करने का निर्णय लेता है:
परीक्षा स्कोर = β 0 + β 1 (पढ़ाई में बिताए गए घंटे) + β 2 (चालू वर्ष) + β 3 (जूते का आकार)
आइए मान लें कि इस प्रतिगमन मॉडल में निम्नलिखित मीट्रिक हैं:
- आर वर्ग: 0.965
- समायोजित आर-वर्ग: 0.902
यदि हम केवल इन दो प्रतिगमन मॉडलों में से प्रत्येक के लिए आर-वर्ग मानों को देखते हैं, तो हम यह निष्कर्ष निकालेंगे कि दूसरा मॉडल उपयोग करने के लिए बेहतर है क्योंकि इसमें उच्च आर-वर्ग मान है!
हालाँकि, यदि हम समायोजित आर-वर्ग मानों को देखते हैं, तो हम एक अलग निष्कर्ष पर आते हैं: पहले मॉडल का उपयोग करना बेहतर है क्योंकि इसमें समायोजित आर-वर्ग मान अधिक है।
दूसरे मॉडल में केवल उच्च आर-वर्ग मान है क्योंकि इसमें पहले मॉडल की तुलना में अधिक भविष्यवक्ता चर हैं।
हालाँकि, हमारे द्वारा जोड़ा गया भविष्यवक्ता चर (जूते का आकार) अंतिम परीक्षा स्कोर का एक खराब भविष्यवक्ता था, इसलिए समायोजित आर-वर्ग मान ने इस भविष्यवक्ता चर को जोड़ने के लिए मॉडल को दंडित किया।
यह उदाहरण बताता है कि अलग-अलग संख्या में भविष्यवक्ता चर के साथ प्रतिगमन मॉडल के फिट की तुलना करते समय समायोजित आर-स्क्वायर एक बेहतर मीट्रिक क्यों है।
अतिरिक्त संसाधन
निम्नलिखित ट्यूटोरियल बताते हैं कि विभिन्न सांख्यिकीय सॉफ़्टवेयर का उपयोग करके समायोजित आर-वर्ग मानों की गणना कैसे करें:
आर में समायोजित आर-वर्ग की गणना कैसे करें
एक्सेल में समायोजित आर-वर्ग की गणना कैसे करें
पायथन में समायोजित आर-वर्ग की गणना कैसे करें