प्रतिगमन मॉडल में महत्वपूर्ण चर का निर्धारण कैसे करें


एक मुख्य प्रश्न जो आप एकाधिक रेखीय प्रतिगमन मॉडल को फिट करने के बाद खुद से पूछेंगे वह है: कौन से चर महत्वपूर्ण हैं?

ऐसी दो विधियाँ हैं जिनका उपयोग आपको किसी चर का अर्थ निर्धारित करने के लिए नहीं करना चाहिए :

1. प्रतिगमन गुणांक का मान

किसी दिए गए भविष्यवक्ता चर के लिए एक प्रतिगमन गुणांक आपको उस भविष्यवक्ता चर में एक-इकाई वृद्धि के साथ जुड़े प्रतिक्रिया चर में औसत परिवर्तन बताता है।

हालाँकि, एक मॉडल में प्रत्येक भविष्यवक्ता चर को आमतौर पर एक अलग पैमाने पर मापा जाता है। इसलिए यह निर्धारित करने के लिए कि कौन से चर सबसे महत्वपूर्ण हैं, प्रतिगमन गुणांक के पूर्ण मूल्यों की तुलना करने का कोई मतलब नहीं है।

2. प्रतिगमन गुणांक का पी-मान

प्रतिगमन गुणांक के पी-मान आपको बता सकते हैं कि क्या किसी दिए गए भविष्यवक्ता चर का प्रतिक्रिया चर के साथ सांख्यिकीय रूप से महत्वपूर्ण संबंध है, लेकिन वे आपको यह नहीं बता सकते हैं कि कोई दिया गया भविष्यवक्ता चर वास्तविक दुनिया में व्यावहारिक रूप से महत्वपूर्ण है या नहीं।

बड़े नमूना आकार या कम परिवर्तनशीलता के कारण पी मान भी कम हो सकते हैं, जो वास्तव में हमें यह नहीं बताता है कि दिया गया भविष्यवक्ता चर व्यवहार में सार्थक है या नहीं।

हालाँकि, वेरिएबल्स का अर्थ निर्धारित करने के लिए आपको दो तरीकों का उपयोग करना चाहिए :

1. मानकीकृत प्रतिगमन गुणांक

आमतौर पर, जब हम एकाधिक रैखिक प्रतिगमन करते हैं, तो मॉडल आउटपुट में परिणामी प्रतिगमन गुणांक मानकीकृत नहीं होते हैं, जिसका अर्थ है कि वे सर्वोत्तम-फिट लाइन खोजने के लिए कच्चे डेटा का उपयोग करते हैं।

हालाँकि, प्रत्येक भविष्यवक्ता चर और प्रतिक्रिया चर को मानकीकृत करना संभव है (प्रत्येक चर के औसत मूल्य को मूल मूल्यों से घटाकर और फिर इसे चर के मानक विचलन द्वारा विभाजित करके) और फिर एक प्रतिगमन चलाएं, जिसके परिणामस्वरूप मानकीकृत प्रतिगमन गुणांक

मॉडल में प्रत्येक चर को मानकीकृत करके, प्रत्येक चर को एक ही पैमाने पर मापा जाता है। इसलिए यह समझने के लिए कि कौन से चर प्रतिक्रिया चर पर सबसे अधिक प्रभाव डालते हैं, परिणामों में प्रतिगमन गुणांक के पूर्ण मूल्यों की तुलना करना समझ में आता है।

2. विषय वस्तु विशेषज्ञता

यद्यपि पी-मान आपको बता सकते हैं कि किसी दिए गए भविष्यवक्ता चर और प्रतिक्रिया चर के बीच सांख्यिकीय रूप से महत्वपूर्ण प्रभाव है या नहीं, यह पुष्टि करने के लिए विषय वस्तु विशेषज्ञता की आवश्यकता है कि क्या एक भविष्यवक्ता चर वास्तव में प्रासंगिक है और वास्तव में एक मॉडल में शामिल किया जाना चाहिए।

निम्नलिखित उदाहरण दिखाता है कि व्यवहार में प्रतिगमन मॉडल में महत्वपूर्ण चर कैसे निर्धारित करें।

उदाहरण: प्रतिगमन मॉडल में महत्वपूर्ण चर कैसे निर्धारित करें

मान लीजिए कि हमारे पास निम्नलिखित डेटासेट है जिसमें 12 घरों की उम्र, वर्ग फुटेज और बिक्री मूल्य की जानकारी है:

मान लीजिए कि हम भविष्यवक्ता चर के रूप में उम्र और वर्ग फुटेज और प्रतिक्रिया चर के रूप में कीमत का उपयोग करके एक बहु रेखीय प्रतिगमन करते हैं।

हमें निम्नलिखित परिणाम प्राप्त होता है:

अमानकीकृत प्रतिगमन गुणांक का उदाहरण

इस तालिका में प्रतिगमन गुणांक मानकीकृत नहीं हैं, जिसका अर्थ है कि उन्होंने इस प्रतिगमन मॉडल को फिट करने के लिए कच्चे डेटा का उपयोग किया है।

पहली नज़र में, ऐसा लगता है कि उम्र का अचल संपत्ति की कीमत पर बहुत अधिक प्रभाव पड़ता है क्योंकि प्रतिगमन तालिका में इसका गुणांक -409.833 है, जबकि भविष्यवक्ता चर वर्ग फुटेज के लिए यह केवल 100.866 है

हालाँकि, मानक त्रुटि वर्ग फुटेज की तुलना में उम्र के लिए बहुत बड़ी है, यही कारण है कि संबंधित पी-मान वास्तव में उम्र के लिए बड़ा है (पी = 0.520) और वर्ग फुटेज वर्गों के लिए छोटा है (पी = 0.000)।

प्रतिगमन गुणांक में अत्यधिक अंतर का कारण दो चर के पैमाने में अत्यधिक अंतर है:

  • आयु सीमा का मान 4 से 44 वर्ष तक है।
  • वर्ग फ़ुटेज का मान 1,200 से 2,800 तक होता है।

मान लीजिए कि हम इसके बजाय कच्चे डेटा को सामान्यीकृत करते हैं :

Excel में डेटा का मानकीकरण करें

यदि हम मानकीकृत डेटा का उपयोग करके एकाधिक रैखिक प्रतिगमन करते हैं, तो हमें निम्नलिखित प्रतिगमन परिणाम प्राप्त होंगे:

मानकीकृत प्रतिगमन गुणांक

इस तालिका में प्रतिगमन गुणांक मानकीकृत हैं, जिसका अर्थ है कि उन्होंने इस प्रतिगमन मॉडल को फिट करने के लिए मानकीकृत डेटा का उपयोग किया है।

तालिका में गुणांकों की व्याख्या करने का तरीका इस प्रकार है:

  • आयु में एक मानक विचलन वृद्धि घर की कीमत में 0.092 मानक विचलन कमी के साथ जुड़ी हुई है, यह मानते हुए कि वर्ग फुटेज स्थिर रहता है।
  • वर्ग फ़ुटेज में एक मानक विचलन वृद्धि घर की कीमत में 0.885 मानक विचलन वृद्धि के साथ जुड़ी हुई है, यह मानते हुए कि उम्र स्थिर रहती है।

अब हम देख सकते हैं कि वर्ग फुटेज का घर की कीमतों पर उम्र की तुलना में कहीं अधिक प्रभाव पड़ता है।

ध्यान दें : प्रत्येक भविष्यवक्ता चर के लिए पी-मान बिल्कुल पिछले प्रतिगमन मॉडल के समान हैं।

यह तय करते समय कि किस अंतिम मॉडल का उपयोग किया जाए, अब हम जानते हैं कि किसी घर की कीमत का अनुमान लगाने में उसकी उम्र की तुलना में वर्ग फुटेज कहीं अधिक महत्वपूर्ण है।

अंततः, आवास और अचल संपत्ति की कीमतों के बारे में मौजूदा ज्ञान के आधार पर, हमें यह निर्धारित करने के लिए अपनी विषय वस्तु विशेषज्ञता का उपयोग करने की आवश्यकता होगी कि अंतिम मॉडल में कौन से चर शामिल किए जाएं।

अतिरिक्त संसाधन

निम्नलिखित ट्यूटोरियल प्रतिगमन मॉडल के बारे में अतिरिक्त जानकारी प्रदान करते हैं:

प्रतिगमन तालिका को कैसे पढ़ें और व्याख्या करें
प्रतिगमन गुणांक की व्याख्या कैसे करें
रैखिक प्रतिगमन में पी मानों की व्याख्या कैसे करें

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *