एसएएस में proc glmselect स्टेटमेंट का उपयोग कैसे करें


आप संभावित भविष्यवक्ता चर की सूची के आधार पर सर्वोत्तम प्रतिगमन मॉडल का चयन करने के लिए एसएएस में PROC GLMSELECT कथन का उपयोग कर सकते हैं।

निम्नलिखित उदाहरण दिखाता है कि व्यवहार में इस कथन का उपयोग कैसे करें।

उदाहरण: मॉडल चयन के लिए एसएएस में PROC GLMSELECT का उपयोग कैसे करें

मान लीजिए कि हम एक एकाधिक रेखीय प्रतिगमन मॉडल फिट करना चाहते हैं जो छात्रों की अंतिम ग्रेड ‘परीक्षा की भविष्यवाणी करने के लिए (1) अध्ययन में बिताए गए घंटों की संख्या, (2) ली गई तैयारी परीक्षाओं की संख्या, और (3) लिंग का उपयोग करता है।

सबसे पहले, हम 20 छात्रों के लिए इस जानकारी वाला डेटासेट बनाने के लिए निम्नलिखित कोड का उपयोग करेंगे:

 /*create dataset*/
data exam_data;
    input hours prep_exams gender $score;
    datalines ;
1 1 0 76
2 3 1 78
2 3 0 85
4 5 0 88
2 2 0 72
1 2 1 69
5 1 1 94
4 1 0 94
2 0 1 88
4 3 0 92
4 4 1 90
3 3 1 75
6 2 1 96
5 4 0 90
3 4 0 82
4 4 1 85
6 5 1 99
2 1 0 83
1 0 1 62
2 1 0 76
;
run ;

/*view dataset*/
proc print data =exam_data;

इसके बाद, हम सर्वोत्तम प्रतिगमन मॉडल तैयार करने वाले भविष्यवक्ता चर के सबसेट की पहचान करने के लिए PROC GLMSELECT कथन का उपयोग करेंगे:

 /*perform model selection*/
proc glmselect data =exam_data;
    classgender ;
    model score = hours prep_exams gender;
run ;

ध्यान दें : हमने वर्ग विवरण में लिंग को शामिल किया है क्योंकि यह एक श्रेणीबद्ध चर है।

आउटपुट में तालिकाओं का पहला समूह GLMSELECT प्रक्रिया का अवलोकन दिखाता है:

हम देख सकते हैं कि मॉडल से वेरिएबल्स को जोड़ने या हटाने से रोकने के लिए इस्तेमाल किया जाने वाला मानदंड एसबीसी था, जो श्वार्ज़ सूचना मानदंड है, जिसे कभी-कभी बायेसियन सूचना मानदंड भी कहा जाता है।

अनिवार्य रूप से, PROC GLMSELECT स्टेटमेंट तब तक मॉडल से वेरिएबल जोड़ना या हटाना जारी रखता है जब तक कि उसे सबसे कम SBC मान वाला मॉडल नहीं मिल जाता, जिसे “सर्वश्रेष्ठ” मॉडल माना जाता है।

तालिकाओं का निम्नलिखित समूह दिखाता है कि चरण-दर-चरण चयन कैसे समाप्त हुआ:

हम देख सकते हैं कि केवल मूल शब्द वाले मॉडल का SBC मान 93.4337 था।

मॉडल में भविष्यवक्ता चर के रूप में घंटे जोड़ने से, एसबीसी मान गिरकर 70.4452 हो गया।

मॉडल को बेहतर बनाने का सबसे अच्छा तरीका भविष्यवक्ता चर के रूप में लिंग को जोड़ना था, लेकिन इससे वास्तव में एसबीसी मान बढ़कर 71.7383 हो गया।

इस प्रकार, अंतिम मॉडल में केवल अवरोधन शब्द और अध्ययन किए गए समय शामिल हैं।

परिणाम का अंतिम भाग इस फिट किए गए प्रतिगमन मॉडल का सारांश दिखाता है:

हम फिट किए गए प्रतिगमन मॉडल को लिखने के लिए पैरामीटर अनुमान तालिका में मानों का उपयोग कर सकते हैं:

परीक्षा स्कोर = 67.161689 + 5.250257 (अध्ययन के घंटे)

हम विभिन्न मेट्रिक्स भी देख सकते हैं जो हमें बताते हैं कि यह मॉडल डेटा में कितना फिट बैठता है:

आर-स्क्वायर मान हमें परीक्षा के अंकों में भिन्नता का प्रतिशत बताता है जिसे अध्ययन किए गए घंटों की संख्या और ली गई तैयारी परीक्षाओं की संख्या से समझाया जा सकता है।

इस मामले में, परीक्षा के अंकों में 72.73% भिन्नता को अध्ययन किए गए घंटों की संख्या और ली गई प्रारंभिक परीक्षाओं की संख्या से समझाया जा सकता है।

रूट एमएसई मान जानना भी उपयोगी है। यह प्रेक्षित मानों और प्रतिगमन रेखा के बीच की औसत दूरी को दर्शाता है।

इस प्रतिगमन मॉडल में, देखे गए मान प्रतिगमन रेखा से औसतन 5.28052 इकाइयों तक विचलित होते हैं।

नोट : संभावित तर्कों की पूरी सूची के लिए एसएएस दस्तावेज़ देखें जिनका उपयोग आप PROC GLMSELECT के साथ कर सकते हैं।

अतिरिक्त संसाधन

निम्नलिखित ट्यूटोरियल बताते हैं कि एसएएस में अन्य सामान्य कार्य कैसे करें:

एसएएस में सरल रैखिक प्रतिगमन कैसे करें
एसएएस में मल्टीपल लीनियर रिग्रेशन कैसे करें
एसएएस में बहुपद प्रतिगमन कैसे करें
एसएएस में लॉजिस्टिक रिग्रेशन कैसे करें

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *