प्रत्यक्ष चयन क्या है? (परिभाषा & #038; उदाहरण)


आँकड़ों में, चरणबद्ध चयन एक ऐसी प्रक्रिया है जिसका उपयोग हम मॉडल में चरण-दर-चरण तरीके से भविष्यवक्ताओं को दर्ज करके और हटाकर पूर्वसूचक चर के एक सेट से एक प्रतिगमन मॉडल बनाने के लिए कर सकते हैं जब तक कि प्रवेश करने के लिए कोई सांख्यिकीय रूप से मान्य कारण न रह जाए। या और हटाएं.

चरणबद्ध चयन का लक्ष्य एक प्रतिगमन मॉडल बनाना है जिसमें सभी भविष्यवक्ता चर शामिल हैं जो सांख्यिकीय रूप से प्रतिक्रिया चर से महत्वपूर्ण रूप से संबंधित हैं।

सबसे अधिक उपयोग की जाने वाली चरण-दर-चरण चयन विधियों में से एक को प्रत्यक्ष चयन के रूप में जाना जाता है, जो निम्नानुसार काम करती है:

चरण 1: भविष्यवक्ता चर के बिना केवल-इंटरसेप्ट प्रतिगमन मॉडल फिट करें। मॉडल के लिए AIC * मान की गणना करें।

चरण 2: सभी संभावित एक-भविष्यवक्ता प्रतिगमन मॉडल को फ़िट करें। उस मॉडल की पहचान करें जिसने सबसे कम एआईसी का उत्पादन किया और केवल-इंटरसेप्ट मॉडल की तुलना में एआईसी में सांख्यिकीय रूप से महत्वपूर्ण कमी की।

चरण 3: सभी प्रतिगमन मॉडल को दो संभावित भविष्यवक्ताओं में फिट करें। उस मॉडल की पहचान करें जिसने सबसे कम एआईसी का उत्पादन किया और एक-भविष्यवक्ता मॉडल की तुलना में एआईसी में सांख्यिकीय रूप से महत्वपूर्ण कमी आई।

प्रक्रिया को तब तक दोहराएं जब तक कि अधिक भविष्यवक्ता चर के साथ एक प्रतिगमन मॉडल को फिट करने से एआईसी में सांख्यिकीय रूप से महत्वपूर्ण कमी न हो जाए।

* ऐसे कई मेट्रिक्स हैं जिनका उपयोग आप रिग्रेशन मॉडल के फिट की अच्छाई की गणना करने के लिए कर सकते हैं, जिसमें क्रॉस-वैलिडेशन भविष्यवाणी त्रुटि, सीपी, बीआईसी, एआईसी, या समायोजित आर 2 शामिल हैं। नीचे दिए गए उदाहरण में, हम AIC का उपयोग करना चुनते हैं।

निम्नलिखित उदाहरण दिखाता है कि आर में सीधा चयन कैसे करें।

उदाहरण: आर में सीधा चयन

इस उदाहरण के लिए, हम R में निर्मित mtcars डेटासेट का उपयोग करेंगे:

 #view first six rows of mtcars
head(mtcars)

                   mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1

हम प्रतिक्रिया चर के रूप में एमपीजी (मील प्रति गैलन) और संभावित भविष्यवक्ता चर के रूप में डेटा सेट में अन्य 10 चर का उपयोग करके एक एकाधिक रैखिक प्रतिगमन मॉडल फिट करेंगे।

निम्नलिखित कोड दिखाता है कि चरण दर चरण चयन कैसे करें:

 #define intercept-only model
intercept_only <- lm(mpg ~ 1, data=mtcars)

#define model with all predictors
all <- lm(mpg ~ ., data=mtcars)

#perform forward stepwise regression
forward <- step(intercept_only, direction=' forward ', scope= formula (all), trace= 0 )

#view results of forward stepwise regression
forward$anova

   Step Df Deviance Resid. Df Resid. Dev AIC
1 NA NA 31 1126.0472 115.94345
2 + wt -1 847.72525 30 278.3219 73.21736
3 + cyl -1 87.14997 29 191.1720 63.19800
4 + hp -1 14.55145 28 176.6205 62.66456

#view final model
forward$coefficients

(Intercept) wt cyl hp 
 38.7517874 -3.1669731 -0.9416168 -0.0180381 

यहां परिणामों की व्याख्या करने का तरीका बताया गया है:

सबसे पहले, हम केवल-इंटरसेप्ट मॉडल को फिट करते हैं। इस मॉडल का AIC 115.94345 था।

फिर हम सभी संभावित मॉडलों को एक भविष्यवक्ता के लिए फिट करते हैं। वह मॉडल जिसने सबसे कम एआईसी का उत्पादन किया और डब्ल्यूटी प्रेडिक्टर का उपयोग करने वाले केवल-इंटरसेप्ट मॉडल की तुलना में एआईसी में सांख्यिकीय रूप से महत्वपूर्ण कमी की। इस मॉडल का AIC 73.21736 था।

इसके बाद, हम सभी संभावित मॉडलों को दो भविष्यवक्ताओं के साथ फिट करते हैं। जिस मॉडल ने सबसे कम एआईसी का उत्पादन किया और एकल-भविष्यवक्ता मॉडल की तुलना में एआईसी में सांख्यिकीय रूप से महत्वपूर्ण कमी आई, उसने सिलेंडर भविष्यवक्ता को जोड़ा। इस मॉडल का AIC 63.19800 था।

इसके बाद, हम सभी संभावित मॉडलों को तीन भविष्यवक्ताओं में फिट करते हैं। जिस मॉडल ने सबसे कम एआईसी का उत्पादन किया और दो-भविष्यवक्ता मॉडल की तुलना में एआईसी में सांख्यिकीय रूप से महत्वपूर्ण कमी की, उसने एचपी भविष्यवक्ता को जोड़ा। इस मॉडल का AIC 62.66456 था।

इसके बाद, हम सभी संभावित मॉडलों को चार भविष्यवक्ताओं में फिट करते हैं। यह पता चला कि इनमें से किसी भी मॉडल ने एआईसी में महत्वपूर्ण कमी नहीं की, इसलिए हमने प्रक्रिया रोक दी।

इसलिए अंतिम मॉडल यह निकला:

एमपीजी = 38.75 – 3.17*वजन – 0.94*सिलेंडर – 0.02*हाइप

यह पता चला है कि मॉडल में अधिक भविष्यवक्ता चर जोड़ने का प्रयास करने से एआईसी में सांख्यिकीय रूप से महत्वपूर्ण कमी नहीं आती है।

इस प्रकार, हम यह निष्कर्ष निकालते हैं कि सबसे अच्छा मॉडल वह है जिसमें तीन पूर्वानुमानित चर होते हैं: डब्ल्यूटी, सिलेंडर और एचपी।

एआईसी का उपयोग करने पर एक नोट

पिछले उदाहरण में, हमने विभिन्न प्रतिगमन मॉडलों के फिट का मूल्यांकन करने के लिए एक मीट्रिक के रूप में एआईसी का उपयोग करना चुना।

AIC का मतलब Akaike सूचना मानदंड है और इसकी गणना इस प्रकार की जाती है:

एआईसी = 2K – 2 एलएन (एल)

सोना:

  • K: मॉडल मापदंडों की संख्या।
  • एलएन (एल) : मॉडल की लॉग-संभावना। यह हमें बताता है कि डेटा के आधार पर मॉडल की कितनी संभावना है।

हालाँकि, ऐसे अन्य मेट्रिक्स हैं जिनका उपयोग आप रिग्रेशन मॉडल के फिट का मूल्यांकन करने के लिए चुन सकते हैं, जिसमें क्रॉस-वैलिडेशन भविष्यवाणी त्रुटि, सीपी, बीआईसी, एआईसी, या समायोजित आर 2 शामिल हैं।

सौभाग्य से, अधिकांश सांख्यिकीय सॉफ़्टवेयर आपको यह निर्दिष्ट करने की अनुमति देते हैं कि आप सीधे चयन करते समय किस मीट्रिक का उपयोग करना चाहते हैं।

अतिरिक्त संसाधन

निम्नलिखित ट्यूटोरियल प्रतिगमन मॉडल के बारे में अतिरिक्त जानकारी प्रदान करते हैं:

प्रतिगमन में बहुसंरेखता और वीआईएफ के लिए एक गाइड
एक अच्छा AIC मान क्या माना जाता है?

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *