चरणबद्ध चयन क्या है? (स्पष्टीकरण एवं उदाहरण)
मशीन लर्निंग के क्षेत्र में, हमारा लक्ष्य एक ऐसा मॉडल बनाना है जो प्रतिक्रिया चर के मूल्य की भविष्यवाणी करने के लिए भविष्यवक्ता चर के एक सेट का प्रभावी ढंग से उपयोग कर सके।
पी कुल भविष्यवक्ता चर के एक सेट को देखते हुए, ऐसे कई मॉडल हैं जिन्हें हम संभावित रूप से बना सकते हैं। सर्वोत्तम मॉडल का चयन करने के लिए हम जिस विधि का उपयोग कर सकते हैं उसे सर्वोत्तम उपसमुच्चय चयन के रूप में जाना जाता है, जो सभी संभावित मॉडलों में से सर्वोत्तम मॉडल चुनने का प्रयास करता है जिसे भविष्यवक्ताओं के सेट के साथ बनाया जा सकता है।
दुर्भाग्य से यह विधि दो नुकसानों से ग्रस्त है:
- यह कम्प्यूटेशनल रूप से गहन हो सकता है। पी भविष्यवक्ता चर के एक सेट के लिए, 2 पी संभावित मॉडल हैं। उदाहरण के लिए, 10 भविष्यवक्ता चर के साथ, विचार करने के लिए 2 10 = 1000 संभावित मॉडल हैं।
- क्योंकि यह बहुत बड़ी संख्या में मॉडलों पर विचार करता है, यह संभावित रूप से एक ऐसा मॉडल ढूंढ सकता है जो प्रशिक्षण डेटा पर अच्छा प्रदर्शन करता है लेकिन भविष्य के डेटा पर नहीं। इससे ओवरफिटिंग हो सकती है।
सर्वोत्तम उपसमुच्चय को चुनने का एक विकल्प चरणबद्ध चयन के रूप में जाना जाता है, जो मॉडलों के बहुत छोटे सेट की तुलना करता है।
चरण चयन विधियाँ दो प्रकार की होती हैं: अग्र चरण चयन और पश्च चरण चयन।
चरण दर चरण आगे चयन
चरण-दर-चरण आगे चयन निम्नानुसार कार्य करता है:
1. मान लीजिए कि M 0 शून्य मॉडल है, जिसमें कोई पूर्वानुमानित चर नहीं है।
2. k = 0, 2,…p-1 के लिए:
- सभी pk मॉडल को फ़िट करें जो एक अतिरिक्त भविष्यवक्ता चर के साथ M k में भविष्यवक्ताओं को बढ़ाते हैं।
- इन pk मॉडलों में से सर्वश्रेष्ठ चुनें और इसे M k+1 नाम दें। उच्चतम आर 2 या, समकक्ष, सबसे कम आरएसएस वाले मॉडल के रूप में “सर्वश्रेष्ठ” को परिभाषित करें।
3. क्रॉस-वैलिडेशन भविष्यवाणी त्रुटि, सीपी, बीआईसी, एआईसी या समायोजित आर 2 का उपयोग करके एम 0 … एम पी से एक सर्वश्रेष्ठ मॉडल का चयन करें।
चरण-दर-चरण पिछड़ा चयन
बैकवर्ड चरण चयन निम्नानुसार कार्य करता है:
1. मान लीजिए कि एम पी पूर्ण मॉडल है, जिसमें सभी पी पूर्वानुमानित चर शामिल हैं।
2. k = p, p-1,… 1 के लिए:
- कुल k-1 भविष्यवक्ता चर के लिए, सभी k मॉडलों को फ़िट करें जिनमें Mk में एक को छोड़कर सभी भविष्यवक्ता शामिल हों।
- इन k मॉडलों में से सर्वश्रेष्ठ चुनें और इसे M k-1 नाम दें। उच्चतम आर 2 या, समकक्ष, सबसे कम आरएसएस वाले मॉडल के रूप में “सर्वश्रेष्ठ” को परिभाषित करें।
3. क्रॉस-वैलिडेशन भविष्यवाणी त्रुटि, सीपी, बीआईसी, एआईसी या समायोजित आर 2 का उपयोग करके एम 0 … एम पी से एक सर्वश्रेष्ठ मॉडल का चयन करें।
“सर्वोत्तम” मॉडल चुनने के लिए मानदंड
चरणबद्ध आगे और पीछे चयन का अंतिम चरण सबसे कम भविष्यवाणी त्रुटि, सबसे कम सीपी, सबसे कम बीआईसी, उच्चतम एआईसी कम या उच्चतम समायोजित आर 2 वाला मॉडल चुनना है।
इनमें से प्रत्येक मीट्रिक की गणना के लिए उपयोग किए जाने वाले सूत्र यहां दिए गए हैं:
सीपी: (RSS+2dσ̂) / एन
एआईसी: (RSS+2dσ̂ 2 ) / (nσ̂ 2 )
बीआईसी: (आरएसएस+लॉग(एन)डीσ̂ 2 ) / एन
आर 2 समायोजित: 1 – ( (आरएसएस / (एनडी-1)) / (टीएसएस / (एन-1)) )
सोना:
- डी: भविष्यवक्ताओं की संख्या
- n: कुल अवलोकन
- σ̂: प्रतिगमन मॉडल में प्रत्येक प्रतिक्रिया माप से जुड़े त्रुटि विचरण का अनुमान
- आरएसएस: प्रतिगमन मॉडल से वर्गों का अवशिष्ट योग
- टीएसएस: प्रतिगमन मॉडल के वर्गों का कुल योग
चरणबद्ध चयन के फायदे और नुकसान
चरणबद्ध चयन निम्नलिखित लाभ प्रदान करता है:
सर्वोत्तम उपसमूह का चयन करने की तुलना में यह विधि कम्प्यूटेशनल रूप से अधिक कुशल है। पी भविष्यवक्ता चर को देखते हुए, सर्वोत्तम उपसमुच्चय का चयन 2 पी मॉडल के अनुरूप होना चाहिए।
इसके विपरीत, चरणबद्ध चयन केवल 1+p(p+ 1)/2 मॉडल में फिट होना चाहिए। पी = 10 भविष्यवक्ता चर के लिए, सर्वोत्तम उपसमुच्चय चयन 1,000 मॉडल में फिट होना चाहिए, जबकि चरणबद्ध चयन केवल 56 मॉडल में फिट होना चाहिए।
हालाँकि, चरणबद्ध चयन के निम्नलिखित संभावित नुकसान हैं:
सभी संभावित 2p मॉडलों में से सर्वोत्तम संभव मॉडल खोजने की गारंटी नहीं है।
उदाहरण के लिए, मान लीजिए कि हमारे पास p = 3 भविष्यवक्ताओं वाला एक डेटासेट है। सर्वोत्तम संभव एक-भविष्यवक्ता मॉडल में x 1 हो सकता है और सर्वोत्तम संभव दो-भविष्यवक्ता मॉडल में इसके बजाय x 1 और x 2 हो सकते हैं।
इस मामले में, आगे का चरणबद्ध चयन सर्वोत्तम संभव दो-भविष्यवक्ता मॉडल का चयन करने में विफल रहेगा क्योंकि एम 1 में x 1 होगा, इसलिए एम 2 में x 1 के साथ-साथ एक अन्य चर भी शामिल होना चाहिए।