मशीन लर्निंग में बैगिंग का परिचय

द्वारा डॉ. बेंजामिन एंडरसन जुलाई 27, 2023 मार्गदर्शक शून्य टिप्पणियां

जब भविष्यवक्ता चर के एक सेट और एक प्रतिक्रिया चर के बीच संबंध रैखिक होता है, तो हम चर के बीच संबंध को मॉडल करने के लिए एकाधिक रैखिक प्रतिगमन जैसे तरीकों का उपयोग कर सकते हैं।

हालाँकि, जब रिश्ता अधिक जटिल होता है, तो हमें अक्सर गैर-रैखिक तरीकों का सहारा लेना पड़ता है।

ऐसी ही एक विधि है वर्गीकरण और प्रतिगमन वृक्ष (अक्सर संक्षिप्त रूप में CART), जो निर्णय वृक्ष बनाने के लिए भविष्यवक्ता चर के एक सेट का उपयोग करते हैं जो प्रतिक्रिया चर के मूल्य की भविष्यवाणी करते हैं।

एक प्रतिगमन वृक्ष का उदाहरण जो एक पेशेवर बेसबॉल खिलाड़ी के वेतन की भविष्यवाणी करने के लिए वर्षों के अनुभव और औसत घरेलू रन का उपयोग करता है।

हालाँकि, CART मॉडल का नकारात्मक पक्ष यह है कि वे उच्च विचरण से ग्रस्त हैं। अर्थात्, यदि हम किसी डेटासेट को दो हिस्सों में विभाजित करते हैं और दोनों हिस्सों में एक निर्णय वृक्ष लागू करते हैं, तो परिणाम बहुत भिन्न हो सकते हैं।

कार्ट मॉडल के विचरण को कम करने के लिए हम जिस एक विधि का उपयोग कर सकते हैं उसे बैगिंग के रूप में जाना जाता है, जिसे कभी-कभी बूटस्ट्रैप एकत्रीकरण भी कहा जाता है।

बैगिंग क्या है?

जब हम एकल निर्णय वृक्ष बनाते हैं, तो हम मॉडल बनाने के लिए प्रशिक्षण डेटा के केवल एक सेट का उपयोग करते हैं।

हालाँकि, बैगिंग निम्नलिखित विधि का उपयोग करती है:

1. मूल डेटासेट से बी बूटस्ट्रैप्ड नमूने लें।

याद रखें कि बूटस्ट्रैप्ड नमूना मूल डेटा सेट से एक नमूना है जिसमें प्रतिस्थापन के साथ अवलोकन लिए जाते हैं।

2. प्रत्येक बूटस्ट्रैप नमूने के लिए एक निर्णय वृक्ष बनाएं।

3. अंतिम मॉडल प्राप्त करने के लिए प्रत्येक पेड़ से पूर्वानुमानों का औसत निकालें।

प्रतिगमन वृक्षों के लिए, हम बी वृक्षों द्वारा की गई भविष्यवाणी का औसत लेते हैं।
पेड़ों के वर्गीकरण के लिए, हम बी -पेड़ों द्वारा की गई सबसे आम भविष्यवाणी लेते हैं।

बैगिंग का उपयोग किसी भी मशीन लर्निंग एल्गोरिदम के साथ किया जा सकता है, लेकिन यह निर्णय पेड़ों के लिए विशेष रूप से उपयोगी है क्योंकि उनमें स्वाभाविक रूप से उच्च भिन्नता होती है और बैगिंग भिन्नता को काफी कम करने में सक्षम है, जिसके परिणामस्वरूप परीक्षण त्रुटियां कम हो जाती हैं।

निर्णय वृक्षों पर बैगिंग लागू करने के लिए, हम अलग-अलग पेड़ों को बिना काटे गहराई पर उगाते हैं । इसके परिणामस्वरूप अलग-अलग पेड़ों में उच्च भिन्नता, लेकिन कम पूर्वाग्रह होता है। फिर जब हम इन पेड़ों से औसत भविष्यवाणियां लेते हैं, तो हम भिन्नता को कम करने में सक्षम होते हैं।

व्यवहार में, इष्टतम प्रदर्शन आम तौर पर 50 से 500 पेड़ों के साथ प्राप्त किया जाता है, लेकिन अंतिम मॉडल तैयार करने के लिए हजारों पेड़ों को फिट करना संभव है।

बस यह ध्यान रखें कि अधिक पेड़ लगाने के लिए अधिक कंप्यूटिंग शक्ति की आवश्यकता होगी, जो डेटासेट के आकार के आधार पर समस्या हो भी सकती है और नहीं भी।

आउट-ऑफ़-बैग त्रुटियों का अनुमान

यह पता चला है कि हम के-फोल्ड क्रॉस-वैलिडेशन पर भरोसा किए बिना बैग्ड मॉडल की परीक्षण त्रुटि की गणना कर सकते हैं।

इसका कारण यह है कि प्रत्येक बूटस्ट्रैप नमूने में मूल डेटासेट से लगभग 2/3 अवलोकन शामिल दिखाए जा सकते हैं। शेष तीसरे अवलोकनों का उपयोग बैग्ड ट्री में फिट करने के लिए नहीं किया जाता है, उन्हें आउट-ऑफ-बैग (ओओबी) अवलोकन कहा जाता है।

हम प्रत्येक पेड़ से औसत भविष्यवाणी लेकर मूल डेटासेट में ith अवलोकन के मूल्य की भविष्यवाणी कर सकते हैं जिसमें वह अवलोकन OOB था।

हम मूल डेटा सेट में सभी n अवलोकनों के लिए भविष्यवाणी करने के लिए इस दृष्टिकोण का उपयोग कर सकते हैं और इस प्रकार त्रुटि दर की गणना कर सकते हैं, जो परीक्षण त्रुटि का एक वैध अनुमान है।

परीक्षण त्रुटि का अनुमान लगाने के लिए इस दृष्टिकोण का उपयोग करने का लाभ यह है कि यह के-फोल्ड क्रॉस-सत्यापन की तुलना में बहुत तेज़ है, खासकर जब डेटासेट बड़ा होता है।

भविष्यवक्ताओं के महत्व को समझना

याद रखें कि निर्णय वृक्षों का एक लाभ यह है कि उनकी व्याख्या करना और कल्पना करना आसान है।

जब हम इसके बजाय बैगिंग का उपयोग करते हैं, तो हम किसी व्यक्तिगत पेड़ की व्याख्या या कल्पना करने में सक्षम नहीं होते हैं क्योंकि अंतिम बैग्ड मॉडल कई अलग-अलग पेड़ों के औसत का परिणाम होता है। हम व्याख्या की कीमत पर भविष्यवाणी सटीकता प्राप्त करते हैं।

हालाँकि, हम अभी भी किसी दिए गए भविष्यवक्ता पर वितरण के कारण आरएसएस (वर्गों का अवशिष्ट योग) में कुल कमी की गणना करके, सभी बी- पेड़ों के औसत से, प्रत्येक भविष्यवक्ता चर के महत्व को समझ सकते हैं। मूल्य जितना बड़ा होगा, भविष्यवक्ता उतना ही अधिक महत्वपूर्ण होगा।

बैगिंग मॉडल के लिए परिवर्तनीय महत्व चार्ट — **परिवर्तनीय महत्व चार्ट का उदाहरण.**

इसी तरह, वर्गीकरण मॉडल के लिए, हम किसी दिए गए भविष्यवक्ता पर वितरण के कारण कुल गिनी सूचकांक में कमी की गणना कर सकते हैं, जो सभी बी -पेड़ों पर औसत है। मूल्य जितना बड़ा होगा, भविष्यवक्ता उतना ही महत्वपूर्ण होगा।

इसलिए जब हम अंतिम समग्र मॉडल की सटीक व्याख्या नहीं कर सकते हैं, तब भी हम यह अंदाजा लगा सकते हैं कि प्रतिक्रिया की भविष्यवाणी करते समय प्रत्येक भविष्यवक्ता चर कितना महत्वपूर्ण है।

बैगिंग से परे जाओ

बैगिंग का लाभ यह है कि यह आम तौर पर एकल निर्णय वृक्ष की तुलना में परीक्षण त्रुटि दर में सुधार प्रदान करता है।

नकारात्मक पक्ष यह है कि यदि डेटासेट में बहुत मजबूत भविष्यवक्ता है तो बैग्ड ट्री संग्रह से भविष्यवाणियां अत्यधिक सहसंबद्ध हो सकती हैं।

इस मामले में, बैग में रखे गए अधिकांश या सभी पेड़ पहले विभाजन के लिए इस भविष्यवक्ता का उपयोग करेंगे, जिसके परिणामस्वरूप ऐसे पेड़ बनेंगे जो एक-दूसरे के समान होंगे और अत्यधिक सहसंबद्ध भविष्यवाणियां करेंगे।

इस समस्या को हल करने का एक तरीका यादृच्छिक वनों का उपयोग करना है, जो बैगिंग के समान विधि का उपयोग करते हैं लेकिन सजाए गए पेड़ों का उत्पादन करने में सक्षम होते हैं, जिससे अक्सर परीक्षण त्रुटि दर कम हो जाती है।

आप यहां यादृच्छिक वनों का एक सरल परिचय पढ़ सकते हैं।

अतिरिक्त संसाधन

वर्गीकरण और प्रतिगमन वृक्षों का परिचय
आर में बैगिंग कैसे करें (चरण दर चरण)

लेखक के बारे में

डॉ. बेंजामिन एंडरसन

नमस्ते, मैं बेंजामिन हूं, एक सेवानिवृत्त सांख्यिकी प्रोफेसर जो अब समर्पित Statorials शिक्षक बन गया है। सांख्यिकी के क्षेत्र में व्यापक अनुभव और विशेषज्ञता के साथ, मैं Statorials के माध्यम से छात्रों को सशक्त बनाने के लिए अपना ज्ञान साझा करने के लिए उत्सुक हूं। अधिक जाने