यादृच्छिक वनों का एक सरल परिचय
जब भविष्यवक्ता चर के एक सेट और एक प्रतिक्रिया चर के बीच संबंध बहुत जटिल होता है, तो हम अक्सर उनके बीच संबंध को मॉडल करने के लिए गैर-रेखीय तरीकों का उपयोग करते हैं।
ऐसी ही एक विधि है वर्गीकरण और प्रतिगमन वृक्ष (अक्सर संक्षिप्त रूप में CART), जो निर्णय वृक्ष बनाने के लिए भविष्यवक्ता चर के एक सेट का उपयोग करते हैं जो प्रतिक्रिया चर के मूल्य की भविष्यवाणी करते हैं।

निर्णय वृक्षों का लाभ यह है कि उनकी व्याख्या करना और कल्पना करना आसान है। समस्या यह है कि वे उच्च विचरण से ग्रस्त हैं। अर्थात्, यदि हम किसी डेटासेट को दो हिस्सों में विभाजित करते हैं और दोनों हिस्सों में एक निर्णय वृक्ष लागू करते हैं, तो परिणाम बहुत भिन्न हो सकते हैं।
निर्णय वृक्षों के विचरण को कम करने का एक तरीका बैगिंग नामक विधि का उपयोग करना है, जो निम्नानुसार काम करती है:
1. मूल डेटासेट से बी बूटस्ट्रैप्ड नमूने लें।
2. प्रत्येक बूटस्ट्रैप नमूने के लिए एक निर्णय वृक्ष बनाएं।
3. अंतिम मॉडल प्राप्त करने के लिए प्रत्येक पेड़ से पूर्वानुमानों का औसत निकालें।
इस दृष्टिकोण का लाभ यह है कि एक क्लस्टर मॉडल आम तौर पर एकल निर्णय वृक्ष की तुलना में परीक्षण त्रुटि दर में सुधार प्रदान करता है।
नकारात्मक पक्ष यह है कि यदि डेटासेट में बहुत मजबूत भविष्यवक्ता है तो बैग्ड ट्री संग्रह से भविष्यवाणियां अत्यधिक सहसंबद्ध हो सकती हैं। इस मामले में, बैग में रखे गए अधिकांश या सभी पेड़ पहले विभाजन के लिए इस भविष्यवक्ता का उपयोग करेंगे, जिसके परिणामस्वरूप ऐसे पेड़ बनेंगे जो एक-दूसरे के समान होंगे और अत्यधिक सहसंबद्ध भविष्यवाणियां करेंगे।
इसलिए जब हम अंतिम मॉडल पर पहुंचने के लिए प्रत्येक पेड़ से भविष्यवाणियों का औसत निकालते हैं, तो यह संभव है कि यह मॉडल वास्तव में एकल निर्णय पेड़ की तुलना में भिन्नता को कम नहीं करता है।
इस समस्या से निजात पाने का एक तरीका यादृच्छिक वन नामक विधि का उपयोग करना है।
यादृच्छिक वन क्या हैं?
बैगिंग के समान, यादृच्छिक वन भी मूल डेटासेट से बूटस्ट्रैप्ड नमूने लेते हैं।
हालाँकि, प्रत्येक बूटस्ट्रैप नमूने के लिए एक निर्णय वृक्ष का निर्माण करते समय, हर बार एक वृक्ष में विभाजन पर विचार किया जाता है, केवल एम भविष्यवक्ताओं का एक यादृच्छिक नमूना पी भविष्यवक्ताओं के पूर्ण सेट के बीच विभाजन के लिए एक उम्मीदवार माना जाता है।
तो यहां वह पूरी विधि है जिसका उपयोग यादृच्छिक वन एक मॉडल बनाने के लिए करते हैं:
1. मूल डेटासेट से बी बूटस्ट्रैप्ड नमूने लें।
2. प्रत्येक बूटस्ट्रैप नमूने के लिए एक निर्णय वृक्ष बनाएं।
- पेड़ का निर्माण करते समय, हर बार विभाजन पर विचार किया जाता है, केवल एम भविष्यवक्ताओं का एक यादृच्छिक नमूना पी भविष्यवक्ताओं के पूर्ण सेट से विभाजन के लिए उम्मीदवार माना जाता है।
3. अंतिम मॉडल प्राप्त करने के लिए प्रत्येक पेड़ से पूर्वानुमानों का औसत निकालें।
इस पद्धति का उपयोग करके, यादृच्छिक जंगल में पेड़ों के संग्रह को बैगिंग द्वारा उत्पादित पेड़ों के संबंध में सजाया जाता है।
इसलिए जब हम अंतिम मॉडल पर पहुंचने के लिए प्रत्येक पेड़ से औसत भविष्यवाणियां लेते हैं, तो इसमें कम परिवर्तनशीलता होती है और एक बैग्ड मॉडल की तुलना में कम परीक्षण त्रुटि दर होती है।
यादृच्छिक वनों का उपयोग करते समय, जब भी हम निर्णय वृक्ष को विभाजित करते हैं, तो हम आम तौर पर एम = √ पी भविष्यवक्ताओं को विभाजित उम्मीदवारों के रूप में मानते हैं।
उदाहरण के लिए, यदि हमारे पास डेटासेट में कुल मिलाकर p = 16 भविष्यवक्ता हैं, तो हम आम तौर पर केवल m = √16 = 4 भविष्यवक्ताओं को प्रत्येक विभाजन के लिए संभावित उम्मीदवार मानते हैं।
तकनीकी नोट:
दिलचस्प बात यह है कि अगर हम एम = पी चुनते हैं (यानी हम प्रत्येक विभाजन पर सभी भविष्यवक्ताओं को उम्मीदवार मानते हैं), तो यह बस बैगिंग का उपयोग करने के बराबर है।
आउट-ऑफ़-बैग त्रुटियों का अनुमान
बैगिंग के समान, हम आउट-ऑफ-बैग अनुमान का उपयोग करके एक यादृच्छिक वन मॉडल की परीक्षण त्रुटि की गणना कर सकते हैं।
यह दिखाया जा सकता है कि प्रत्येक बूटस्ट्रैप नमूने में मूल डेटासेट से लगभग 2/3 अवलोकन शामिल हैं। शेष तीसरे अवलोकनों का उपयोग पेड़ को फिट करने के लिए नहीं किया जाता है, उन्हें आउट-ऑफ-बैग (ओओबी) अवलोकन कहा जाता है।
हम प्रत्येक पेड़ से औसत भविष्यवाणी लेकर मूल डेटासेट में ith अवलोकन के मूल्य की भविष्यवाणी कर सकते हैं जिसमें वह अवलोकन OOB था।
हम मूल डेटासेट में सभी n अवलोकनों के लिए भविष्यवाणी करने के लिए इस दृष्टिकोण का उपयोग कर सकते हैं और इस प्रकार त्रुटि दर की गणना कर सकते हैं, जो परीक्षण त्रुटि का एक वैध अनुमान है।
परीक्षण त्रुटि का अनुमान लगाने के लिए इस दृष्टिकोण का उपयोग करने का लाभ यह है कि यह के-फोल्ड क्रॉस-सत्यापन की तुलना में बहुत तेज़ है, खासकर जब डेटासेट बड़ा होता है।
बेतरतीब जंगलों के फायदे और नुकसान
यादृच्छिक वन निम्नलिखित लाभ प्रदान करते हैं:
- ज्यादातर मामलों में, यादृच्छिक वन बैग्ड मॉडल और विशेष रूप से एकल निर्णय पेड़ों की तुलना में सटीकता में सुधार की पेशकश करेंगे।
- बेतरतीब जंगल बाहरी लोगों के लिए मजबूत होते हैं।
- यादृच्छिक वनों का उपयोग करने के लिए किसी पूर्वप्रसंस्करण की आवश्यकता नहीं है।
हालाँकि, यादृच्छिक वनों के निम्नलिखित संभावित नुकसान हैं:
- उनकी व्याख्या करना कठिन है।
- बड़े डेटा सेटों को खींचने के लिए वे कम्प्यूटेशनल रूप से गहन (यानी धीमे) हो सकते हैं।
व्यवहार में, डेटा वैज्ञानिक आम तौर पर पूर्वानुमानित सटीकता को अधिकतम करने के लिए यादृच्छिक वनों का उपयोग करते हैं, इसलिए यह तथ्य कि उनकी आसानी से व्याख्या नहीं की जा सकती, आमतौर पर कोई समस्या नहीं है।