आर में निर्णय वृक्ष कैसे बनाएं (उदाहरण के साथ)
मशीन लर्निंग में, निर्णय वृक्ष एक प्रकार का मॉडल है जो निर्णय वृक्ष बनाने के लिए भविष्यवक्ता चर के एक सेट का उपयोग करता है जो प्रतिक्रिया चर के मूल्य की भविष्यवाणी करता है।
R में निर्णय वृक्ष को प्लॉट करने का सबसे आसान तरीका rpart.plot पैकेज से prp() फ़ंक्शन का उपयोग करना है।
निम्नलिखित उदाहरण दिखाता है कि व्यवहार में इस फ़ंक्शन का उपयोग कैसे करें।
उदाहरण: आर में निर्णय वृक्ष बनाना
इस उदाहरण के लिए, हम आईएसएलआर पैकेज से हिटर्स डेटासेट का उपयोग करेंगे, जिसमें 263 पेशेवर बेसबॉल खिलाड़ियों के बारे में विभिन्न जानकारी शामिल है।
हम इस डेटासेट का उपयोग एक रिग्रेशन ट्री बनाने के लिए करेंगे जो किसी दिए गए खिलाड़ी के वेतन की भविष्यवाणी करने के लिए होम रन और खेले गए वर्षों का उपयोग करता है।
निम्नलिखित कोड दिखाता है कि इस प्रतिगमन पेड़ को कैसे फिट किया जाए और पेड़ को खींचने के लिए पीआरपी () फ़ंक्शन का उपयोग कैसे किया जाए:
library (ISLR) library (rpart) library (rpart.plot) #build the initial decision tree tree <- rpart(Salary ~ Years + HmRun, data=Hitters, control=rpart. control (cp= .0001 )) #identify best cp value to use best <- tree$cptable[which. min (tree$cptable[," xerror "])," CP "] #produce a pruned tree based on the best cp value pruned_tree <- prune (tree, cp=best) #plot the pruned tree prp(pruned_tree)
ध्यान दें कि हम पीआरपी () फ़ंक्शन में फ़ैक्लेन , अतिरिक्त , राउंडिंट और अंक तर्कों का उपयोग करके निर्णय वृक्ष की उपस्थिति को भी अनुकूलित कर सकते हैं:
#plot decision tree using custom arguments
prp(pruned_tree,
faclen= 0 , #use full names for factor labels
extra= 1 , #display number of observations for each terminal node
roundint= F , #don't round to integers in output
digits= 5 ) #display 5 decimal places in output
हम देख सकते हैं कि पेड़ में छह टर्मिनल नोड हैं।
प्रत्येक टर्मिनल नोड उस नोड में खिलाड़ियों के अनुमानित वेतन के साथ-साथ उस रेटिंग से संबंधित मूल डेटासेट से टिप्पणियों की संख्या प्रदर्शित करता है।
उदाहरण के लिए, हम देख सकते हैं कि मूल डेटासेट में, 4.5 साल से कम अनुभव वाले 90 खिलाड़ी थे और उनका औसत वेतन $225.83K था।
हम किसी खिलाड़ी के वर्षों के अनुभव और औसत घरेलू रन के आधार पर उसके वेतन की भविष्यवाणी करने के लिए भी पेड़ का उपयोग कर सकते हैं।
उदाहरण के लिए, एक खिलाड़ी जिसके पास 7 साल का अनुभव है और औसतन 4 घरेलू रन हैं, उसका अपेक्षित वेतन $502.81k है।
यह निर्णय वृक्ष का उपयोग करने के फायदों में से एक है: हम परिणामों की आसानी से कल्पना और व्याख्या कर सकते हैं।
अतिरिक्त संसाधन
निम्नलिखित ट्यूटोरियल निर्णय वृक्षों के बारे में अतिरिक्त जानकारी प्रदान करते हैं:
वर्गीकरण और प्रतिगमन वृक्षों का परिचय
निर्णय वृक्ष बनाम यादृच्छिक वन: क्या अंतर है?
आर में वर्गीकरण और प्रतिगमन पेड़ों को कैसे फिट करें