วิธีการวาดแผนผังการตัดสินใจใน r (พร้อมตัวอย่าง)
ใน การเรียนรู้ของเครื่อง แผนผังการตัดสินใจ คือแบบจำลองประเภทหนึ่งที่ใช้ชุดตัวแปรทำนายเพื่อสร้างแผนผังการตัดสินใจที่ทำนายค่าของตัวแปรตอบสนอง
วิธีที่ง่ายที่สุดในการวางแผนแผนผังการตัดสินใจใน R คือการใช้ฟังก์ชัน prp() จากแพ็คเกจ rpart.plot
ตัวอย่างต่อไปนี้แสดงวิธีใช้ฟังก์ชันนี้ในทางปฏิบัติ
ตัวอย่าง: การวาดแผนผังการตัดสินใจใน R
สำหรับตัวอย่างนี้ เราจะใช้ชุดข้อมูล Hitters จากแพ็คเกจ ISLR ซึ่งมีข้อมูลต่างๆ เกี่ยวกับนักเบสบอลมืออาชีพ 263 คน
เราจะใช้ชุดข้อมูลนี้เพื่อสร้างแผนผังการถดถอยที่ใช้โฮมรันและจำนวนปีที่เล่นเพื่อทำนายเงินเดือนของผู้เล่นที่กำหนด
รหัสต่อไปนี้แสดงวิธีการปรับแผนผังการถดถอยนี้ให้เหมาะสม และวิธีการใช้ฟังก์ชัน prp() เพื่อวาดแผนผัง:
library (ISLR) library (rpart) library (rpart.plot) #build the initial decision tree tree <- rpart(Salary ~ Years + HmRun, data=Hitters, control=rpart. control (cp= .0001 )) #identify best cp value to use best <- tree$cptable[which. min (tree$cptable[," xerror "])," CP "] #produce a pruned tree based on the best cp value pruned_tree <- prune (tree, cp=best) #plot the pruned tree prp(pruned_tree)
โปรดทราบว่าเรายังปรับแต่งลักษณะที่ปรากฏของแผนผังการตัดสินใจได้โดยใช้อาร์กิวเมนต์ faclen , extra , roundint และ digits ในฟังก์ชัน prp ():
#plot decision tree using custom arguments
prp(pruned_tree,
faclen= 0 , #use full names for factor labels
extra= 1 , #display number of observations for each terminal node
roundint= F , #don't round to integers in output
digits= 5 ) #display 5 decimal places in output
เราจะเห็นได้ว่าต้นไม้มีโหนดปลายหกจุด
โหนดเทอร์มินัลแต่ละโหนดจะแสดงเงินเดือนที่คาดการณ์ไว้ของผู้เล่นในโหนดนั้น รวมถึงจำนวนข้อสังเกตจากชุดข้อมูลดั้งเดิมที่เป็นของการจัดอันดับนั้น
ตัวอย่างเช่น เราจะเห็นได้ว่าในชุดข้อมูลดั้งเดิม มีผู้เล่น 90 คนที่มีประสบการณ์น้อยกว่า 4.5 ปี และเงินเดือนเฉลี่ยของพวกเขาอยู่ที่ $225.83K
นอกจากนี้เรายังสามารถใช้แผนภูมิเพื่อทำนายเงินเดือนของผู้เล่นที่กำหนดโดยพิจารณาจากประสบการณ์หลายปีและการวิ่งในบ้านโดยเฉลี่ย
ตัวอย่างเช่น ผู้เล่นที่มีประสบการณ์ 7 ปีและโฮมรันโดยเฉลี่ย 4 ครั้งจะมีเงินเดือนที่คาดหวังอยู่ที่ 502.81,000 ดอลลาร์
นี่คือข้อดีประการหนึ่งของการใช้แผนผังการตัดสินใจ: เราสามารถเห็นภาพและตีความผลลัพธ์ได้อย่างง่ายดาย
แหล่งข้อมูลเพิ่มเติม
บทช่วยสอนต่อไปนี้ให้ข้อมูลเพิ่มเติมเกี่ยวกับแผนผังการตัดสินใจ:
ความรู้เบื้องต้นเกี่ยวกับการจำแนกประเภทและการถดถอยต้นไม้
ต้นไม้ตัดสินใจกับป่าสุ่ม: อะไรคือความแตกต่าง?
วิธีจัดลำดับต้นไม้การจำแนกและการถดถอยใน R