วิธีการวาดแผนผังการตัดสินใจใน r (พร้อมตัวอย่าง)

โดย ดร.เบนจามิน แอนเดอร์สัน กรกฎาคม 17, 2023 แนะนำ 0 ความคิดเห็น

ใน การเรียนรู้ของเครื่อง แผนผังการตัดสินใจ คือแบบจำลองประเภทหนึ่งที่ใช้ชุดตัวแปรทำนายเพื่อสร้างแผนผังการตัดสินใจที่ทำนายค่าของตัวแปรตอบสนอง

วิธีที่ง่ายที่สุดในการวางแผนแผนผังการตัดสินใจใน R คือการใช้ฟังก์ชัน prp() จากแพ็คเกจ rpart.plot

ตัวอย่างต่อไปนี้แสดงวิธีใช้ฟังก์ชันนี้ในทางปฏิบัติ

ตัวอย่าง: การวาดแผนผังการตัดสินใจใน R

สำหรับตัวอย่างนี้ เราจะใช้ชุดข้อมูล Hitters จากแพ็คเกจ ISLR ซึ่งมีข้อมูลต่างๆ เกี่ยวกับนักเบสบอลมืออาชีพ 263 คน

เราจะใช้ชุดข้อมูลนี้เพื่อสร้างแผนผังการถดถอยที่ใช้โฮมรันและจำนวนปีที่เล่นเพื่อทำนายเงินเดือนของผู้เล่นที่กำหนด

รหัสต่อไปนี้แสดงวิธีการปรับแผนผังการถดถอยนี้ให้เหมาะสม และวิธีการใช้ฟังก์ชัน prp() เพื่อวาดแผนผัง:

 library (ISLR)
library (rpart)
library (rpart.plot)

#build the initial decision tree
tree <- rpart(Salary ~ Years + HmRun, data=Hitters, control=rpart. control (cp= .0001 ))

#identify best cp value to use
best <- tree$cptable[which. min (tree$cptable[," xerror "])," CP "]

#produce a pruned tree based on the best cp value
pruned_tree <- prune (tree, cp=best)

#plot the pruned tree
prp(pruned_tree)

โปรดทราบว่าเรายังปรับแต่งลักษณะที่ปรากฏของแผนผังการตัดสินใจได้โดยใช้อาร์กิวเมนต์ faclen , extra , roundint และ digits ในฟังก์ชัน prp ():

 #plot decision tree using custom arguments
prp(pruned_tree,
    faclen= 0 , #use full names for factor labels
    extra= 1 , #display number of observations for each terminal node
    roundint= F , #don't round to integers in output
    digits= 5 ) #display 5 decimal places in output

วาดแผนผังการตัดสินใจใน R

เราจะเห็นได้ว่าต้นไม้มีโหนดปลายหกจุด

โหนดเทอร์มินัลแต่ละโหนดจะแสดงเงินเดือนที่คาดการณ์ไว้ของผู้เล่นในโหนดนั้น รวมถึงจำนวนข้อสังเกตจากชุดข้อมูลดั้งเดิมที่เป็นของการจัดอันดับนั้น

ตัวอย่างเช่น เราจะเห็นได้ว่าในชุดข้อมูลดั้งเดิม มีผู้เล่น 90 คนที่มีประสบการณ์น้อยกว่า 4.5 ปี และเงินเดือนเฉลี่ยของพวกเขาอยู่ที่ $225.83K

การตีความแผนผังการถดถอยใน R

นอกจากนี้เรายังสามารถใช้แผนภูมิเพื่อทำนายเงินเดือนของผู้เล่นที่กำหนดโดยพิจารณาจากประสบการณ์หลายปีและการวิ่งในบ้านโดยเฉลี่ย

ตัวอย่างเช่น ผู้เล่นที่มีประสบการณ์ 7 ปีและโฮมรันโดยเฉลี่ย 4 ครั้งจะมีเงินเดือนที่คาดหวังอยู่ที่ 502.81,000 ดอลลาร์

ตัวอย่างแผนผังการถดถอยใน R

นี่คือข้อดีประการหนึ่งของการใช้แผนผังการตัดสินใจ: เราสามารถเห็นภาพและตีความผลลัพธ์ได้อย่างง่ายดาย

แหล่งข้อมูลเพิ่มเติม

บทช่วยสอนต่อไปนี้ให้ข้อมูลเพิ่มเติมเกี่ยวกับแผนผังการตัดสินใจ:

ความรู้เบื้องต้นเกี่ยวกับการจำแนกประเภทและการถดถอยต้นไม้
ต้นไม้ตัดสินใจกับป่าสุ่ม: อะไรคือความแตกต่าง?
วิธีจัดลำดับต้นไม้การจำแนกและการถดถอยใน R

เกี่ยวกับผู้แต่ง

ดร.เบนจามิน แอนเดอร์สัน

สวัสดี ฉันชื่อเบนจามิน ศาสตราจารย์สถิติเกษียณอายุแล้ว และผันตัวมาเป็นครูสอนสถิติโดยเฉพาะ ด้วยประสบการณ์และความเชี่ยวชาญที่กว้างขวางในสาขาสถิติ ฉันกระตือรือร้นที่จะแบ่งปันความรู้ของฉันเพื่อเสริมศักยภาพนักเรียนผ่าน Statorials. รู้เพิ่มเติม

ตัวอย่าง: การวาดแผนผังการตัดสินใจใน R

แหล่งข้อมูลเพิ่มเติม

เกี่ยวกับผู้แต่ง

ดร.เบนจามิน แอนเดอร์สัน

เพิ่มความคิดเห็น