ความรู้เบื้องต้นเกี่ยวกับการจำแนกประเภทและการถดถอยต้นไม้


เมื่อความสัมพันธ์ระหว่างชุดของตัวแปรทำนายและ ตัวแปรตอบสนอง เป็นแบบเส้นตรง วิธีการต่างๆ เช่น การถดถอยเชิงเส้นหลายตัว จะสามารถสร้างแบบจำลองการทำนายที่แม่นยำได้

อย่างไรก็ตาม เมื่อความสัมพันธ์ระหว่างชุดตัวทำนายและการตอบสนองมีความไม่เชิงเส้นและซับซ้อนอย่างมาก วิธีการไม่เชิงเส้นอาจทำงานได้ดีกว่า

ตัวอย่างของวิธีการแบบไม่เชิงเส้นคือ แผนผังการจำแนกประเภทและการถดถอย ซึ่งมักใช้อักษรย่อว่า CART

ตามชื่อที่แนะนำ โมเดล CART ใช้ชุดของตัวแปรทำนายเพื่อสร้าง แผนผังการตัดสินใจ ที่ทำนายค่าของตัวแปรตอบสนอง

ตัวอย่างเช่น สมมติว่าเรามีชุดข้อมูลที่มีตัวแปรทำนายจำนวน ปีที่เล่น และ โฮมรันเฉลี่ย และตัวแปรการตอบสนอง เงินเดือนประจำปี สำหรับนักเบสบอลมืออาชีพหลายร้อยคน

แผนผังการถดถอยอาจมีลักษณะดังนี้สำหรับชุดข้อมูลนี้:

ตัวอย่างแผนผังการถดถอย

วิธีการตีความต้นไม้มีดังนี้:

  • ผู้เล่นที่เล่นน้อยกว่า 4.5 ปีจะมีเงินเดือนที่คาดการณ์ไว้ที่ 225.8k
  • ผู้เล่นที่เล่นมากกว่า 4.5 ปีหรือมากกว่าและน้อยกว่า 16.5 โฮมรันโดยเฉลี่ยจะมีเงินเดือนที่คาดการณ์ไว้ที่ 577.6K
  • ผู้เล่นที่มีประสบการณ์การเล่น 4.5 ปีขึ้นไป และโฮมรันเฉลี่ย 16.5 ครั้งขึ้นไป มีเงินเดือนที่คาดหวังอยู่ที่ 975.6K ดอลลาร์

ผลลัพธ์ของแบบจำลองนี้น่าจะสมเหตุสมผล โดยสังหรณ์ใจ ผู้เล่นที่มีประสบการณ์มากกว่าและโฮมรันโดยเฉลี่ยมากกว่ามักจะได้รับเงินเดือนสูงกว่า

จากนั้นเราก็สามารถใช้โมเดลนี้ทำนายเงินเดือนของผู้เล่นใหม่ได้

ตัวอย่างเช่น สมมติว่าผู้เล่นคนใดคนหนึ่งเล่นมา 8 ปีและโฮมรันเฉลี่ย 10 ครั้งต่อปี ตามแบบจำลองของเรา เราจะคาดการณ์ว่าผู้เล่นรายนี้จะมีเงินเดือนประจำปีอยู่ที่ 577.6,000 ดอลลาร์

โมเดลบาสเก็ตบอล

ข้อสังเกตบางประการเกี่ยวกับต้นไม้:

  • ตัวแปรทำนายตัวแรกที่อยู่ด้านบนสุดของแผนผังคือตัวแปรที่สำคัญที่สุด กล่าวคือตัวแปรที่มีอิทธิพลมากที่สุดต่อการทำนายค่าของตัวแปรตอบสนอง ในกรณีนี้ ปีที่เล่น จะทำนายเงินเดือนได้ดีกว่า ค่าเฉลี่ยของวงจร
  • บริเวณด้านล่างของต้นไม้เรียกว่า โหนดใบ ต้นไม้ต้นนี้มีโหนดเทอร์มินัลสามโหนด

ขั้นตอนการสร้างโมเดล CART

เราสามารถใช้ขั้นตอนต่อไปนี้เพื่อสร้างแบบจำลอง CART สำหรับชุดข้อมูลที่กำหนด:

ขั้นตอนที่ 1: ใช้การแยกไบนารีแบบเรียกซ้ำเพื่อขยายต้นไม้ขนาดใหญ่ในข้อมูลการฝึก

ขั้นแรก เราใช้อัลกอริธึม โลภ ที่เรียกว่าการแยกไบนารีแบบเรียกซ้ำเพื่อสร้างแผนภูมิการถดถอยโดยใช้วิธีการต่อไปนี้:

  • พิจารณาตัวแปรทำนายทั้งหมด X 1 , X 2 , … , ความคลาดเคลื่อนมาตรฐานตกค้าง) ต่ำสุด .
    • สำหรับแผนผังการจำแนกประเภท เราเลือกตัวทำนายและจุดตัดเพื่อให้แผนภูมิผลลัพธ์มีอัตราข้อผิดพลาดในการจำแนกประเภทต่ำที่สุด
  • ทำซ้ำขั้นตอนนี้ โดยหยุดเฉพาะเมื่อโหนดเทอร์มินัลแต่ละโหนดมีจำนวนการสังเกตน้อยกว่าจำนวนขั้นต่ำที่กำหนดเท่านั้น

อัลกอริธึมนี้เป็นอะไร ที่โลภมาก เพราะในแต่ละขั้นตอนของกระบวนการสร้างแผนผังจะเป็นตัวกำหนดการแยกที่ดีที่สุดตามขั้นตอนนั้นเท่านั้น แทนที่จะมองไปในอนาคตและเลือกการแยกที่จะนำไปสู่แผนผังทั่วโลกที่ดีขึ้นในระยะอนาคต

ขั้นตอนที่ 2: ใช้การตัดแต่งกิ่งที่ซับซ้อนด้านต้นทุนกับต้นไม้ใหญ่เพื่อให้ได้ลำดับต้นไม้ที่ดีที่สุด โดยยึดตาม α

เมื่อเราปลูกต้นไม้ใหญ่ได้แล้ว เราก็ต้อง ตัดแต่ง กิ่งโดยใช้วิธีการที่เรียกว่าการตัดแต่งกิ่งแบบซับซ้อน ซึ่งมีการทำงานดังนี้

  • สำหรับแต่ละแผนผังที่เป็นไปได้ที่มีโหนดเทอร์มินัล T ให้ค้นหาแผนผังที่ย่อ RSS + α|T| ให้เหลือน้อยที่สุด
  • โปรดทราบว่าเมื่อเราเพิ่มค่าของ α ต้นไม้ที่มีโหนดเทอร์มินัลมากกว่าจะถูกลงโทษ เพื่อให้แน่ใจว่าต้นไม้จะไม่ซับซ้อนเกินไป

กระบวนการนี้ส่งผลให้เกิดลำดับแผนผังที่ดีที่สุดสำหรับแต่ละค่าของ α

ขั้นตอนที่ 3: ใช้การตรวจสอบข้าม k-fold เพื่อเลือก α

เมื่อเราพบแผนผังที่ดีที่สุดสำหรับแต่ละค่าของ α แล้ว เราสามารถใช้ การตรวจสอบความถูกต้องข้ามแบบ k-fold เพื่อเลือกค่าของ α ที่จะช่วยลดข้อผิดพลาดในการทดสอบให้เหลือน้อยที่สุด

ขั้นตอนที่ 4: เลือกเทมเพลตสุดท้าย

สุดท้าย เราเลือกโมเดลสุดท้ายเป็นโมเดลที่สอดคล้องกับค่าที่เลือกของ α

ข้อดีและข้อเสียของรุ่น CART

รุ่น CART มี ข้อดี ดังต่อไปนี้:

อย่างไรก็ตาม โมเดล CART มี ข้อเสียดังต่อไปนี้:

  • พวกเขามีแนวโน้มที่จะไม่มีความแม่นยำในการคาดการณ์มากเท่ากับอัลกอริธึมการเรียนรู้ของเครื่องที่ไม่ใช่เชิงเส้นอื่นๆ อย่างไรก็ตาม การจัดกลุ่มแผนผังการตัดสินใจหลายๆ แบบด้วยวิธีต่างๆ เช่น การบรรจุถุง การเพิ่มระดับ และการสุ่มป่า จะทำให้ความแม่นยำในการทำนายของต้นไม้เหล่านี้ได้รับการปรับปรุงให้ดีขึ้น

ที่เกี่ยวข้อง: วิธีการจัดหมวดหมู่และการถดถอยต้นไม้ใน R

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *