ข้อมูลเบื้องต้นเกี่ยวกับการบรรจุถุงในแมชชีนเลิร์นนิง


เมื่อความสัมพันธ์ระหว่างชุดของตัวแปรทำนายและ ตัวแปรตอบสนอง เป็นแบบเส้นตรง เราสามารถใช้วิธีต่างๆ เช่น การถดถอยเชิงเส้นพหุคูณ เพื่อสร้างแบบจำลองความสัมพันธ์ระหว่างตัวแปรได้

อย่างไรก็ตาม เมื่อความสัมพันธ์มีความซับซ้อนมากขึ้น เรามักจะต้องใช้วิธีที่ไม่เป็นเชิงเส้น

วิธีการหนึ่งคือ แผนผังการจำแนกประเภทและการถดถอย (มักเรียกสั้น ๆ ว่า CART) ซึ่งใช้ชุดตัวแปรทำนายเพื่อสร้าง แผนผังการตัดสินใจ ที่ทำนายค่าของตัวแปรตอบสนอง

ตัวอย่างของแผนผังการถดถอยที่ใช้ประสบการณ์หลายปีและการวิ่งโฮมรันโดยเฉลี่ยเพื่อทำนายเงินเดือนของนักเบสบอลมืออาชีพ

อย่างไรก็ตาม ข้อเสียของโมเดล CART คือ มีแนวโน้มที่จะได้รับผลกระทบจาก ความแปรปรวนสูง นั่นคือ ถ้าเราแบ่งชุดข้อมูลออกเป็นสองซีกและใช้แผนผังการตัดสินใจกับทั้งสองซีก ผลลัพธ์อาจแตกต่างกันมาก

วิธีหนึ่งที่เราสามารถใช้เพื่อลดความแปรปรวนของโมเดล CART เรียกว่า การบรรจุถุง บางครั้งเรียกว่า การรวมบูทสแตรป

การบรรจุถุงคืออะไร?

เมื่อเราสร้างแผนผังการตัดสินใจเดียว เราจะใช้ข้อมูลการฝึกอบรมเพียงชุดเดียวเพื่อสร้างแบบจำลอง

อย่างไรก็ตาม การบรรจุถุง ใช้วิธีการดังต่อไปนี้:

1. นำตัวอย่างที่บูตสแตรป b จากชุดข้อมูลต้นฉบับ

  • โปรดจำไว้ว่า ตัวอย่างที่บูตสแตรป คือตัวอย่างจากชุดข้อมูลดั้งเดิมซึ่งมีการสังเกตพร้อมกับการแทนที่

2. สร้างแผนผังการตัดสินใจสำหรับตัวอย่างบูตสแตรปแต่ละรายการ

3. เฉลี่ยการคาดการณ์จากต้นไม้แต่ละต้นเพื่อให้ได้แบบจำลองขั้นสุดท้าย

  • สำหรับแผนผังการถดถอย เราจะหาค่าเฉลี่ยของการทำนายที่ทำโดยทรี B
  • สำหรับต้นไม้จำแนกประเภท เราใช้คำทำนายที่พบบ่อยที่สุดจากต้นไม้ B

การบรรจุถุงสามารถใช้กับอัลกอริธึมแมชชีนเลิร์นนิงใดก็ได้ แต่มีประโยชน์อย่างยิ่งสำหรับแผนผังการตัดสินใจ เนื่องจากมีความแปรปรวนสูงโดยธรรมชาติ และการบรรจุถุงสามารถลดความแปรปรวนได้อย่างมาก ส่งผลให้ข้อผิดพลาดในการทดสอบลดลง

ในการใช้การบรรจุถุงกับต้นไม้ตัดสินใจ เรา จะปลูก ต้นไม้แต่ละต้นในระดับความลึกโดยไม่ต้องตัดแต่งกิ่ง ส่งผลให้ต้นไม้แต่ละต้นมีความแปรปรวนสูง แต่มีอคติต่ำ จากนั้นเมื่อเราหาค่าเฉลี่ยการคาดการณ์จากต้นไม้เหล่านี้ เราก็จะสามารถลดความแปรปรวนลงได้

ในทางปฏิบัติ โดยทั่วไปแล้วประสิทธิภาพที่เหมาะสมที่สุดจะเกิดขึ้นได้โดยใช้ต้นไม้จำนวน 50 ถึง 500 ต้น แต่ก็เป็นไปได้ที่จะนำต้นไม้หลายพันต้นมาสร้างเป็นแบบจำลองขั้นสุดท้ายได้

เพียงจำไว้ว่าการปรับต้นไม้ให้เหมาะสมมากขึ้นจะต้องใช้พลังในการประมวลผลมากขึ้น ซึ่งอาจเป็นปัญหาหรือไม่ก็ได้ ขึ้นอยู่กับขนาดของชุดข้อมูล

การประมาณค่าข้อผิดพลาดเมื่อสินค้าหมด

ปรากฎว่าเราสามารถคำนวณข้อผิดพลาดในการทดสอบของแบบจำลองที่บรรจุถุงได้โดยไม่ต้องอาศัย การตรวจสอบข้าม k-fold

เหตุผลก็คือ แต่ละตัวอย่างบูตสแตรปสามารถแสดงได้ว่ามีการสังเกตประมาณ 2/3 จากชุดข้อมูลดั้งเดิม การสังเกตที่เหลืออีกสามส่วนที่ไม่ได้ใช้ให้พอดีกับต้นไม้ที่บรรจุถุงเรียกว่า การสังเกตนอกถุง (OOB)

เราสามารถทำนายค่าของการสังเกตครั้งที่ i ในชุดข้อมูลดั้งเดิมโดยนำการทำนายโดยเฉลี่ยจากต้นไม้แต่ละต้นที่มีการสังเกตนั้นเป็น OOB

เราสามารถใช้แนวทางนี้ทำนายการสังเกตทั้งหมด n รายการในชุดข้อมูลดั้งเดิม และคำนวณอัตราข้อผิดพลาด ซึ่งเป็นค่าประมาณที่ถูกต้องของข้อผิดพลาดในการทดสอบ

ข้อดีของการใช้แนวทางนี้เพื่อประมาณค่าข้อผิดพลาดในการทดสอบคือเร็วกว่าการตรวจสอบข้าม k-fold มาก โดยเฉพาะอย่างยิ่งเมื่อชุดข้อมูลมีขนาดใหญ่

เข้าใจถึงความสำคัญของตัวทำนาย

โปรดจำไว้ว่าข้อดีอย่างหนึ่งของแผนผังการตัดสินใจคือสามารถตีความและแสดงภาพได้ง่าย

เมื่อเราใช้การบรรจุถุงแทน เราไม่สามารถตีความหรือเห็นภาพต้นไม้แต่ละต้นได้อีกต่อไป เนื่องจากแบบจำลองในถุงขั้นสุดท้ายเป็นผลมาจากการเฉลี่ยต้นไม้หลายๆ ต้น เราได้รับความแม่นยำในการทำนายโดยสูญเสียความสามารถในการตีความ

อย่างไรก็ตาม เรายังคงสามารถเข้าใจความสำคัญของตัวแปรทำนายแต่ละตัวได้โดยการคำนวณการลดลงทั้งหมดใน RSS (ผลรวมที่เหลือของกำลังสอง) เนื่องจากการกระจายตัวของตัวทำนายที่กำหนด ซึ่งเป็นค่าเฉลี่ยของต้นไม้ B ทั้งหมด ยิ่งค่ามากขึ้น ตัวทำนายก็ยิ่งมีความสำคัญมากขึ้นเท่านั้น

แผนภูมิความสำคัญของตัวแปรสำหรับแบบจำลองการบรรจุถุง
ตัวอย่างแผนภูมิความสำคัญของตัวแปร

ในทำนองเดียวกัน สำหรับแบบจำลองการจำแนกประเภท เราสามารถคำนวณการลดดัชนี Gini ทั้งหมดได้เนื่องจากการแจกแจงเหนือตัวทำนายที่กำหนด ซึ่งเป็นค่าเฉลี่ยของ B -tree ทั้งหมด ยิ่งค่ามากขึ้น ตัวทำนายก็จะยิ่งมีความสำคัญมากขึ้นเท่านั้น

ดังนั้นแม้ว่าเราจะตีความแบบจำลองโดยรวมขั้นสุดท้ายไม่ได้แน่ชัด แต่เรายังสามารถเข้าใจได้ว่าตัวแปรตัวทำนายแต่ละตัวมีความสำคัญเพียงใดเมื่อทำนายการตอบสนอง

ไปไกลกว่าการบรรจุถุง

ข้อดีของการบรรจุถุงคือ โดยทั่วไปจะช่วยเพิ่มอัตราข้อผิดพลาดในการทดสอบเมื่อเปรียบเทียบกับแผนผังการตัดสินใจเดียว

ข้อเสียคือการคาดการณ์จากการรวบรวมต้นไม้แบบถุงสามารถมีความสัมพันธ์กันสูงได้ หากมีตัวทำนายที่แข็งแกร่งมากในชุดข้อมูล

ในกรณีนี้ ต้นไม้ที่ห่อไว้ส่วนใหญ่หรือทั้งหมดจะใช้ตัวทำนายนี้สำหรับการแยกครั้งแรก ส่งผลให้ต้นไม้มีความคล้ายคลึงกันและมีการทำนายที่มีความสัมพันธ์กันสูง

วิธีหนึ่งในการแก้ไขปัญหานี้คือการใช้ป่าสุ่ม ซึ่งใช้วิธีการที่คล้ายกันในการบรรจุถุง แต่สามารถผลิตต้นไม้ประดับได้ ซึ่งมักจะนำไปสู่อัตราข้อผิดพลาดในการทดสอบที่ลดลง

คุณสามารถอ่านคำแนะนำง่ายๆ เกี่ยวกับป่าสุ่มได้ ที่นี่

แหล่งข้อมูลเพิ่มเติม

ความรู้เบื้องต้นเกี่ยวกับการจำแนกประเภทและการถดถอยต้นไม้
วิธีการบรรจุถุงใน R (ทีละขั้นตอน)

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *