ข้อมูลเบื้องต้นเกี่ยวกับการบรรจุถุงในแมชชีนเลิร์นนิง
เมื่อความสัมพันธ์ระหว่างชุดของตัวแปรทำนายและ ตัวแปรตอบสนอง เป็นแบบเส้นตรง เราสามารถใช้วิธีต่างๆ เช่น การถดถอยเชิงเส้นพหุคูณ เพื่อสร้างแบบจำลองความสัมพันธ์ระหว่างตัวแปรได้
อย่างไรก็ตาม เมื่อความสัมพันธ์มีความซับซ้อนมากขึ้น เรามักจะต้องใช้วิธีที่ไม่เป็นเชิงเส้น
วิธีการหนึ่งคือ แผนผังการจำแนกประเภทและการถดถอย (มักเรียกสั้น ๆ ว่า CART) ซึ่งใช้ชุดตัวแปรทำนายเพื่อสร้าง แผนผังการตัดสินใจ ที่ทำนายค่าของตัวแปรตอบสนอง
อย่างไรก็ตาม ข้อเสียของโมเดล CART คือ มีแนวโน้มที่จะได้รับผลกระทบจาก ความแปรปรวนสูง นั่นคือ ถ้าเราแบ่งชุดข้อมูลออกเป็นสองซีกและใช้แผนผังการตัดสินใจกับทั้งสองซีก ผลลัพธ์อาจแตกต่างกันมาก
วิธีหนึ่งที่เราสามารถใช้เพื่อลดความแปรปรวนของโมเดล CART เรียกว่า การบรรจุถุง บางครั้งเรียกว่า การรวมบูทสแตรป
การบรรจุถุงคืออะไร?
เมื่อเราสร้างแผนผังการตัดสินใจเดียว เราจะใช้ข้อมูลการฝึกอบรมเพียงชุดเดียวเพื่อสร้างแบบจำลอง
อย่างไรก็ตาม การบรรจุถุง ใช้วิธีการดังต่อไปนี้:
1. นำตัวอย่างที่บูตสแตรป b จากชุดข้อมูลต้นฉบับ
- โปรดจำไว้ว่า ตัวอย่างที่บูตสแตรป คือตัวอย่างจากชุดข้อมูลดั้งเดิมซึ่งมีการสังเกตพร้อมกับการแทนที่
2. สร้างแผนผังการตัดสินใจสำหรับตัวอย่างบูตสแตรปแต่ละรายการ
3. เฉลี่ยการคาดการณ์จากต้นไม้แต่ละต้นเพื่อให้ได้แบบจำลองขั้นสุดท้าย
- สำหรับแผนผังการถดถอย เราจะหาค่าเฉลี่ยของการทำนายที่ทำโดยทรี B
- สำหรับต้นไม้จำแนกประเภท เราใช้คำทำนายที่พบบ่อยที่สุดจากต้นไม้ B
การบรรจุถุงสามารถใช้กับอัลกอริธึมแมชชีนเลิร์นนิงใดก็ได้ แต่มีประโยชน์อย่างยิ่งสำหรับแผนผังการตัดสินใจ เนื่องจากมีความแปรปรวนสูงโดยธรรมชาติ และการบรรจุถุงสามารถลดความแปรปรวนได้อย่างมาก ส่งผลให้ข้อผิดพลาดในการทดสอบลดลง
ในการใช้การบรรจุถุงกับต้นไม้ตัดสินใจ เรา จะปลูก ต้นไม้แต่ละต้นในระดับความลึกโดยไม่ต้องตัดแต่งกิ่ง ส่งผลให้ต้นไม้แต่ละต้นมีความแปรปรวนสูง แต่มีอคติต่ำ จากนั้นเมื่อเราหาค่าเฉลี่ยการคาดการณ์จากต้นไม้เหล่านี้ เราก็จะสามารถลดความแปรปรวนลงได้
ในทางปฏิบัติ โดยทั่วไปแล้วประสิทธิภาพที่เหมาะสมที่สุดจะเกิดขึ้นได้โดยใช้ต้นไม้จำนวน 50 ถึง 500 ต้น แต่ก็เป็นไปได้ที่จะนำต้นไม้หลายพันต้นมาสร้างเป็นแบบจำลองขั้นสุดท้ายได้
เพียงจำไว้ว่าการปรับต้นไม้ให้เหมาะสมมากขึ้นจะต้องใช้พลังในการประมวลผลมากขึ้น ซึ่งอาจเป็นปัญหาหรือไม่ก็ได้ ขึ้นอยู่กับขนาดของชุดข้อมูล
การประมาณค่าข้อผิดพลาดเมื่อสินค้าหมด
ปรากฎว่าเราสามารถคำนวณข้อผิดพลาดในการทดสอบของแบบจำลองที่บรรจุถุงได้โดยไม่ต้องอาศัย การตรวจสอบข้าม k-fold
เหตุผลก็คือ แต่ละตัวอย่างบูตสแตรปสามารถแสดงได้ว่ามีการสังเกตประมาณ 2/3 จากชุดข้อมูลดั้งเดิม การสังเกตที่เหลืออีกสามส่วนที่ไม่ได้ใช้ให้พอดีกับต้นไม้ที่บรรจุถุงเรียกว่า การสังเกตนอกถุง (OOB)
เราสามารถทำนายค่าของการสังเกตครั้งที่ i ในชุดข้อมูลดั้งเดิมโดยนำการทำนายโดยเฉลี่ยจากต้นไม้แต่ละต้นที่มีการสังเกตนั้นเป็น OOB
เราสามารถใช้แนวทางนี้ทำนายการสังเกตทั้งหมด n รายการในชุดข้อมูลดั้งเดิม และคำนวณอัตราข้อผิดพลาด ซึ่งเป็นค่าประมาณที่ถูกต้องของข้อผิดพลาดในการทดสอบ
ข้อดีของการใช้แนวทางนี้เพื่อประมาณค่าข้อผิดพลาดในการทดสอบคือเร็วกว่าการตรวจสอบข้าม k-fold มาก โดยเฉพาะอย่างยิ่งเมื่อชุดข้อมูลมีขนาดใหญ่
เข้าใจถึงความสำคัญของตัวทำนาย
โปรดจำไว้ว่าข้อดีอย่างหนึ่งของแผนผังการตัดสินใจคือสามารถตีความและแสดงภาพได้ง่าย
เมื่อเราใช้การบรรจุถุงแทน เราไม่สามารถตีความหรือเห็นภาพต้นไม้แต่ละต้นได้อีกต่อไป เนื่องจากแบบจำลองในถุงขั้นสุดท้ายเป็นผลมาจากการเฉลี่ยต้นไม้หลายๆ ต้น เราได้รับความแม่นยำในการทำนายโดยสูญเสียความสามารถในการตีความ
อย่างไรก็ตาม เรายังคงสามารถเข้าใจความสำคัญของตัวแปรทำนายแต่ละตัวได้โดยการคำนวณการลดลงทั้งหมดใน RSS (ผลรวมที่เหลือของกำลังสอง) เนื่องจากการกระจายตัวของตัวทำนายที่กำหนด ซึ่งเป็นค่าเฉลี่ยของต้นไม้ B ทั้งหมด ยิ่งค่ามากขึ้น ตัวทำนายก็ยิ่งมีความสำคัญมากขึ้นเท่านั้น
ในทำนองเดียวกัน สำหรับแบบจำลองการจำแนกประเภท เราสามารถคำนวณการลดดัชนี Gini ทั้งหมดได้เนื่องจากการแจกแจงเหนือตัวทำนายที่กำหนด ซึ่งเป็นค่าเฉลี่ยของ B -tree ทั้งหมด ยิ่งค่ามากขึ้น ตัวทำนายก็จะยิ่งมีความสำคัญมากขึ้นเท่านั้น
ดังนั้นแม้ว่าเราจะตีความแบบจำลองโดยรวมขั้นสุดท้ายไม่ได้แน่ชัด แต่เรายังสามารถเข้าใจได้ว่าตัวแปรตัวทำนายแต่ละตัวมีความสำคัญเพียงใดเมื่อทำนายการตอบสนอง
ไปไกลกว่าการบรรจุถุง
ข้อดีของการบรรจุถุงคือ โดยทั่วไปจะช่วยเพิ่มอัตราข้อผิดพลาดในการทดสอบเมื่อเปรียบเทียบกับแผนผังการตัดสินใจเดียว
ข้อเสียคือการคาดการณ์จากการรวบรวมต้นไม้แบบถุงสามารถมีความสัมพันธ์กันสูงได้ หากมีตัวทำนายที่แข็งแกร่งมากในชุดข้อมูล
ในกรณีนี้ ต้นไม้ที่ห่อไว้ส่วนใหญ่หรือทั้งหมดจะใช้ตัวทำนายนี้สำหรับการแยกครั้งแรก ส่งผลให้ต้นไม้มีความคล้ายคลึงกันและมีการทำนายที่มีความสัมพันธ์กันสูง
วิธีหนึ่งในการแก้ไขปัญหานี้คือการใช้ป่าสุ่ม ซึ่งใช้วิธีการที่คล้ายกันในการบรรจุถุง แต่สามารถผลิตต้นไม้ประดับได้ ซึ่งมักจะนำไปสู่อัตราข้อผิดพลาดในการทดสอบที่ลดลง
คุณสามารถอ่านคำแนะนำง่ายๆ เกี่ยวกับป่าสุ่มได้ ที่นี่
แหล่งข้อมูลเพิ่มเติม
ความรู้เบื้องต้นเกี่ยวกับการจำแนกประเภทและการถดถอยต้นไม้
วิธีการบรรจุถุงใน R (ทีละขั้นตอน)