บทนำง่ายๆ เกี่ยวกับป่าสุ่ม
เมื่อความสัมพันธ์ระหว่างชุดของตัวแปรทำนายและ ตัวแปรตอบสนอง มีความซับซ้อนมาก เรามักจะใช้วิธีการแบบไม่เชิงเส้นเพื่อสร้างแบบจำลองความสัมพันธ์ระหว่างตัวแปรเหล่านั้น
วิธีการหนึ่งคือ แผนผังการจำแนกประเภทและการถดถอย (มักเรียกสั้น ๆ ว่า CART) ซึ่งใช้ชุดตัวแปรทำนายเพื่อสร้าง แผนผังการตัดสินใจ ที่ทำนายค่าของตัวแปรตอบสนอง
ข้อดีของแผนผังการตัดสินใจคือสามารถตีความและเห็นภาพได้ง่าย ปัญหาคือพวกเขามีแนวโน้มที่จะประสบกับ ความแปรปรวนสูง นั่นคือ ถ้าเราแบ่งชุดข้อมูลออกเป็นสองซีกและใช้แผนผังการตัดสินใจกับทั้งสองซีก ผลลัพธ์อาจแตกต่างกันมาก
วิธีหนึ่งในการลดความแปรปรวนของแผนผังการตัดสินใจคือการใช้วิธีการที่เรียกว่า การบรรจุถุง ซึ่งทำงานดังนี้:
1. นำตัวอย่างที่บูตสแตรป b จากชุดข้อมูลต้นฉบับ
2. สร้างแผนผังการตัดสินใจสำหรับตัวอย่างบูตสแตรปแต่ละรายการ
3. เฉลี่ยการคาดการณ์จากต้นไม้แต่ละต้นเพื่อให้ได้แบบจำลองขั้นสุดท้าย
ข้อดีของแนวทางนี้คือ โดยทั่วไปโมเดลแบบคลัสเตอร์จะช่วยเพิ่มอัตราข้อผิดพลาดในการทดสอบเมื่อเปรียบเทียบกับแผนผังการตัดสินใจเดี่ยว
ข้อเสียคือการคาดการณ์จากการรวบรวมต้นไม้แบบถุงสามารถมีความสัมพันธ์กันสูงได้ หากมีตัวทำนายที่แข็งแกร่งมากในชุดข้อมูล ในกรณีนี้ ต้นไม้ที่ห่อไว้ส่วนใหญ่หรือทั้งหมดจะใช้ตัวทำนายนี้สำหรับการแยกครั้งแรก ส่งผลให้ต้นไม้มีความคล้ายคลึงกันและมีการทำนายที่มีความสัมพันธ์กันสูง
ดังนั้นเมื่อเราหาค่าเฉลี่ยการคาดการณ์จากแต่ละแผนภูมิเพื่อให้ได้แบบจำลองสุดท้าย เป็นไปได้ว่าแบบจำลองนี้ไม่ได้ลดความแปรปรวนลงจริงๆ เมื่อเปรียบเทียบกับแผนผังการตัดสินใจเดี่ยว
วิธีหนึ่งในการแก้ไขปัญหานี้คือการใช้วิธีที่เรียกว่า ป่าสุ่ม
ป่าสุ่มคืออะไร?
เช่นเดียวกับการบรรจุถุง ป่าสุ่มยังเก็บ ตัวอย่าง ที่บูตจากชุดข้อมูลดั้งเดิมด้วย
อย่างไรก็ตาม เมื่อสร้างแผนผังการตัดสินใจสำหรับตัวอย่างบูตสแตรปแต่ละตัวอย่าง แต่ละครั้งที่มีการพิจารณาการแบ่งแยกในแผนผัง จะมีการพิจารณาเฉพาะตัวอย่างสุ่มของตัวทำนาย m เท่านั้นที่จะเป็นตัวเลือกสำหรับการแยกระหว่างชุดตัวทำนาย p ครบชุด
นี่คือวิธีการที่สมบูรณ์ที่ฟอเรสต์สุ่มใช้เพื่อสร้างแบบจำลอง:
1. นำตัวอย่างที่บูตสแตรป b จากชุดข้อมูลต้นฉบับ
2. สร้างแผนผังการตัดสินใจสำหรับตัวอย่างบูตสแตรปแต่ละรายการ
- เมื่อสร้างแผนภูมิต้นไม้ แต่ละครั้งที่มีการพิจารณาการแยก จะมีเพียงตัวอย่างสุ่มของตัวทำนาย m เท่านั้นที่จะได้รับการพิจารณาว่าเป็นตัวเลือกสำหรับการแยกจากชุดตัวทำนาย p ครบชุด
3. เฉลี่ยการคาดการณ์จากต้นไม้แต่ละต้นเพื่อให้ได้แบบจำลองขั้นสุดท้าย
เมื่อใช้วิธีนี้ การรวบรวมต้นไม้ในป่าสุ่มจะ ได้รับการตกแต่ง ด้วยต้นไม้ที่เกิดจากการบรรจุถุง
ดังนั้นเมื่อเรานำการคาดการณ์โดยเฉลี่ยจากแผนผังแต่ละต้นมาสู่แบบจำลองขั้นสุดท้าย ก็มีแนวโน้มที่จะมีความแปรปรวนน้อยกว่าและส่งผลให้มีอัตราข้อผิดพลาดในการทดสอบต่ำกว่าแบบจำลองแบบบรรจุถุง
เมื่อใช้ฟอเรสต์สุ่ม โดยทั่วไปเราจะพิจารณาตัวทำนาย m = √ p เป็นตัวทำนายแยกในแต่ละครั้งที่เราแยกแผนผังการตัดสินใจ
ตัวอย่างเช่น หากเรามีตัวทำนายทั้งหมด p = 16 ตัวในชุดข้อมูล โดยทั่วไปเราจะพิจารณาเฉพาะตัวทำนาย m = √16 = 4 ตัวเท่านั้นที่เป็นตัวเลือกที่เป็นไปได้สำหรับการแยกแต่ละส่วน
หมายเหตุทางเทคนิค:
สิ่งที่น่าสนใจคือ หากเราเลือก m = p (กล่าวคือ เราถือว่าตัวทำนายทั้งหมดเป็นตัวเลือกในแต่ละการแยก) นี่จะเทียบเท่ากับการใช้การบรรจุถุง
การประมาณค่าข้อผิดพลาดเมื่อสินค้าหมด
เช่นเดียวกับการบรรจุถุง เราสามารถคำนวณข้อผิดพลาดในการทดสอบของแบบจำลองฟอเรสต์แบบสุ่มโดยใช้ การประมาณค่าเมื่อไม่มีถุง
สามารถแสดงให้เห็นว่าแต่ละตัวอย่างบูตสแตรปมีการสังเกตประมาณ 2/3 จากชุดข้อมูลดั้งเดิม การสังเกตที่เหลืออีกสามส่วนที่ไม่ได้ใช้ให้พอดีกับต้นไม้เรียกว่า การสังเกตนอกถุง (OOB)
เราสามารถทำนายค่าของการสังเกตครั้งที่ i ในชุดข้อมูลดั้งเดิมโดยนำการทำนายโดยเฉลี่ยจากต้นไม้แต่ละต้นที่มีการสังเกตนั้นเป็น OOB
เราสามารถใช้วิธีนี้เพื่อคาดการณ์การสังเกตทั้งหมด n รายการในชุดข้อมูลดั้งเดิม และคำนวณอัตราข้อผิดพลาด ซึ่งเป็นค่าประมาณที่ถูกต้องของข้อผิดพลาดในการทดสอบ
ข้อดีของการใช้แนวทางนี้เพื่อประมาณค่าข้อผิดพลาดในการทดสอบคือเร็วกว่า k-fold cross-validation มาก โดยเฉพาะอย่างยิ่งเมื่อชุดข้อมูลมีขนาดใหญ่
ข้อดีและข้อเสียของป่าสุ่ม
ป่าสุ่มมี ข้อดี ดังต่อไปนี้:
- ในกรณีส่วนใหญ่ ฟอเรสต์แบบสุ่มจะเสนอการปรับปรุงความแม่นยำเหนือแบบจำลองที่บรรจุถุง และโดยเฉพาะอย่างยิ่งเหนือแผนผังการตัดสินใจเดี่ยว
- ป่าสุ่มมีความเข้มแข็งต่อค่าผิดปกติ
- ไม่จำเป็นต้องมีการประมวลผลล่วงหน้าเพื่อใช้ฟอเรสต์แบบสุ่ม
อย่างไรก็ตาม ป่าสุ่มมี ข้อเสียที่อาจเกิดขึ้นดังต่อไปนี้:
- พวกมันตีความได้ยาก
- ซึ่งอาจต้องใช้การคำนวณมาก (เช่น ช้า) เพื่อดึงข้อมูลจากชุดข้อมูลขนาดใหญ่
ในทางปฏิบัติ นักวิทยาศาสตร์ข้อมูลมักจะใช้ฟอเรสต์แบบสุ่มเพื่อเพิ่มความแม่นยำในการทำนายให้สูงสุด ดังนั้นการที่ป่าเหล่านี้ไม่สามารถตีความได้ง่ายจึงไม่ใช่ปัญหา