บทนำง่ายๆ เกี่ยวกับป่าสุ่ม


เมื่อความสัมพันธ์ระหว่างชุดของตัวแปรทำนายและ ตัวแปรตอบสนอง มีความซับซ้อนมาก เรามักจะใช้วิธีการแบบไม่เชิงเส้นเพื่อสร้างแบบจำลองความสัมพันธ์ระหว่างตัวแปรเหล่านั้น

วิธีการหนึ่งคือ แผนผังการจำแนกประเภทและการถดถอย (มักเรียกสั้น ๆ ว่า CART) ซึ่งใช้ชุดตัวแปรทำนายเพื่อสร้าง แผนผังการตัดสินใจ ที่ทำนายค่าของตัวแปรตอบสนอง

ตัวอย่างของแผนผังการถดถอยที่ใช้ประสบการณ์หลายปีและการวิ่งโฮมรันโดยเฉลี่ยเพื่อทำนายเงินเดือนของนักเบสบอลมืออาชีพ

ข้อดีของแผนผังการตัดสินใจคือสามารถตีความและเห็นภาพได้ง่าย ปัญหาคือพวกเขามีแนวโน้มที่จะประสบกับ ความแปรปรวนสูง นั่นคือ ถ้าเราแบ่งชุดข้อมูลออกเป็นสองซีกและใช้แผนผังการตัดสินใจกับทั้งสองซีก ผลลัพธ์อาจแตกต่างกันมาก

วิธีหนึ่งในการลดความแปรปรวนของแผนผังการตัดสินใจคือการใช้วิธีการที่เรียกว่า การบรรจุถุง ซึ่งทำงานดังนี้:

1. นำตัวอย่างที่บูตสแตรป b จากชุดข้อมูลต้นฉบับ

2. สร้างแผนผังการตัดสินใจสำหรับตัวอย่างบูตสแตรปแต่ละรายการ

3. เฉลี่ยการคาดการณ์จากต้นไม้แต่ละต้นเพื่อให้ได้แบบจำลองขั้นสุดท้าย

ข้อดีของแนวทางนี้คือ โดยทั่วไปโมเดลแบบคลัสเตอร์จะช่วยเพิ่มอัตราข้อผิดพลาดในการทดสอบเมื่อเปรียบเทียบกับแผนผังการตัดสินใจเดี่ยว

ข้อเสียคือการคาดการณ์จากการรวบรวมต้นไม้แบบถุงสามารถมีความสัมพันธ์กันสูงได้ หากมีตัวทำนายที่แข็งแกร่งมากในชุดข้อมูล ในกรณีนี้ ต้นไม้ที่ห่อไว้ส่วนใหญ่หรือทั้งหมดจะใช้ตัวทำนายนี้สำหรับการแยกครั้งแรก ส่งผลให้ต้นไม้มีความคล้ายคลึงกันและมีการทำนายที่มีความสัมพันธ์กันสูง

ดังนั้นเมื่อเราหาค่าเฉลี่ยการคาดการณ์จากแต่ละแผนภูมิเพื่อให้ได้แบบจำลองสุดท้าย เป็นไปได้ว่าแบบจำลองนี้ไม่ได้ลดความแปรปรวนลงจริงๆ เมื่อเปรียบเทียบกับแผนผังการตัดสินใจเดี่ยว

วิธีหนึ่งในการแก้ไขปัญหานี้คือการใช้วิธีที่เรียกว่า ป่าสุ่ม

ป่าสุ่มคืออะไร?

เช่นเดียวกับการบรรจุถุง ป่าสุ่มยังเก็บ ตัวอย่าง ที่บูตจากชุดข้อมูลดั้งเดิมด้วย

อย่างไรก็ตาม เมื่อสร้างแผนผังการตัดสินใจสำหรับตัวอย่างบูตสแตรปแต่ละตัวอย่าง แต่ละครั้งที่มีการพิจารณาการแบ่งแยกในแผนผัง จะมีการพิจารณาเฉพาะตัวอย่างสุ่มของตัวทำนาย m เท่านั้นที่จะเป็นตัวเลือกสำหรับการแยกระหว่างชุดตัวทำนาย p ครบชุด

นี่คือวิธีการที่สมบูรณ์ที่ฟอเรสต์สุ่มใช้เพื่อสร้างแบบจำลอง:

1. นำตัวอย่างที่บูตสแตรป b จากชุดข้อมูลต้นฉบับ

2. สร้างแผนผังการตัดสินใจสำหรับตัวอย่างบูตสแตรปแต่ละรายการ

  • เมื่อสร้างแผนภูมิต้นไม้ แต่ละครั้งที่มีการพิจารณาการแยก จะมีเพียงตัวอย่างสุ่มของตัวทำนาย m เท่านั้นที่จะได้รับการพิจารณาว่าเป็นตัวเลือกสำหรับการแยกจากชุดตัวทำนาย p ครบชุด

3. เฉลี่ยการคาดการณ์จากต้นไม้แต่ละต้นเพื่อให้ได้แบบจำลองขั้นสุดท้าย

เมื่อใช้วิธีนี้ การรวบรวมต้นไม้ในป่าสุ่มจะ ได้รับการตกแต่ง ด้วยต้นไม้ที่เกิดจากการบรรจุถุง

ดังนั้นเมื่อเรานำการคาดการณ์โดยเฉลี่ยจากแผนผังแต่ละต้นมาสู่แบบจำลองขั้นสุดท้าย ก็มีแนวโน้มที่จะมีความแปรปรวนน้อยกว่าและส่งผลให้มีอัตราข้อผิดพลาดในการทดสอบต่ำกว่าแบบจำลองแบบบรรจุถุง

เมื่อใช้ฟอเรสต์สุ่ม โดยทั่วไปเราจะพิจารณาตัวทำนาย m = √ p เป็นตัวทำนายแยกในแต่ละครั้งที่เราแยกแผนผังการตัดสินใจ

ตัวอย่างเช่น หากเรามีตัวทำนายทั้งหมด p = 16 ตัวในชุดข้อมูล โดยทั่วไปเราจะพิจารณาเฉพาะตัวทำนาย m = √16 = 4 ตัวเท่านั้นที่เป็นตัวเลือกที่เป็นไปได้สำหรับการแยกแต่ละส่วน

หมายเหตุทางเทคนิค:

สิ่งที่น่าสนใจคือ หากเราเลือก m = p (กล่าวคือ เราถือว่าตัวทำนายทั้งหมดเป็นตัวเลือกในแต่ละการแยก) นี่จะเทียบเท่ากับการใช้การบรรจุถุง

การประมาณค่าข้อผิดพลาดเมื่อสินค้าหมด

เช่นเดียวกับการบรรจุถุง เราสามารถคำนวณข้อผิดพลาดในการทดสอบของแบบจำลองฟอเรสต์แบบสุ่มโดยใช้ การประมาณค่าเมื่อไม่มีถุง

สามารถแสดงให้เห็นว่าแต่ละตัวอย่างบูตสแตรปมีการสังเกตประมาณ 2/3 จากชุดข้อมูลดั้งเดิม การสังเกตที่เหลืออีกสามส่วนที่ไม่ได้ใช้ให้พอดีกับต้นไม้เรียกว่า การสังเกตนอกถุง (OOB)

เราสามารถทำนายค่าของการสังเกตครั้งที่ i ในชุดข้อมูลดั้งเดิมโดยนำการทำนายโดยเฉลี่ยจากต้นไม้แต่ละต้นที่มีการสังเกตนั้นเป็น OOB

เราสามารถใช้วิธีนี้เพื่อคาดการณ์การสังเกตทั้งหมด n รายการในชุดข้อมูลดั้งเดิม และคำนวณอัตราข้อผิดพลาด ซึ่งเป็นค่าประมาณที่ถูกต้องของข้อผิดพลาดในการทดสอบ

ข้อดีของการใช้แนวทางนี้เพื่อประมาณค่าข้อผิดพลาดในการทดสอบคือเร็วกว่า k-fold cross-validation มาก โดยเฉพาะอย่างยิ่งเมื่อชุดข้อมูลมีขนาดใหญ่

ข้อดีและข้อเสียของป่าสุ่ม

ป่าสุ่มมี ข้อดี ดังต่อไปนี้:

  • ในกรณีส่วนใหญ่ ฟอเรสต์แบบสุ่มจะเสนอการปรับปรุงความแม่นยำเหนือแบบจำลองที่บรรจุถุง และโดยเฉพาะอย่างยิ่งเหนือแผนผังการตัดสินใจเดี่ยว
  • ป่าสุ่มมีความเข้มแข็งต่อค่าผิดปกติ
  • ไม่จำเป็นต้องมีการประมวลผลล่วงหน้าเพื่อใช้ฟอเรสต์แบบสุ่ม

อย่างไรก็ตาม ป่าสุ่มมี ข้อเสียที่อาจเกิดขึ้นดังต่อไปนี้:

  • พวกมันตีความได้ยาก
  • ซึ่งอาจต้องใช้การคำนวณมาก (เช่น ช้า) เพื่อดึงข้อมูลจากชุดข้อมูลขนาดใหญ่

ในทางปฏิบัติ นักวิทยาศาสตร์ข้อมูลมักจะใช้ฟอเรสต์แบบสุ่มเพื่อเพิ่มความแม่นยำในการทำนายให้สูงสุด ดังนั้นการที่ป่าเหล่านี้ไม่สามารถตีความได้ง่ายจึงไม่ใช่ปัญหา

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *