ต้นไม้ตัดสินใจกับป่าสุ่ม: อะไรคือความแตกต่าง?


แผนผังการตัดสินใจ คือโมเดลแมชชีนเลิร์นนิงประเภทหนึ่งที่ใช้เมื่อความสัมพันธ์ระหว่างชุดตัวแปรทำนายและตัวแปรตอบสนองไม่เป็นเชิงเส้น

แนวคิดพื้นฐานเบื้องหลังแผนผังการตัดสินใจคือการสร้าง “แผนผัง” โดยใช้ชุดตัวแปรทำนายที่ทำนายค่าของตัวแปรตอบสนองโดยใช้กฎการตัดสินใจ

ตัวอย่างเช่น เราสามารถใช้ตัวแปรทำนาย “จำนวนปีที่เล่น” และ “ค่าเฉลี่ยโฮมรัน” เพื่อทำนายเงินเดือนประจำปีของนักเบสบอลมืออาชีพ

เมื่อใช้ชุดข้อมูลนี้ โมเดลแผนผังการตัดสินใจจะมีลักษณะดังนี้:

ตัวอย่างแผนผังการตัดสินใจ

ต่อไปนี้คือวิธีที่เราจะตีความแผนผังการตัดสินใจนี้:

  • ผู้เล่นที่เล่นน้อยกว่า 4.5 ปีจะมีเงินเดือนที่คาดการณ์ไว้ที่ 225.8k
  • ผู้เล่นที่เล่นมากกว่า 4.5 ปีหรือมากกว่าและน้อยกว่า 16.5 โฮมรันโดยเฉลี่ยจะมีเงินเดือนที่คาดการณ์ไว้ที่ 577.6K
  • ผู้เล่นที่มีประสบการณ์ 4.5 ปีขึ้นไป และโฮมรันเฉลี่ย 16.5 หรือมากกว่านั้น มีเงินเดือนที่คาดหวังอยู่ที่ 975.6K

ข้อได้เปรียบหลักของแผนผังการตัดสินใจคือสามารถปรับให้เข้ากับชุดข้อมูลได้อย่างรวดเร็ว และแบบจำลองขั้นสุดท้ายสามารถแสดงเป็นภาพและตีความได้อย่างชัดเจนโดยใช้แผนภาพ “ต้นไม้” เช่นเดียวกับที่กล่าวมาข้างต้น

ข้อเสียเปรียบหลักคือแผนผังการตัดสินใจมีแนวโน้มที่จะ พอดีกับ ชุดข้อมูลการฝึกอบรมมากเกินไป ซึ่งหมายความว่ามีแนวโน้มที่จะทำงานได้ไม่ดีกับข้อมูลที่มองไม่เห็น สิ่งนี้อาจได้รับอิทธิพลอย่างมากจากค่าผิดปกติในชุดข้อมูล

ส่วนขยายของแผนผังการตัดสินใจคือแบบจำลองที่เรียกว่า ฟอเรสต์สุ่ม ซึ่งโดยพื้นฐานแล้วคือชุดของแผนผังการตัดสินใจ

ต่อไปนี้เป็นขั้นตอนที่เราใช้เพื่อสร้างแบบจำลองฟอเรสต์แบบสุ่ม:

1. นำตัวอย่างที่บูตสแตรปแล้วจากชุดข้อมูลดั้งเดิม

2. สำหรับตัวอย่างบูตสแตรปแต่ละตัว ให้สร้างแผนผังการตัดสินใจโดยใช้ชุดย่อยแบบสุ่มของตัวแปรทำนาย

3. เฉลี่ยการคาดการณ์จากต้นไม้แต่ละต้นเพื่อให้ได้แบบจำลองขั้นสุดท้าย

ข้อดีของฟอเรสต์สุ่มก็คือ พวกมันมีแนวโน้มที่จะทำงานได้ดีกว่าแผนผังการตัดสินใจบนข้อมูลที่มองไม่เห็น และมีแนวโน้มที่จะเกิดค่าผิดปกติน้อยกว่า

ข้อเสียของฟอเรสต์แบบสุ่มคือไม่มีทางที่จะแสดงภาพโมเดลขั้นสุดท้ายได้ และการสร้างโมเดลเหล่านั้นอาจใช้เวลานานหากคุณไม่มีพลังในการประมวลผลเพียงพอ หรือชุดข้อมูลที่คุณกำลังทำงานอยู่มีขนาดใหญ่มาก

ข้อดีและข้อเสีย: ต้นไม้การตัดสินใจเทียบกับ ป่าสุ่ม

ตารางต่อไปนี้สรุปข้อดีและข้อเสียของแผนผังการตัดสินใจเมื่อเปรียบเทียบกับฟอเรสต์สุ่ม:

ตารางสรุปความแตกต่างระหว่างแผนผังการตัดสินใจและฟอเรสต์สุ่ม

ต่อไปนี้เป็นคำอธิบายโดยย่อของแต่ละแถวในตาราง:

1. การตีความ

ต้นไม้การตัดสินใจนั้นตีความได้ง่ายเพราะเราสามารถสร้างแผนภาพต้นไม้เพื่อให้เห็นภาพและเข้าใจแบบจำลองขั้นสุดท้ายได้

ในทางกลับกัน เราไม่สามารถเห็นภาพฟอเรสต์แบบสุ่มได้ และมักจะเป็นเรื่องยากที่จะเข้าใจว่าแบบจำลองฟอเรสต์สุ่มขั้นสุดท้ายตัดสินใจอย่างไร

2. ความแม่นยำ

เนื่องจากแผนผังการตัดสินใจมีแนวโน้มที่จะติดตั้งชุดข้อมูลการฝึกอบรมมากเกินไป จึงมีแนวโน้มที่จะทำงานได้แย่ลงในชุดข้อมูลที่มองไม่เห็น

ในทางกลับกัน ฟอเรสต์แบบสุ่มมีแนวโน้มที่จะมีความแม่นยำมากกับชุดข้อมูลที่มองไม่เห็น เนื่องจากหลีกเลี่ยงชุดข้อมูลการฝึกอบรมที่มากเกินไป

3. ฟิตติ้งมากเกินไป

ดังที่กล่าวไว้ข้างต้น แผนผังการตัดสินใจมักจะเหมาะสมกับข้อมูลการฝึกอบรมมากเกินไป ซึ่งหมายความว่าแผนผังเหล่านี้มีแนวโน้มที่จะปรับให้เข้ากับ “สัญญาณรบกวน” ของชุดข้อมูล ซึ่งตรงข้ามกับแบบจำลองที่แท้จริง

ในทางกลับกัน เนื่องจากฟอเรสต์สุ่มใช้เฉพาะตัวแปรทำนายบางอย่างเพื่อสร้างแผนผังการตัดสินใจแต่ละแผนผัง ต้นไม้สุดท้ายจึงมีแนวโน้มที่จะได้รับการตกแต่ง ซึ่งหมายความว่าแบบจำลองฟอเรสต์สุ่มไม่น่าจะเหมาะกับชุดข้อมูลมากเกินไป

4. ค่าผิดปกติ

ต้นไม้การตัดสินใจมีความอ่อนไหวมากที่จะได้รับผลกระทบจากค่าผิดปกติ

ในทางกลับกัน เนื่องจากแบบจำลองฟอเรสต์แบบสุ่มสร้างแผนผังการตัดสินใจแยกกันจำนวนมาก จากนั้นจึงนำค่าเฉลี่ยของการคาดการณ์จากแผนผังเหล่านั้น จึงมีโอกาสน้อยมากที่จะได้รับผลกระทบจากค่าผิดปกติ

5. การคำนวณ

แผนผังการตัดสินใจสามารถปรับให้เข้ากับชุดข้อมูลได้อย่างรวดเร็ว

ในทางกลับกัน ฟอเรสต์แบบสุ่มนั้นมีความเข้มข้นในการคำนวณมากกว่ามาก และอาจใช้เวลานานในการสร้าง ขึ้นอยู่กับขนาดของชุดข้อมูล

เมื่อใดควรใช้แผนผังการตัดสินใจหรือฟอเรสต์สุ่ม

โดยทั่วไป:

คุณควรใช้ แผนผังการตัดสินใจ หากคุณต้องการสร้างโมเดลแบบไม่เชิงเส้นอย่างรวดเร็ว และสามารถตีความได้ว่าโมเดลตัดสินใจอย่างไรได้อย่างง่ายดาย

อย่างไรก็ตาม คุณควรใช้ ฟอเรสต์แบบสุ่ม หากคุณมีพลังในการคำนวณสูงและต้องการสร้างแบบจำลองที่มีแนวโน้มว่าจะแม่นยำมากโดยไม่ต้องกังวลว่าจะตีความแบบจำลองอย่างไร

ในโลกแห่งความเป็นจริง วิศวกรการเรียนรู้ของเครื่องจักรและนักวิทยาศาสตร์ข้อมูลมักใช้ฟอเรสต์แบบสุ่มเนื่องจากมีความแม่นยำมากและคอมพิวเตอร์และระบบที่ทันสมัยมักจะจัดการกับชุดข้อมูลขนาดใหญ่ที่ไม่สามารถจัดการได้มาก่อน

แหล่งข้อมูลเพิ่มเติม

บทช่วยสอนต่อไปนี้ให้ข้อมูลเบื้องต้นเกี่ยวกับแผนผังการตัดสินใจและแบบจำลองฟอเรสต์แบบสุ่ม:

บทช่วยสอนต่อไปนี้จะอธิบายวิธีจัดแผนผังการตัดสินใจและฟอเรสต์แบบสุ่มใน R:

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *