แบบจำลองที่รอบคอบคืออะไร?


โมเดลที่มีความรอบคอบ คือแบบจำลองที่บรรลุถึงระดับความพอดีที่ต้องการโดยใช้ ตัวแปรอธิบาย น้อยที่สุดเท่าที่จะเป็นไปได้

เหตุผลเบื้องหลังแบบจำลองประเภทนี้เกิดจากแนวคิด เรื่องมีดโกนของ Occam (บางครั้งเรียกว่า “หลักการ parsimony”) ซึ่งกล่าวว่าคำอธิบายที่ง่ายที่สุดน่าจะเป็นคำอธิบายที่ถูกต้อง

เมื่อนำไปใช้กับสถิติแล้ว ควรเลือกใช้แบบจำลองที่มีพารามิเตอร์น้อยแต่มีความพอดีในระดับที่น่าพอใจมากกว่าแบบจำลองที่มีพารามิเตอร์มากมายและมีระดับความพอดีที่สูงกว่าเล็กน้อยเท่านั้น

มีสองเหตุผลสำหรับสิ่งนี้:

1. โมเดล Parsimonious ตีความและเข้าใจได้ง่ายกว่า โมเดลที่มีพารามิเตอร์น้อยกว่าจะเข้าใจและอธิบายได้ง่ายกว่า

2. โมเดล Parsimonious มีแนวโน้มที่จะมีความสามารถในการคาดการณ์ที่ดีกว่า โมเดลที่มีพารามิเตอร์น้อยกว่ามักจะทำงานได้ดีกว่าเมื่อนำไปใช้กับข้อมูลใหม่

ลองพิจารณาสองตัวอย่างต่อไปนี้เพื่ออธิบายแนวคิดเหล่านี้

ตัวอย่างที่ 1: โมเดล Parsimonious = การตีความอย่างง่าย

สมมติว่าเราต้องการสร้างแบบจำลองโดยใช้ชุดตัวแปรอธิบายที่เกี่ยวข้องกับอสังหาริมทรัพย์เพื่อทำนายราคาอสังหาริมทรัพย์ พิจารณาสองโมเดลต่อไปนี้ด้วยการปรับค่า R-squared:

รุ่น 1:

  • สมการ: ราคาบ้าน = 8,830 + 81*(ตารางฟุต)
  • ปรับ R2 : 0.7734

รุ่น 2:

  • สมการ: ราคาบ้าน = 8,921 + 77*(ตารางฟุต) + 7*(ตารางฟุต) 2 – 9*(อายุ) + 600*(ห้องนอน) + 38*(ห้องน้ำ)
  • ปรับ R2 : 0.7823

แบบจำลองแรกมีตัวแปรอธิบายเพียงตัวเดียวและ R2 ที่ปรับแล้วเป็น 0.7734 ในขณะที่รุ่นที่สองมีตัวแปรอธิบาย 5 ตัวที่มีการปรับ R2 สูงกว่าเล็กน้อย

ตามหลักการ parsimony เราอยากจะใช้แบบจำลองแรกเพราะแต่ละแบบจำลองมีความสามารถโดยประมาณในการอธิบายการเปลี่ยนแปลงของราคาบ้าน แต่แบบจำลองแรกนั้นเข้าใจและอธิบายได้ง่ายกว่า มาก

ตัวอย่างเช่น ในแบบจำลองแรก เรารู้ว่าการเพิ่มพื้นที่เป็นตารางฟุตของบ้านหนึ่งยูนิตสัมพันธ์กับการเพิ่มขึ้นของราคาบ้านโดยเฉลี่ยที่ 81 ดอลลาร์ มันง่ายที่จะเข้าใจและอธิบาย

อย่างไรก็ตาม ในตัวอย่างที่สอง การประมาณค่าสัมประสิทธิ์ตีความได้ยากกว่ามาก ตัวอย่างเช่น ห้องเพิ่มเติมในบ้านสัมพันธ์กับราคาบ้านที่เพิ่มขึ้นโดยเฉลี่ย 600 ดอลลาร์ โดยสมมติว่าพื้นที่เป็นตารางฟุต อายุของบ้าน และจำนวนห้องน้ำคงที่ มันยากกว่ามากที่จะเข้าใจและอธิบาย

ตัวอย่างที่ 2: โมเดล Parsimonious = การคาดการณ์ที่ดีขึ้น

โมเดล Parsimonious มีแนวโน้มที่จะคาดการณ์ชุดข้อมูลใหม่ได้แม่นยำมากขึ้น เนื่องจากมีแนวโน้มน้อยที่จะ พอดีกับ ชุดข้อมูลดั้งเดิม

โดยทั่วไป รุ่นที่มีพารามิเตอร์มากกว่าจะสร้างขนาดที่พอดีและมีค่า R 2 ที่สูงกว่ารุ่นที่มีพารามิเตอร์น้อยกว่า น่าเสียดายที่การรวมพารามิเตอร์มากเกินไปในแบบจำลองอาจทำให้แบบจำลองปรับตามสัญญาณรบกวน (หรือ “ความสุ่ม”) ของข้อมูล แทนที่จะเป็นความสัมพันธ์พื้นฐานที่แท้จริงระหว่างตัวแปรอธิบาย และตัวแปรตอบสนอง

ซึ่งหมายความว่าโมเดลที่ซับซ้อนมากซึ่งมีพารามิเตอร์จำนวนมากมีแนวโน้มว่าจะทำงานได้ไม่ดีในชุดข้อมูลใหม่ที่ไม่เคยเห็นมาก่อน เมื่อเปรียบเทียบกับโมเดลที่เรียบง่ายกว่าซึ่งมีพารามิเตอร์น้อยกว่า

วิธีการเลือกแบบจำลองที่รอบคอบ

อาจมีทั้งหลักสูตรที่เกี่ยวข้องกับหัวข้อ การเลือกแบบจำลอง แต่โดยพื้นฐานแล้ว การเลือกแบบจำลองที่รอบคอบหมายถึงการเลือกแบบจำลองที่ทำงานได้ดีที่สุดตามหน่วยเมตริก

หน่วยวัดที่ใช้โดยทั่วไปซึ่งประเมินแบบจำลองตามประสิทธิภาพในชุดข้อมูลการฝึกอบรม และ จำนวนพารามิเตอร์ ได้แก่:

1. เกณฑ์ข้อมูล Akaike (AIC)

AIC ของแบบจำลองสามารถคำนวณได้ดังนี้:

AIC = -2/n * LL + 2 * k/n

ทอง:

  • n: จำนวนการสังเกตในชุดข้อมูลการฝึกอบรม
  • LL: ความน่าจะเป็นของบันทึกของแบบจำลองบนชุดข้อมูลการฝึกอบรม
  • k: จำนวนพารามิเตอร์ในโมเดล

เมื่อใช้วิธีการนี้ คุณสามารถคำนวณ AIC ของแต่ละรุ่น จากนั้นเลือกแบบจำลองที่มีค่า AIC ต่ำสุดเป็นแบบจำลองที่ดีที่สุด

แนวทางนี้มีแนวโน้มที่จะสนับสนุนโมเดลที่ซับซ้อนมากกว่าเมื่อเปรียบเทียบกับวิธีถัดไป BIC

2. เกณฑ์ข้อมูลแบบเบย์ (BIC)

BIC ของแบบจำลองสามารถคำนวณได้ดังนี้:

BIC = -2 * LL + บันทึก(n) * k

ทอง:

  • n: จำนวนการสังเกตในชุดข้อมูลการฝึกอบรม
  • log: ลอการิทึมธรรมชาติ (ฐาน e)
  • LL: ความน่าจะเป็นของบันทึกของแบบจำลองบนชุดข้อมูลการฝึกอบรม
  • k: จำนวนพารามิเตอร์ในแบบจำลอง

เมื่อใช้วิธีการนี้ คุณสามารถคำนวณ BIC ของแต่ละรุ่น จากนั้นเลือกรุ่นที่มีค่า BIC ต่ำสุดเป็นรุ่นที่ดีที่สุด

แนวทางนี้มีแนวโน้มที่จะสนับสนุนโมเดลที่มีพารามิเตอร์น้อยกว่าเมื่อเปรียบเทียบกับวิธี AIC

3. ความยาวคำอธิบายขั้นต่ำ (MDL)

MDL เป็นวิธีการประเมินแบบจำลองจากสาขาทฤษฎีสารสนเทศ สามารถคำนวณได้ดังนี้:

MDL = L(ซ) + L(D | ชั่วโมง)

ทอง:

  • ฮ: โมเดล.
  • D: การคาดการณ์ที่ทำโดยแบบจำลอง
  • L(h): จำนวนบิตที่จำเป็นในการแสดงโมเดล
  • L(D | h): จำนวนบิตที่จำเป็นในการแสดงการคาดการณ์ของแบบจำลองเกี่ยวกับข้อมูลการฝึก

เมื่อใช้วิธีการนี้ คุณสามารถคำนวณ MDL ของแต่ละรุ่น จากนั้นเลือกโมเดลที่มีค่า MDL ต่ำสุดเป็นโมเดลที่ดีที่สุด

ขึ้นอยู่กับประเภทของปัญหาที่คุณกำลังดำเนินการ อาจเลือกใช้วิธีใดวิธีหนึ่งเหล่านี้ – AIC, BIC หรือ MDL มากกว่าวิธีอื่นๆ ในการเลือกแบบจำลองที่มีความรอบคอบ

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *