แบบจำลองที่รอบคอบคืออะไร?
โมเดลที่มีความรอบคอบ คือแบบจำลองที่บรรลุถึงระดับความพอดีที่ต้องการโดยใช้ ตัวแปรอธิบาย น้อยที่สุดเท่าที่จะเป็นไปได้
เหตุผลเบื้องหลังแบบจำลองประเภทนี้เกิดจากแนวคิด เรื่องมีดโกนของ Occam (บางครั้งเรียกว่า “หลักการ parsimony”) ซึ่งกล่าวว่าคำอธิบายที่ง่ายที่สุดน่าจะเป็นคำอธิบายที่ถูกต้อง
เมื่อนำไปใช้กับสถิติแล้ว ควรเลือกใช้แบบจำลองที่มีพารามิเตอร์น้อยแต่มีความพอดีในระดับที่น่าพอใจมากกว่าแบบจำลองที่มีพารามิเตอร์มากมายและมีระดับความพอดีที่สูงกว่าเล็กน้อยเท่านั้น
มีสองเหตุผลสำหรับสิ่งนี้:
1. โมเดล Parsimonious ตีความและเข้าใจได้ง่ายกว่า โมเดลที่มีพารามิเตอร์น้อยกว่าจะเข้าใจและอธิบายได้ง่ายกว่า
2. โมเดล Parsimonious มีแนวโน้มที่จะมีความสามารถในการคาดการณ์ที่ดีกว่า โมเดลที่มีพารามิเตอร์น้อยกว่ามักจะทำงานได้ดีกว่าเมื่อนำไปใช้กับข้อมูลใหม่
ลองพิจารณาสองตัวอย่างต่อไปนี้เพื่ออธิบายแนวคิดเหล่านี้
ตัวอย่างที่ 1: โมเดล Parsimonious = การตีความอย่างง่าย
สมมติว่าเราต้องการสร้างแบบจำลองโดยใช้ชุดตัวแปรอธิบายที่เกี่ยวข้องกับอสังหาริมทรัพย์เพื่อทำนายราคาอสังหาริมทรัพย์ พิจารณาสองโมเดลต่อไปนี้ด้วยการปรับค่า R-squared:
รุ่น 1:
- สมการ: ราคาบ้าน = 8,830 + 81*(ตารางฟุต)
- ปรับ R2 : 0.7734
รุ่น 2:
- สมการ: ราคาบ้าน = 8,921 + 77*(ตารางฟุต) + 7*(ตารางฟุต) 2 – 9*(อายุ) + 600*(ห้องนอน) + 38*(ห้องน้ำ)
- ปรับ R2 : 0.7823
แบบจำลองแรกมีตัวแปรอธิบายเพียงตัวเดียวและ R2 ที่ปรับแล้วเป็น 0.7734 ในขณะที่รุ่นที่สองมีตัวแปรอธิบาย 5 ตัวที่มีการปรับ R2 สูงกว่าเล็กน้อย
ตามหลักการ parsimony เราอยากจะใช้แบบจำลองแรกเพราะแต่ละแบบจำลองมีความสามารถโดยประมาณในการอธิบายการเปลี่ยนแปลงของราคาบ้าน แต่แบบจำลองแรกนั้นเข้าใจและอธิบายได้ง่ายกว่า มาก
ตัวอย่างเช่น ในแบบจำลองแรก เรารู้ว่าการเพิ่มพื้นที่เป็นตารางฟุตของบ้านหนึ่งยูนิตสัมพันธ์กับการเพิ่มขึ้นของราคาบ้านโดยเฉลี่ยที่ 81 ดอลลาร์ มันง่ายที่จะเข้าใจและอธิบาย
อย่างไรก็ตาม ในตัวอย่างที่สอง การประมาณค่าสัมประสิทธิ์ตีความได้ยากกว่ามาก ตัวอย่างเช่น ห้องเพิ่มเติมในบ้านสัมพันธ์กับราคาบ้านที่เพิ่มขึ้นโดยเฉลี่ย 600 ดอลลาร์ โดยสมมติว่าพื้นที่เป็นตารางฟุต อายุของบ้าน และจำนวนห้องน้ำคงที่ มันยากกว่ามากที่จะเข้าใจและอธิบาย
ตัวอย่างที่ 2: โมเดล Parsimonious = การคาดการณ์ที่ดีขึ้น
โมเดล Parsimonious มีแนวโน้มที่จะคาดการณ์ชุดข้อมูลใหม่ได้แม่นยำมากขึ้น เนื่องจากมีแนวโน้มน้อยที่จะ พอดีกับ ชุดข้อมูลดั้งเดิม
โดยทั่วไป รุ่นที่มีพารามิเตอร์มากกว่าจะสร้างขนาดที่พอดีและมีค่า R 2 ที่สูงกว่ารุ่นที่มีพารามิเตอร์น้อยกว่า น่าเสียดายที่การรวมพารามิเตอร์มากเกินไปในแบบจำลองอาจทำให้แบบจำลองปรับตามสัญญาณรบกวน (หรือ “ความสุ่ม”) ของข้อมูล แทนที่จะเป็นความสัมพันธ์พื้นฐานที่แท้จริงระหว่างตัวแปรอธิบาย และตัวแปรตอบสนอง
ซึ่งหมายความว่าโมเดลที่ซับซ้อนมากซึ่งมีพารามิเตอร์จำนวนมากมีแนวโน้มว่าจะทำงานได้ไม่ดีในชุดข้อมูลใหม่ที่ไม่เคยเห็นมาก่อน เมื่อเปรียบเทียบกับโมเดลที่เรียบง่ายกว่าซึ่งมีพารามิเตอร์น้อยกว่า
วิธีการเลือกแบบจำลองที่รอบคอบ
อาจมีทั้งหลักสูตรที่เกี่ยวข้องกับหัวข้อ การเลือกแบบจำลอง แต่โดยพื้นฐานแล้ว การเลือกแบบจำลองที่รอบคอบหมายถึงการเลือกแบบจำลองที่ทำงานได้ดีที่สุดตามหน่วยเมตริก
หน่วยวัดที่ใช้โดยทั่วไปซึ่งประเมินแบบจำลองตามประสิทธิภาพในชุดข้อมูลการฝึกอบรม และ จำนวนพารามิเตอร์ ได้แก่:
1. เกณฑ์ข้อมูล Akaike (AIC)
AIC ของแบบจำลองสามารถคำนวณได้ดังนี้:
AIC = -2/n * LL + 2 * k/n
ทอง:
- n: จำนวนการสังเกตในชุดข้อมูลการฝึกอบรม
- LL: ความน่าจะเป็นของบันทึกของแบบจำลองบนชุดข้อมูลการฝึกอบรม
- k: จำนวนพารามิเตอร์ในโมเดล
เมื่อใช้วิธีการนี้ คุณสามารถคำนวณ AIC ของแต่ละรุ่น จากนั้นเลือกแบบจำลองที่มีค่า AIC ต่ำสุดเป็นแบบจำลองที่ดีที่สุด
แนวทางนี้มีแนวโน้มที่จะสนับสนุนโมเดลที่ซับซ้อนมากกว่าเมื่อเปรียบเทียบกับวิธีถัดไป BIC
2. เกณฑ์ข้อมูลแบบเบย์ (BIC)
BIC ของแบบจำลองสามารถคำนวณได้ดังนี้:
BIC = -2 * LL + บันทึก(n) * k
ทอง:
- n: จำนวนการสังเกตในชุดข้อมูลการฝึกอบรม
- log: ลอการิทึมธรรมชาติ (ฐาน e)
- LL: ความน่าจะเป็นของบันทึกของแบบจำลองบนชุดข้อมูลการฝึกอบรม
- k: จำนวนพารามิเตอร์ในแบบจำลอง
เมื่อใช้วิธีการนี้ คุณสามารถคำนวณ BIC ของแต่ละรุ่น จากนั้นเลือกรุ่นที่มีค่า BIC ต่ำสุดเป็นรุ่นที่ดีที่สุด
แนวทางนี้มีแนวโน้มที่จะสนับสนุนโมเดลที่มีพารามิเตอร์น้อยกว่าเมื่อเปรียบเทียบกับวิธี AIC
3. ความยาวคำอธิบายขั้นต่ำ (MDL)
MDL เป็นวิธีการประเมินแบบจำลองจากสาขาทฤษฎีสารสนเทศ สามารถคำนวณได้ดังนี้:
MDL = L(ซ) + L(D | ชั่วโมง)
ทอง:
- ฮ: โมเดล.
- D: การคาดการณ์ที่ทำโดยแบบจำลอง
- L(h): จำนวนบิตที่จำเป็นในการแสดงโมเดล
- L(D | h): จำนวนบิตที่จำเป็นในการแสดงการคาดการณ์ของแบบจำลองเกี่ยวกับข้อมูลการฝึก
เมื่อใช้วิธีการนี้ คุณสามารถคำนวณ MDL ของแต่ละรุ่น จากนั้นเลือกโมเดลที่มีค่า MDL ต่ำสุดเป็นโมเดลที่ดีที่สุด
ขึ้นอยู่กับประเภทของปัญหาที่คุณกำลังดำเนินการ อาจเลือกใช้วิธีใดวิธีหนึ่งเหล่านี้ – AIC, BIC หรือ MDL มากกว่าวิธีอื่นๆ ในการเลือกแบบจำลองที่มีความรอบคอบ