โมเดลที่ซ้อนกันคืออะไร? (คำจำกัดความ & #038; ตัวอย่าง)
โมเดลแบบซ้อน เป็นเพียง โมเดลการถดถอย ที่ประกอบด้วยชุดย่อยของตัวแปรทำนายในโมเดลการถดถอยอื่น
ตัวอย่างเช่น สมมติว่าเรามีแบบจำลองการถดถอยต่อไปนี้ (เรียกว่าโมเดล A) ซึ่งทำนายจำนวนคะแนนที่ผู้เล่นบาสเก็ตบอลทำได้โดยพิจารณาจากตัวแปรทำนาย 4 ตัว:
คะแนน = β 0 + β 1 (นาที) + β 2 (สูง) + β 3 (ตำแหน่ง) + β 4 (ช็อต) + ε
ตัวอย่างของโมเดลที่ซ้อนกัน (เรียกว่าโมเดล B) จะเป็นโมเดลต่อไปนี้ที่มีตัวแปรทำนายเพียงสองตัวจากโมเดล A:
คะแนน = β 0 + β 1 (นาที) + β 2 (สูง) + ε
เราจะบอกว่า โมเดล B ซ้อนอยู่ภายในโมเดล A เนื่องจากโมเดล B มีเซตย่อยของตัวแปรทำนายจากโมเดล A
อย่างไรก็ตาม ลองพิจารณาว่าเรามีโมเดลอื่น (เรียกว่าโมเดล C) ที่มีตัวแปรทำนายสามตัวหรือไม่:
คะแนน = β 0 + β 1 (นาที) + β 2 (สูง) + β 3 (พยายามโยนโทษ)
เราจะไม่บอกว่าโมเดล C ซ้อนอยู่ในโมเดล A เพราะแต่ละโมเดลมีตัวแปรทำนายที่อีกโมเดลหนึ่งไม่มี
ความสำคัญของโมเดลที่ซ้อนกัน
เรามักจะใช้แบบจำลองที่ซ้อนกันในทางปฏิบัติ เมื่อเราต้องการทราบว่าแบบจำลองที่มีตัวแปรตัวทำนายครบชุดสามารถใส่ชุดข้อมูลได้ดีกว่าแบบจำลองที่มีชุดย่อยของตัวแปรตัวทำนายเหล่านั้นหรือไม่
ตัวอย่างเช่น ในสถานการณ์ข้างต้น เราสามารถปรับ โมเดลที่ครอบคลุม โดยใช้จำนวนนาทีที่เล่น ส่วนสูง ตำแหน่ง และช็อตที่พยายามคาดเดาจำนวนคะแนนที่ผู้เล่นบาสเก็ตบอลทำได้
อย่างไรก็ตาม เราอาจสงสัยว่าตำแหน่งและความพยายามในการยิงอาจไม่คาดเดาคะแนนได้ดีมาก
ดังนั้นเราจึงสามารถปรับ โมเดลที่ซ้อนกัน ซึ่งใช้เวลาเพียงนาทีที่เล่นและขว้างเพื่อทำนายคะแนนที่ได้
จากนั้นเราจะเปรียบเทียบทั้งสองโมเดลเพื่อดูว่ามีความแตกต่างที่มีนัยสำคัญทางสถิติหรือไม่
หากไม่มีความแตกต่างที่มีนัยสำคัญระหว่างโมเดลต่างๆ เราสามารถลบตำแหน่งและช็อตที่พยายามเป็นตัวแปรทำนายได้ เนื่องจากโมเดลเหล่านั้นไม่ได้ปรับปรุงโมเดลอย่างมีนัยสำคัญ
วิธีแยกวิเคราะห์โมเดลที่ซ้อนกัน
เพื่อตรวจสอบว่าแบบจำลองที่ซ้อนกันมีความแตกต่างอย่างมีนัยสำคัญจากแบบจำลอง “เต็ม” หรือไม่ โดยทั่วไปเราจะทำการทดสอบอัตราส่วนความน่าจะเป็นที่ใช้สมมติฐานว่างและสมมติฐานทางเลือกต่อไปนี้:
H 0 : โมเดลเต็มและโมเดลแบบซ้อนเข้ากับข้อมูลได้ดีพอๆ กัน ดังนั้นคุณควร ใช้โมเดลที่ซ้อนกัน
HA : โมเดลเต็มเหมาะกับข้อมูลได้ดีกว่าโมเดลที่ซ้อนกันอย่างมาก ดังนั้นคุณต้อง ใช้เทมเพลตแบบเต็ม
การทดสอบอัตราส่วนความน่าจะเป็นจะสร้างสถิติการทดสอบไคสแควร์และค่า p ที่สอดคล้องกัน
หาก ค่า p ของการทดสอบต่ำกว่าระดับนัยสำคัญที่กำหนด (เช่น 0.05) เราก็สามารถปฏิเสธสมมติฐานว่างและสรุปได้ว่าแบบจำลองแบบเต็มมีความพอดีที่ดีกว่าอย่างมาก
บทช่วยสอนต่อไปนี้จะอธิบายวิธีการทดสอบอัตราส่วนความน่าจะเป็นโดยใช้ R และ Python: