โมเดลที่ซ้อนกันคืออะไร? (คำจำกัดความ & #038; ตัวอย่าง)


โมเดลแบบซ้อน เป็นเพียง โมเดลการถดถอย ที่ประกอบด้วยชุดย่อยของตัวแปรทำนายในโมเดลการถดถอยอื่น

ตัวอย่างเช่น สมมติว่าเรามีแบบจำลองการถดถอยต่อไปนี้ (เรียกว่าโมเดล A) ซึ่งทำนายจำนวนคะแนนที่ผู้เล่นบาสเก็ตบอลทำได้โดยพิจารณาจากตัวแปรทำนาย 4 ตัว:

คะแนน = β 0 + β 1 (นาที) + β 2 (สูง) + β 3 (ตำแหน่ง) + β 4 (ช็อต) + ε

ตัวอย่างของโมเดลที่ซ้อนกัน (เรียกว่าโมเดล B) จะเป็นโมเดลต่อไปนี้ที่มีตัวแปรทำนายเพียงสองตัวจากโมเดล A:

คะแนน = β 0 + β 1 (นาที) + β 2 (สูง) + ε

เราจะบอกว่า โมเดล B ซ้อนอยู่ภายในโมเดล A เนื่องจากโมเดล B มีเซตย่อยของตัวแปรทำนายจากโมเดล A

อย่างไรก็ตาม ลองพิจารณาว่าเรามีโมเดลอื่น (เรียกว่าโมเดล C) ที่มีตัวแปรทำนายสามตัวหรือไม่:

คะแนน = β 0 + β 1 (นาที) + β 2 (สูง) + β 3 (พยายามโยนโทษ)

เราจะไม่บอกว่าโมเดล C ซ้อนอยู่ในโมเดล A เพราะแต่ละโมเดลมีตัวแปรทำนายที่อีกโมเดลหนึ่งไม่มี

ความสำคัญของโมเดลที่ซ้อนกัน

เรามักจะใช้แบบจำลองที่ซ้อนกันในทางปฏิบัติ เมื่อเราต้องการทราบว่าแบบจำลองที่มีตัวแปรตัวทำนายครบชุดสามารถใส่ชุดข้อมูลได้ดีกว่าแบบจำลองที่มีชุดย่อยของตัวแปรตัวทำนายเหล่านั้นหรือไม่

ตัวอย่างเช่น ในสถานการณ์ข้างต้น เราสามารถปรับ โมเดลที่ครอบคลุม โดยใช้จำนวนนาทีที่เล่น ส่วนสูง ตำแหน่ง และช็อตที่พยายามคาดเดาจำนวนคะแนนที่ผู้เล่นบาสเก็ตบอลทำได้

อย่างไรก็ตาม เราอาจสงสัยว่าตำแหน่งและความพยายามในการยิงอาจไม่คาดเดาคะแนนได้ดีมาก

ดังนั้นเราจึงสามารถปรับ โมเดลที่ซ้อนกัน ซึ่งใช้เวลาเพียงนาทีที่เล่นและขว้างเพื่อทำนายคะแนนที่ได้

จากนั้นเราจะเปรียบเทียบทั้งสองโมเดลเพื่อดูว่ามีความแตกต่างที่มีนัยสำคัญทางสถิติหรือไม่

หากไม่มีความแตกต่างที่มีนัยสำคัญระหว่างโมเดลต่างๆ เราสามารถลบตำแหน่งและช็อตที่พยายามเป็นตัวแปรทำนายได้ เนื่องจากโมเดลเหล่านั้นไม่ได้ปรับปรุงโมเดลอย่างมีนัยสำคัญ

วิธีแยกวิเคราะห์โมเดลที่ซ้อนกัน

เพื่อตรวจสอบว่าแบบจำลองที่ซ้อนกันมีความแตกต่างอย่างมีนัยสำคัญจากแบบจำลอง “เต็ม” หรือไม่ โดยทั่วไปเราจะทำการทดสอบอัตราส่วนความน่าจะเป็นที่ใช้สมมติฐานว่างและสมมติฐานทางเลือกต่อไปนี้:

H 0 : โมเดลเต็มและโมเดลแบบซ้อนเข้ากับข้อมูลได้ดีพอๆ กัน ดังนั้นคุณควร ใช้โมเดลที่ซ้อนกัน

HA : โมเดลเต็มเหมาะกับข้อมูลได้ดีกว่าโมเดลที่ซ้อนกันอย่างมาก ดังนั้นคุณต้อง ใช้เทมเพลตแบบเต็ม

การทดสอบอัตราส่วนความน่าจะเป็นจะสร้างสถิติการทดสอบไคสแควร์และค่า p ที่สอดคล้องกัน

หาก ค่า p ของการทดสอบต่ำกว่าระดับนัยสำคัญที่กำหนด (เช่น 0.05) เราก็สามารถปฏิเสธสมมติฐานว่างและสรุปได้ว่าแบบจำลองแบบเต็มมีความพอดีที่ดีกว่าอย่างมาก

บทช่วยสอนต่อไปนี้จะอธิบายวิธีการทดสอบอัตราส่วนความน่าจะเป็นโดยใช้ R และ Python:

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *