เมลโลว์คืออะไร? ซีพี? (คำจำกัดความและตัวอย่าง)
Mallows Cp เป็นหน่วยเมตริกที่ใช้เพื่อเลือก แบบจำลองการถดถอย ที่ดีที่สุดจากแบบจำลองต่างๆ ต่างๆ
มีการคำนวณดังนี้:
Cp = RSS p /S 2 – ยังไม่มี + 2(P+1)
ทอง:
- RSS p : ผลรวมที่เหลือของกำลังสองสำหรับแบบจำลองที่มีตัวแปรทำนาย p
- S 2 : กำลังสองเฉลี่ยคงเหลือของแบบจำลอง (ประมาณโดย MSE)
- ยังไม่มีข้อความ: ขนาดตัวอย่าง
- P: จำนวนตัวแปรทำนาย
Mallows Cp ถูกใช้เมื่อเรามีตัวแปรทำนายที่เป็นไปได้หลายตัวที่เราต้องการใช้ในแบบจำลองการถดถอย และเราต้องการระบุแบบจำลองที่ดีที่สุดที่ใช้ชุดย่อยของตัวแปรทำนายเหล่านี้
เราสามารถระบุแบบจำลองการถดถอยที่ “ดีที่สุด” ได้ด้วยการระบุแบบจำลองที่มีค่า Cp ต่ำสุดน้อยกว่า P+1 โดยที่ P คือจำนวนตัวแปรตัวทำนายในแบบจำลอง
ตัวอย่างต่อไปนี้แสดงวิธีใช้ Cp ของ Mallows เพื่อเลือกแบบจำลองการถดถอยที่ดีที่สุดจากแบบจำลองที่เป็นไปได้หลายตัว
ตัวอย่าง: การใช้ Mallows Cp เพื่อเลือกรุ่นที่ดีที่สุด
สมมติว่าศาสตราจารย์ต้องการใช้ชั่วโมงเรียน ข้อสอบเตรียมอุดมศึกษา และเกรดเฉลี่ยสะสมปัจจุบันเป็นตัวแปรทำนายในแบบจำลองการถดถอยเพื่อทำนายเกรดที่นักเรียนจะได้รับในการสอบปลายภาค
เหมาะกับโมเดลการถดถอยที่แตกต่างกันเจ็ดแบบ และคำนวณค่า Mallows Cp สำหรับแต่ละรุ่น:
หากค่า Cp ของ Mallows น้อยกว่าจำนวนสัมประสิทธิ์แบบจำลอง (P+1) แสดงว่าแบบจำลองไม่มีอคติ
เราจะเห็นได้ว่ามีโมเดลที่เป็นกลางอยู่สองแบบ:
- แบบจำลองที่มีชั่วโมงและ GPA เป็นตัวแปรทำนาย (Cp ของ Mallows = 2.9, P+1 = 3)
- แบบจำลองที่มี Prep Exams และ GPA เป็นตัวแปรทำนาย (Mallows’ Cp = 2.7, P+1 = 3)
จากแบบจำลองทั้งสองนี้ แบบจำลองที่ใช้การสอบเตรียมการและ GPA เป็นตัวแปรทำนายมีค่าต่ำสุดสำหรับ Cp ของ Mallows ซึ่งบอกเราว่าเป็นแบบจำลองที่ดีกว่าซึ่งส่งผลให้เกิดอคติน้อยที่สุด
หมายเหตุเกี่ยวกับ Cp des mauves
ต่อไปนี้เป็นสิ่งที่ควรคำนึงถึงเกี่ยวกับ Mallows Cp:
- โมเดลที่มีค่า Cp ของ Mallows ใกล้กับ P+1 เรียกว่ามีอคติต่ำ
- หากแบบจำลองที่เป็นไปได้แต่ละแบบมีค่า Cp ของ Mallows สูง แสดงว่าตัวแปรตัวทำนายที่สำคัญบางตัวน่าจะหายไปจากแต่ละแบบจำลอง
- หากเป็นไปได้หลายรุ่นมีค่า Cp ของ Mallow ต่ำ ให้เลือกรุ่นที่มีค่าต่ำสุดเป็นรุ่นที่ดีที่สุดที่จะใช้
นอกจากนี้ โปรดทราบว่า Cp ของ Mallows เป็นเพียงวิธีหนึ่งในการวัดความพอดีของแบบจำลองการถดถอย
การวัดที่ใช้กันทั่วไปอีกอย่างหนึ่งคือค่า R-squared ที่ปรับแล้ว ซึ่งบอกเราถึงสัดส่วนของความแปรปรวนใน ตัวแปรตอบ สนองที่ตัวแปรตัวทำนายในโมเดลสามารถอธิบายได้ โดยปรับตามจำนวนตัวแปรตัวทำนายที่ใช้
ในการตัดสินใจว่าแบบจำลองการถดถอยใดดีที่สุดจากรายการแบบจำลองต่างๆ เป็นความคิดที่ดีที่จะดูทั้ง Cp ของ Mallows และค่า R-squared ที่ปรับแล้ว
แหล่งข้อมูลเพิ่มเติม
วิธีการคำนวณ Mallows Cp ใน R
วิธีการคำนวณ R-squared ที่ปรับแล้วใน R