เมลโลว์คืออะไร? ซีพี? (คำจำกัดความและตัวอย่าง)


Mallows Cp เป็นหน่วยเมตริกที่ใช้เพื่อเลือก แบบจำลองการถดถอย ที่ดีที่สุดจากแบบจำลองต่างๆ ต่างๆ

มีการคำนวณดังนี้:

Cp = RSS p /S 2 – ยังไม่มี + 2(P+1)

ทอง:

  • RSS p : ผลรวมที่เหลือของกำลังสองสำหรับแบบจำลองที่มีตัวแปรทำนาย p
  • S 2 : กำลังสองเฉลี่ยคงเหลือของแบบจำลอง (ประมาณโดย MSE)
  • ยังไม่มีข้อความ: ขนาดตัวอย่าง
  • P: จำนวนตัวแปรทำนาย

Mallows Cp ถูกใช้เมื่อเรามีตัวแปรทำนายที่เป็นไปได้หลายตัวที่เราต้องการใช้ในแบบจำลองการถดถอย และเราต้องการระบุแบบจำลองที่ดีที่สุดที่ใช้ชุดย่อยของตัวแปรทำนายเหล่านี้

เราสามารถระบุแบบจำลองการถดถอยที่ “ดีที่สุด” ได้ด้วยการระบุแบบจำลองที่มีค่า Cp ต่ำสุดน้อยกว่า P+1 โดยที่ P คือจำนวนตัวแปรตัวทำนายในแบบจำลอง

ตัวอย่างต่อไปนี้แสดงวิธีใช้ Cp ของ Mallows เพื่อเลือกแบบจำลองการถดถอยที่ดีที่สุดจากแบบจำลองที่เป็นไปได้หลายตัว

ตัวอย่าง: การใช้ Mallows Cp เพื่อเลือกรุ่นที่ดีที่สุด

สมมติว่าศาสตราจารย์ต้องการใช้ชั่วโมงเรียน ข้อสอบเตรียมอุดมศึกษา และเกรดเฉลี่ยสะสมปัจจุบันเป็นตัวแปรทำนายในแบบจำลองการถดถอยเพื่อทำนายเกรดที่นักเรียนจะได้รับในการสอบปลายภาค

เหมาะกับโมเดลการถดถอยที่แตกต่างกันเจ็ดแบบ และคำนวณค่า Mallows Cp สำหรับแต่ละรุ่น:

การใช้ Mallows Cp เพื่อเลือกแบบจำลองการถดถอยที่ดีที่สุด

หากค่า Cp ของ Mallows น้อยกว่าจำนวนสัมประสิทธิ์แบบจำลอง (P+1) แสดงว่าแบบจำลองไม่มีอคติ

เราจะเห็นได้ว่ามีโมเดลที่เป็นกลางอยู่สองแบบ:

  • แบบจำลองที่มีชั่วโมงและ GPA เป็นตัวแปรทำนาย (Cp ของ Mallows = 2.9, P+1 = 3)
  • แบบจำลองที่มี Prep Exams และ GPA เป็นตัวแปรทำนาย (Mallows’ Cp = 2.7, P+1 = 3)

จากแบบจำลองทั้งสองนี้ แบบจำลองที่ใช้การสอบเตรียมการและ GPA เป็นตัวแปรทำนายมีค่าต่ำสุดสำหรับ Cp ของ Mallows ซึ่งบอกเราว่าเป็นแบบจำลองที่ดีกว่าซึ่งส่งผลให้เกิดอคติน้อยที่สุด

หมายเหตุเกี่ยวกับ Cp des mauves

ต่อไปนี้เป็นสิ่งที่ควรคำนึงถึงเกี่ยวกับ Mallows Cp:

  • โมเดลที่มีค่า Cp ของ Mallows ใกล้กับ P+1 เรียกว่ามีอคติต่ำ
  • หากแบบจำลองที่เป็นไปได้แต่ละแบบมีค่า Cp ของ Mallows สูง แสดงว่าตัวแปรตัวทำนายที่สำคัญบางตัวน่าจะหายไปจากแต่ละแบบจำลอง
  • หากเป็นไปได้หลายรุ่นมีค่า Cp ของ Mallow ต่ำ ให้เลือกรุ่นที่มีค่าต่ำสุดเป็นรุ่นที่ดีที่สุดที่จะใช้

นอกจากนี้ โปรดทราบว่า Cp ของ Mallows เป็นเพียงวิธีหนึ่งในการวัดความพอดีของแบบจำลองการถดถอย

การวัดที่ใช้กันทั่วไปอีกอย่างหนึ่งคือค่า R-squared ที่ปรับแล้ว ซึ่งบอกเราถึงสัดส่วนของความแปรปรวนใน ตัวแปรตอบ สนองที่ตัวแปรตัวทำนายในโมเดลสามารถอธิบายได้ โดยปรับตามจำนวนตัวแปรตัวทำนายที่ใช้

ในการตัดสินใจว่าแบบจำลองการถดถอยใดดีที่สุดจากรายการแบบจำลองต่างๆ เป็นความคิดที่ดีที่จะดูทั้ง Cp ของ Mallows และค่า R-squared ที่ปรับแล้ว

แหล่งข้อมูลเพิ่มเติม

วิธีการคำนวณ Mallows Cp ใน R
วิธีการคำนวณ R-squared ที่ปรับแล้วใน R

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *