วิธีการคำนวณสีม่วง 'cp ใน r


ในการวิเคราะห์การถดถอย Mallows Cp เป็นหน่วยเมตริกที่ใช้เพื่อเลือกแบบจำลองการถดถอยที่ดีที่สุดในบรรดาแบบจำลองที่เป็นไปได้หลายตัว

เราสามารถระบุแบบจำลองการถดถอยที่ “ดีที่สุด” ได้ด้วยการระบุแบบจำลองที่มีค่า Cp ต่ำสุดใกล้กับ p +1 โดยที่ p คือจำนวนตัวแปรตัวทำนายในแบบจำลอง

วิธีที่ง่ายที่สุดในการคำนวณ Cp ของ Mallows ใน R คือการใช้ฟังก์ชัน ols_mallows_cp() จากแพ็คเกจ olsrr

ตัวอย่างต่อไปนี้แสดงวิธีใช้ฟังก์ชันนี้ในการคำนวณ Cp ของ Mallows เพื่อเลือกแบบจำลองการถดถอยที่ดีที่สุดจากแบบจำลองที่เป็นไปได้หลายตัวใน R

ตัวอย่าง: การคำนวณ Mallows Cp ใน R

สมมติว่าเราต้องการปรับโมเดลการถดถอยเชิงเส้นหลายตัวที่แตกต่างกันสามแบบโดยใช้ตัวแปรจากชุดข้อมูล mtcars

รหัสต่อไปนี้แสดงวิธีการปรับให้พอดีกับแบบจำลองการถดถอยต่อไปนี้:

  • ตัวแปรทำนายในรูปแบบเต็ม: ตัวแปร 10 ตัว
  • ตัวแปรทำนายในโมเดล 1: disp, hp, wt, qsec
  • ตัวแปรทำนายในโมเดล 2: disp, qsec
  • ตัวแปรทำนายในโมเดล 3: disp, wt

โค้ดต่อไปนี้แสดงวิธีปรับโมเดลการถดถอยแต่ละโมเดลให้เหมาะสม และใช้ฟังก์ชัน ols_mallows_cp() เพื่อคำนวณ Mallows Cp ของแต่ละโมเดล:

 library (olsrr)

#fit full model
full_model <- lm(mpg ~ ., data = mtcars)

#fit three smaller models
model1 <- lm(mpg ~ disp + hp + wt + qsec, data = mtcars)
model2 <- lm(mpg ~ disp + qsec, data = mtcars)
model3 <- lm(mpg ~ disp + wt, data = mtcars)

#calculate Mallows' Cp for each model
ols_mallows_cp(model1, full_model)

[1] 4.430434

ols_mallows_cp(model2, full_model)

[1] 18.64082

ols_mallows_cp(model3, full_model)

[1] 9.122225

ต่อไปนี้เป็นวิธีการตีความผลลัพธ์:

  • รุ่น 1: p + 1 = 5, Mallows Cp = 4.43
  • รุ่น 2: p + 1 = 3, Mallows Cp = 18.64
  • รุ่น 3: p + 1 = 30, Mallows Cp = 9.12

เราจะเห็นว่าโมเดล 1 มีค่า Cp ของ Mallows ที่ใกล้กับ p + 1 มากที่สุด ซึ่งบ่งชี้ว่าเป็นโมเดลที่ดีที่สุดที่ทำให้เกิดอคติน้อยที่สุดในบรรดาโมเดลที่เป็นไปได้ทั้งสามตัว

หมายเหตุเกี่ยวกับ Cp des mauves

ต่อไปนี้เป็นสิ่งที่ควรคำนึงถึงเกี่ยวกับ Mallows Cp:

  • หากแบบจำลองที่เป็นไปได้แต่ละแบบมีค่า Cp ของ Mallows สูง แสดงว่าตัวแปรตัวทำนายที่สำคัญบางตัวน่าจะหายไปจากแต่ละแบบจำลอง
  • หากเป็นไปได้หลายรุ่นมีค่า Cp ของ Mallow ต่ำ ให้เลือกรุ่นที่มีค่าต่ำสุดเป็นรุ่นที่ดีที่สุดที่จะใช้

โปรดทราบว่า Cp ของ Mallows เป็นเพียงวิธีหนึ่งในการระบุแบบจำลองการถดถอยที่ “ดีที่สุด” จากแบบจำลองที่เป็นไปได้หลายตัว

การวัดที่ใช้กันทั่วไปอีกอย่างหนึ่งคือค่า R-squared ที่ปรับแล้ว ซึ่งบอกเราถึงสัดส่วนของความแปรปรวนใน ตัวแปรตอบ สนองที่ตัวแปรทำนายในโมเดลสามารถอธิบายได้ โดยปรับตามจำนวนตัวแปรทำนายที่ใช้

ในการตัดสินใจว่าแบบจำลองการถดถอยใดดีที่สุดจากรายการแบบจำลองต่างๆ มากมาย ขอแนะนำให้ดูทั้ง Cp ของ Mallows และ R-squared ที่ปรับแล้ว

แหล่งข้อมูลเพิ่มเติม

วิธีการคำนวณ R-squared ที่ปรับแล้วใน R
วิธีการคำนวณ AIC ใน R

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *