วิธีการคำนวณสีม่วง 'cp ใน r
ในการวิเคราะห์การถดถอย Mallows Cp เป็นหน่วยเมตริกที่ใช้เพื่อเลือกแบบจำลองการถดถอยที่ดีที่สุดในบรรดาแบบจำลองที่เป็นไปได้หลายตัว
เราสามารถระบุแบบจำลองการถดถอยที่ “ดีที่สุด” ได้ด้วยการระบุแบบจำลองที่มีค่า Cp ต่ำสุดใกล้กับ p +1 โดยที่ p คือจำนวนตัวแปรตัวทำนายในแบบจำลอง
วิธีที่ง่ายที่สุดในการคำนวณ Cp ของ Mallows ใน R คือการใช้ฟังก์ชัน ols_mallows_cp() จากแพ็คเกจ olsrr
ตัวอย่างต่อไปนี้แสดงวิธีใช้ฟังก์ชันนี้ในการคำนวณ Cp ของ Mallows เพื่อเลือกแบบจำลองการถดถอยที่ดีที่สุดจากแบบจำลองที่เป็นไปได้หลายตัวใน R
ตัวอย่าง: การคำนวณ Mallows Cp ใน R
สมมติว่าเราต้องการปรับโมเดลการถดถอยเชิงเส้นหลายตัวที่แตกต่างกันสามแบบโดยใช้ตัวแปรจากชุดข้อมูล mtcars
รหัสต่อไปนี้แสดงวิธีการปรับให้พอดีกับแบบจำลองการถดถอยต่อไปนี้:
- ตัวแปรทำนายในรูปแบบเต็ม: ตัวแปร 10 ตัว
- ตัวแปรทำนายในโมเดล 1: disp, hp, wt, qsec
- ตัวแปรทำนายในโมเดล 2: disp, qsec
- ตัวแปรทำนายในโมเดล 3: disp, wt
โค้ดต่อไปนี้แสดงวิธีปรับโมเดลการถดถอยแต่ละโมเดลให้เหมาะสม และใช้ฟังก์ชัน ols_mallows_cp() เพื่อคำนวณ Mallows Cp ของแต่ละโมเดล:
library (olsrr) #fit full model full_model <- lm(mpg ~ ., data = mtcars) #fit three smaller models model1 <- lm(mpg ~ disp + hp + wt + qsec, data = mtcars) model2 <- lm(mpg ~ disp + qsec, data = mtcars) model3 <- lm(mpg ~ disp + wt, data = mtcars) #calculate Mallows' Cp for each model ols_mallows_cp(model1, full_model) [1] 4.430434 ols_mallows_cp(model2, full_model) [1] 18.64082 ols_mallows_cp(model3, full_model) [1] 9.122225
ต่อไปนี้เป็นวิธีการตีความผลลัพธ์:
- รุ่น 1: p + 1 = 5, Mallows Cp = 4.43
- รุ่น 2: p + 1 = 3, Mallows Cp = 18.64
- รุ่น 3: p + 1 = 30, Mallows Cp = 9.12
เราจะเห็นว่าโมเดล 1 มีค่า Cp ของ Mallows ที่ใกล้กับ p + 1 มากที่สุด ซึ่งบ่งชี้ว่าเป็นโมเดลที่ดีที่สุดที่ทำให้เกิดอคติน้อยที่สุดในบรรดาโมเดลที่เป็นไปได้ทั้งสามตัว
หมายเหตุเกี่ยวกับ Cp des mauves
ต่อไปนี้เป็นสิ่งที่ควรคำนึงถึงเกี่ยวกับ Mallows Cp:
- หากแบบจำลองที่เป็นไปได้แต่ละแบบมีค่า Cp ของ Mallows สูง แสดงว่าตัวแปรตัวทำนายที่สำคัญบางตัวน่าจะหายไปจากแต่ละแบบจำลอง
- หากเป็นไปได้หลายรุ่นมีค่า Cp ของ Mallow ต่ำ ให้เลือกรุ่นที่มีค่าต่ำสุดเป็นรุ่นที่ดีที่สุดที่จะใช้
โปรดทราบว่า Cp ของ Mallows เป็นเพียงวิธีหนึ่งในการระบุแบบจำลองการถดถอยที่ “ดีที่สุด” จากแบบจำลองที่เป็นไปได้หลายตัว
การวัดที่ใช้กันทั่วไปอีกอย่างหนึ่งคือค่า R-squared ที่ปรับแล้ว ซึ่งบอกเราถึงสัดส่วนของความแปรปรวนใน ตัวแปรตอบ สนองที่ตัวแปรทำนายในโมเดลสามารถอธิบายได้ โดยปรับตามจำนวนตัวแปรทำนายที่ใช้
ในการตัดสินใจว่าแบบจำลองการถดถอยใดดีที่สุดจากรายการแบบจำลองต่างๆ มากมาย ขอแนะนำให้ดูทั้ง Cp ของ Mallows และ R-squared ที่ปรับแล้ว
แหล่งข้อมูลเพิ่มเติม
วิธีการคำนวณ R-squared ที่ปรับแล้วใน R
วิธีการคำนวณ AIC ใน R