การคัดเลือกโดยตรงคืออะไร? (คำจำกัดความ & #038; ตัวอย่าง)


ในสถิติ การเลือกแบบเป็นขั้นตอน เป็นขั้นตอนที่เราสามารถใช้สร้าง แบบจำลองการถดถอย จากชุดตัวแปรตัวทำนายโดยการป้อนและลบตัวทำนายในลักษณะทีละขั้นตอนในแบบจำลอง จนกระทั่งไม่มีเหตุผลที่ถูกต้องทางสถิติอีกต่อไปในการป้อน หรือลบเพิ่มเติม

เป้าหมายของการเลือกแบบขั้นตอนคือการสร้างแบบจำลองการถดถอยที่รวมตัวแปรทำนายทั้งหมดที่มีความเกี่ยวข้องอย่างมีนัยสำคัญทางสถิติกับ ตัวแปรตอบสนอง

วิธีการเลือกแบบทีละขั้นตอนที่ใช้กันมากที่สุดวิธีหนึ่งเรียกว่า การเลือกโดยตรง ซึ่งทำงานดังนี้:

ขั้นตอนที่ 1: ปรับโมเดลการถดถอยแบบสกัดกั้นอย่างเดียวโดยไม่มีตัวแปรตัวทำนาย คำนวณค่า AIC * สำหรับโมเดล

ขั้นตอนที่ 2: ติดตั้งโมเดลการถดถอยแบบตัวทำนายเดียวที่เป็นไปได้ทั้งหมด ระบุแบบจำลองที่สร้าง AIC ต่ำที่สุดและมีการลดลงอย่างมีนัยสำคัญทางสถิติใน AIC เมื่อเปรียบเทียบกับแบบจำลองแบบสกัดกั้นเท่านั้น

ขั้นตอนที่ 3: ปรับโมเดลการถดถอยทั้งหมดให้เข้ากับตัวทำนายที่เป็นไปได้สองตัว ระบุแบบจำลองที่สร้าง AIC ต่ำสุดและยังมี AIC ลดลงอย่างมีนัยสำคัญทางสถิติเมื่อเปรียบเทียบกับแบบจำลองที่มีตัวทำนายเดียว

ทำซ้ำขั้นตอนนี้จนกว่าจะปรับแบบจำลองการถดถอยด้วยตัวแปรทำนายที่มากขึ้น จะไม่ทำให้ AIC ลดลงอย่างมีนัยสำคัญทางสถิติอีกต่อไป

* มีเมตริกหลายอย่างที่คุณสามารถใช้เพื่อคำนวณความเหมาะสมของแบบจำลองการถดถอย รวมถึงข้อผิดพลาดในการทำนายการตรวจสอบความถูกต้องข้าม, Cp, BIC, AIC หรือ R2 ที่ปรับปรุงแล้ว ในตัวอย่างด้านล่าง เราเลือกใช้ AIC

ตัวอย่างต่อไปนี้แสดงวิธีการเลือกโดยตรงใน R

ตัวอย่าง: การเลือกโดยตรงใน R

สำหรับตัวอย่างนี้ เราจะใช้ ชุดข้อมูล mtcars ที่สร้างไว้ใน R:

 #view first six rows of mtcars
head(mtcars)

                   mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1

เราจะปรับโมเดลการถดถอยเชิงเส้นหลายตัวให้เหมาะสมโดยใช้ mpg (ไมล์ต่อแกลลอน) เป็นตัวแปรตอบสนอง และตัวแปรอีก 10 ตัวในชุดข้อมูลเป็นตัวแปรทำนายที่เป็นไปได้

รหัสต่อไปนี้แสดงวิธีการเลือกทีละขั้นตอน:

 #define intercept-only model
intercept_only <- lm(mpg ~ 1, data=mtcars)

#define model with all predictors
all <- lm(mpg ~ ., data=mtcars)

#perform forward stepwise regression
forward <- step(intercept_only, direction=' forward ', scope= formula (all), trace= 0 )

#view results of forward stepwise regression
forward$anova

   Step Df Deviance Resid. Df Resid. Dev AIC
1 NA NA 31 1126.0472 115.94345
2 + wt -1 847.72525 30 278.3219 73.21736
3 + cyl -1 87.14997 29 191.1720 63.19800
4 + hp -1 14.55145 28 176.6205 62.66456

#view final model
forward$coefficients

(Intercept) wt cyl hp 
 38.7517874 -3.1669731 -0.9416168 -0.0180381 

ต่อไปนี้เป็นวิธีการตีความผลลัพธ์:

ขั้นแรก เราปรับให้เหมาะกับโมเดลแบบสกัดกั้นเท่านั้น โมเดลนี้มี AIC เท่ากับ 115.94345

จากนั้นเราจะปรับโมเดลที่เป็นไปได้ทั้งหมดให้เข้ากับตัวทำนาย แบบจำลองที่สร้าง AIC ต่ำสุดและมีการลดลงอย่างมีนัยสำคัญทางสถิติใน AIC เมื่อเปรียบเทียบกับแบบจำลองแบบสกัดกั้นเท่านั้นที่ใช้ตัวทำนาย น้ำหนัก โมเดลนี้มี AIC เท่ากับ 73.21736

ต่อไป เราจะปรับโมเดลที่เป็นไปได้ทั้งหมดให้พอดีกับตัวทำนายสองตัว แบบจำลองที่สร้าง AIC ต่ำสุดและยังมีการลดลงที่มีนัยสำคัญทางสถิติใน AIC เมื่อเปรียบเทียบกับแบบจำลองตัวทำนายเดี่ยวที่เพิ่มตัวทำนาย แบบทรงกระบอก โมเดลนี้มี AIC เท่ากับ 63.19800

ต่อไป เราจะปรับโมเดลที่เป็นไปได้ทั้งหมดให้เข้ากับตัวทำนายสามตัว แบบจำลองที่สร้าง AIC ต่ำที่สุดและมีการลดลงอย่างมีนัยสำคัญใน AIC เมื่อเปรียบเทียบกับแบบจำลองตัวทำนายสองตัวที่เพิ่มตัวทำนาย hp โมเดลนี้มี AIC เท่ากับ 62.66456

ต่อไป เราจะปรับโมเดลที่เป็นไปได้ทั้งหมดให้เข้ากับตัวทำนายสี่ตัว ปรากฎว่าไม่มีโมเดลใดที่ทำให้ AIC ลดลงอย่างมีนัยสำคัญ ดังนั้นเราจึงหยุดขั้นตอนนี้

โมเดลสุดท้ายจึงกลายเป็น:

mpg = 38.75 – 3.17*น้ำหนัก – 0.94*สูบ – 0.02*hyp

ปรากฎว่าการพยายามเพิ่มตัวแปรทำนายเพิ่มเติมให้กับแบบจำลองไม่ได้ทำให้ AIC ลดลงอย่างมีนัยสำคัญทางสถิติ

ดังนั้นเราจึงสรุปได้ว่าโมเดลที่ดีที่สุดคือโมเดลที่มีตัวแปรทำนายสามตัว ได้แก่ wt, cyl และ hp

หมายเหตุเกี่ยวกับการใช้ AIC

ในตัวอย่างก่อนหน้านี้ เราเลือกใช้ AIC เป็นหน่วยเมตริกเพื่อประเมินความเหมาะสมของแบบจำลองการถดถอยต่างๆ

AIC ย่อมาจาก Akaike Information Criterion และมีการคำนวณดังนี้

AIC = 2K – 2 ลิตร (L)

ทอง:

  • K: จำนวนพารามิเตอร์โมเดล
  • ln (L) : ความน่าจะเป็นของบันทึกของโมเดล ข้อมูลนี้บอกเราว่าแบบจำลองนี้มีแนวโน้มเพียงใดโดยอิงตามข้อมูล

อย่างไรก็ตาม มีตัวชี้วัดอื่นๆ ที่คุณอาจเลือกใช้เพื่อประเมินความเหมาะสมของแบบจำลองการถดถอย รวมถึงข้อผิดพลาดการทำนายการตรวจสอบความถูกต้องข้าม, Cp, BIC, AIC หรือ R2 ที่ปรับปรุงแล้ว

โชคดีที่ซอฟต์แวร์ทางสถิติส่วนใหญ่ช่วยให้คุณสามารถระบุหน่วยวัดที่คุณต้องการใช้เมื่อเลือกโดยตรง

แหล่งข้อมูลเพิ่มเติม

บทช่วยสอนต่อไปนี้ให้ข้อมูลเพิ่มเติมเกี่ยวกับแบบจำลองการถดถอย:

คู่มือเกี่ยวกับพหุคอลลิเนียร์ริตีและ VIF ในการถดถอย
ค่า AIC ที่ดีเรียกว่าอะไร?

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *