การเลือกแบบย้อนกลับคืออะไร? (คำจำกัดความ & #038; ตัวอย่าง)


ในสถิติ การเลือกแบบเป็นขั้นตอน เป็นขั้นตอนที่เราสามารถใช้สร้าง แบบจำลองการถดถอย จากชุดตัวแปรตัวทำนายโดยการป้อนและลบตัวทำนายในลักษณะทีละขั้นตอนในแบบจำลอง จนกระทั่งไม่มีเหตุผลที่ถูกต้องทางสถิติอีกต่อไปในการป้อน หรือลบเพิ่มเติม

เป้าหมายของการเลือกแบบขั้นตอนคือการสร้างแบบจำลองการถดถอยที่รวมตัวแปรทำนายทั้งหมดที่มีความเกี่ยวข้องอย่างมีนัยสำคัญทางสถิติกับ ตัวแปรตอบสนอง

วิธีการเลือกแบบทีละขั้นตอนที่ใช้กันมากที่สุดวิธีหนึ่งเรียกว่า การเลือกแบบย้อนกลับ ซึ่งทำงานดังนี้:

ขั้นตอนที่ 1: ติดตั้งโมเดลการถดถอยโดยใช้ตัวแปรทำนาย p ทั้งหมด คำนวณค่า AIC * สำหรับโมเดล

ขั้นตอนที่ 2: ลบตัวแปรทำนายที่ส่งผลให้ AIC ลดลงมากที่สุด และยังส่งผลให้ AIC ลดลงอย่างมีนัยสำคัญทางสถิติเมื่อเปรียบเทียบกับแบบจำลองที่มีตัวแปรทำนาย p ทั้งหมด

ขั้นตอนที่ 3: ลบตัวแปรทำนายที่ส่งผลให้ AIC ลดลงมากที่สุด และยังส่งผลให้ AIC ลดลงอย่างมีนัยสำคัญทางสถิติเมื่อเปรียบเทียบกับแบบจำลองที่มีตัวแปรทำนาย p-1

ทำซ้ำขั้นตอนนี้จนกว่าการลบตัวแปรทำนายใดๆ จะไม่ทำให้ AIC ลดลงอย่างมีนัยสำคัญทางสถิติอีกต่อไป

* มีเมตริกหลายอย่างที่คุณสามารถใช้เพื่อคำนวณความเหมาะสมของแบบจำลองการถดถอย รวมถึงข้อผิดพลาดในการทำนายการตรวจสอบความถูกต้องข้าม, Cp, BIC, AIC หรือ R2 ที่ปรับปรุงแล้ว ในตัวอย่างด้านล่าง เราเลือกใช้ AIC

ตัวอย่างต่อไปนี้แสดงวิธีการเลือกแบบย้อนกลับใน R

ตัวอย่าง: การเลือกแบบย้อนกลับใน R

สำหรับตัวอย่างนี้ เราจะใช้ ชุดข้อมูล mtcars ที่สร้างไว้ใน R:

 #view first six rows of mtcars
head(mtcars)

                   mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1

เราจะปรับโมเดลการถดถอยเชิงเส้นหลายตัวให้เหมาะสมโดยใช้ mpg (ไมล์ต่อแกลลอน) เป็นตัวแปรตอบสนอง และตัวแปรอีก 10 ตัวในชุดข้อมูลเป็นตัวแปรทำนายที่เป็นไปได้

รหัสต่อไปนี้แสดงวิธีการถอยหลัง:

 #define intercept-only model
intercept_only <- lm(mpg ~ 1, data=mtcars)

#define model with all predictors
all <- lm(mpg ~ ., data=mtcars)

#perform backward stepwise regression
backward <- step(all, direction=' backward ', scope= formula (all), trace=0)

#view results of backward stepwise regression
backward$anova

    Step Df Deviance Resid. Df Resid. Dev AIC
1 NA NA 21 147.4944 70.89774
2 - cyl 1 0.07987121 22 147.5743 68.91507
3 - vs 1 0.26852280 23 147.8428 66.97324
4 - carb 1 0.68546077 24 148.5283 65.12126
5 - gear 1 1.56497053 25 150.0933 63.45667
6 - drat 1 3.34455117 26 153.4378 62.16190
7 - available 1 6.62865369 27 160.0665 61.51530
8 - hp 1 9.21946935 28 169.2859 61.30730

#view final model
backward$coefficients

(Intercept) wt qsec am 
   9.617781 -3.916504 1.225886 2.935837

ต่อไปนี้เป็นวิธีการตีความผลลัพธ์:

ขั้นแรก เราปรับโมเดลให้พอดีโดยใช้ตัวแปรทำนาย 10 ตัว และคำนวณ AIC ของโมเดล

ต่อไป เราลบตัวแปร ( cyl ) ที่ส่งผลให้ AIC ลดลงมากที่สุด และยังได้รับการลดลงที่มีนัยสำคัญทางสถิติใน AIC เมื่อเปรียบเทียบกับแบบจำลองตัวแปรทำนาย 10 ตัว

ต่อไป เราได้ลบตัวแปร ( vs ) ที่นำไปสู่การลดลงที่ใหญ่ที่สุดใน AIC และยังได้รับการลดลงที่มีนัยสำคัญทางสถิติใน AIC เมื่อเปรียบเทียบกับแบบจำลองตัวแปรตัวทำนาย 9 ตัว

ต่อไป เราได้ลบตัวแปร ( คาร์โบไฮเดรต ) ที่ส่งผลให้ AIC ลดลงมากที่สุด และยังได้รับการลดลงที่มีนัยสำคัญทางสถิติใน AIC เมื่อเปรียบเทียบกับแบบจำลองตัวแปรทำนาย 8 ตัว

เราทำซ้ำกระบวนการนี้จนกระทั่งการลบตัวแปรใดๆ ออกไม่ส่งผลให้เกิดการลดลงที่มีนัยสำคัญทางสถิติใน AIC อีกต่อไป

โมเดลสุดท้ายกลายเป็น:

mpg = 9.62 – 3.92*น้ำหนัก + 1.23*qsec + 2.94*น.

หมายเหตุเกี่ยวกับการใช้ AIC

ในตัวอย่างก่อนหน้านี้ เราเลือกใช้ AIC เป็นหน่วยเมตริกเพื่อประเมินความเหมาะสมของแบบจำลองการถดถอยต่างๆ

AIC ย่อมาจาก Akaike Information Criterion และมีการคำนวณดังนี้

AIC = 2K – 2 ลิตร (L)

ทอง:

  • K: จำนวนพารามิเตอร์โมเดล
  • ln (L) : ความน่าจะเป็นของบันทึกของโมเดล สิ่งนี้บอกเราถึงความน่าจะเป็นของแบบจำลองเมื่อพิจารณาจากข้อมูล

อย่างไรก็ตาม มีตัวชี้วัดอื่นๆ ที่คุณอาจเลือกใช้เพื่อประเมินความเหมาะสมของแบบจำลองการถดถอย รวมถึงข้อผิดพลาดการทำนายการตรวจสอบความถูกต้องข้าม, Cp, BIC, AIC หรือ R2 ที่ปรับปรุงแล้ว

โชคดีที่ซอฟต์แวร์ทางสถิติส่วนใหญ่ช่วยให้คุณสามารถระบุหน่วยวัดที่คุณต้องการใช้เมื่อคัดกรองย้อนหลัง

แหล่งข้อมูลเพิ่มเติม

บทช่วยสอนต่อไปนี้ให้ข้อมูลเพิ่มเติมเกี่ยวกับแบบจำลองการถดถอย:

ความรู้เบื้องต้นเกี่ยวกับการคัดเลือกโดยตรง
คู่มือเกี่ยวกับพหุคอลลิเนียร์ริตีและ VIF ในการถดถอย
ค่า AIC ที่ดีเรียกว่าอะไร?

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *