วิธีใช้ stepaic ใน r สำหรับการเลือกคุณสมบัติ
เกณฑ์ข้อมูล Akaike ( AIC ) เป็นหน่วยเมตริกที่ใช้วัดปริมาณว่าแบบจำลองเหมาะสมกับชุดข้อมูลเพียงใด
มีการคำนวณดังนี้:
AIC = 2K – 2 ลิตร (L)
ทอง:
- K: จำนวนพารามิเตอร์โมเดล ค่าเริ่มต้นของ K คือ 2 ดังนั้นแบบจำลองที่มีตัวแปรทำนายเพียงตัวเดียวจะมีค่า K เป็น 2+1 = 3
- ln (L) : ความน่าจะเป็นของบันทึกของโมเดล ซอฟต์แวร์ทางสถิติส่วนใหญ่สามารถคำนวณค่านี้ให้คุณโดยอัตโนมัติ
AIC ได้รับการออกแบบมาเพื่อค้นหาแบบจำลองที่อธิบายความแปรผันของข้อมูลได้มากที่สุด ขณะเดียวกันก็ลงโทษแบบจำลองที่ใช้พารามิเตอร์จำนวนมากเกินไป
คุณสามารถใช้ฟังก์ชัน stepAIC() จากแพ็คเกจ MASS ใน R เพื่อเพิ่มและลบตัวแปรตัวทำนายออกจากแบบจำลองการถดถอยซ้ำๆ จนกว่าคุณจะพบชุดของตัวแปรตัวทำนาย (หรือ “คุณลักษณะ”) ที่สร้างแบบจำลองที่มีค่า AIC ต่ำที่สุด
ฟังก์ชันนี้ใช้ไวยากรณ์พื้นฐานต่อไปนี้:
stepAIC(วัตถุ, ทิศทาง, …)
ทอง:
- object : ชื่อของโมเดลที่ได้รับการปรับปรุง
- ทิศทาง : ประเภทขั้นตอนการค้นหาที่จะใช้ (“ย้อนกลับ”, “ไปข้างหน้า” หรือ “ทั้งสองอย่าง”)
ตัวอย่างต่อไปนี้แสดงวิธีใช้ฟังก์ชันนี้ในทางปฏิบัติ
ตัวอย่าง: การใช้ stepAIC() สำหรับการเลือกคุณสมบัติใน R
สำหรับตัวอย่างนี้ เราจะใช้ชุดข้อมูล mtcars ที่สร้างไว้ใน R ซึ่งมีการวัดคุณลักษณะที่แตกต่างกัน 11 รายการสำหรับรถยนต์ 32 คัน:
#view first six rows of mtcars dataset
head(mtcars)
mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1
สมมติว่าเราต้องการปรับโมเดลการถดถอยโดยใช้ hp เป็นตัวแปรตอบสนองและตัวแปรทำนายที่เป็นไปได้ต่อไปนี้:
- mpg
- น้ำหนัก
- อึ
- คิววินาที
เราสามารถใช้ฟังก์ชัน stepAIC() จากแพ็คเกจ MASS เพื่อเพิ่มและลบตัวแปรทำนายต่างๆ จากแบบจำลองจนกว่าเราจะไปถึงแบบจำลองที่มีค่า AIC ต่ำที่สุดที่เป็นไปได้:
library (MASS)
#fit initial multiple linear regression model
model <- lm(hp ~ mpg + wt + drat + qsec, data=mtcars)
#use both forward and backward selection to find model with lowest AIC
stepAIC(model, direction=" both ")
Start: AIC=226.88
hp ~ mpg + wt + drat + qsec
Df Sum of Sq RSS AIC
- drat 1 94.9 28183 224.98
- mpg 1 1519.4 29608 226.56
none 28088 226.88
- wt 1 3861.9 31950 229.00
-qsec 1 28102.2 56190 247.06
Step: AIC=224.98
hp ~ mpg + wt + qsec
Df Sum of Sq RSS AIC
- mpg 1 1424.5 29608 224.56
none 28183 224.98
+ drat 1 94.9 28088 226.88
- wt 1 3797.9 31981 227.03
-qsec 1 29625.1 57808 245.97
Step: AIC=224.56
hp ~ wt + qsec
Df Sum of Sq RSS AIC
none 29608 224.56
+ mpg 1 1425 28183 224.98
+ drat 1 0 29608 226.56
- wt 1 43026 72633 251.28
-qsec 1 52881 82489 255.35
Call:
lm(formula = hp ~ wt + qsec, data = mtcars)
Coefficients:
(Intercept) wt qsec
441.26 38.67 -23.47
ต่อไปนี้เป็นวิธีการตีความผลลัพธ์:
(1) ขั้นแรก เราเริ่มต้นด้วยการปรับแบบจำลองการถดถอยให้เหมาะสมกับตัวแปรทำนายทั้งสี่ตัว รุ่นนี้มีค่า AIC 226.88
(2) ต่อไป stepAIC กำหนดว่าการลบ drat ที่เป็นตัวแปรทำนายจะลดค่า AIC ลงเหลือ 224.98 ต่อไป
(3) ถัดไป โมเดล stepAIC กำหนดว่าการลบ mpg ที่เป็นตัวแปรทำนายจะลดค่า AIC ลงเหลือ 224.56 ต่อไป
(4) สุดท้าย stepAIC พิจารณาว่าไม่มีทางที่จะลดค่า AIC ได้อีกโดยการเพิ่มหรือลบตัวแปร
รูปแบบสุดท้ายจึงเป็นดังนี้:
แรงม้า = 441.26 + 38.67 (น้ำหนัก) – 23.47 (คิววินาที)
รุ่นนี้มีค่า AIC 224.56
แหล่งข้อมูลเพิ่มเติม
บทช่วยสอนต่อไปนี้จะอธิบายวิธีดำเนินการงานทั่วไปอื่นๆ ใน R:
วิธีดำเนินการถดถอยเชิงเส้นพหุคูณใน R
วิธีการถดถอยทีละชิ้นใน R
วิธีดำเนินการถดถอยเส้นโค้งใน R