วิธีใช้ predict() กับโมเดลการถดถอยโลจิสติกใน r
เมื่อเราติดตั้ง แบบจำลองการถดถอยโลจิสติก ใน R แล้ว เราสามารถใช้ฟังก์ชัน ทำนาย () เพื่อทำนายค่าตอบสนองของการสังเกตใหม่ที่แบบจำลองไม่เคยเห็นมาก่อน
ฟังก์ชันนี้ใช้ไวยากรณ์ต่อไปนี้:
ทำนาย (วัตถุ, ข้อมูลใหม่, ประเภท = “การตอบสนอง”)
ทอง:
- วัตถุ: ชื่อของแบบจำลองการถดถอยโลจิสติก
- newdata: ชื่อของกรอบข้อมูลใหม่ที่จะทำการคาดการณ์
- type: ประเภทของการคาดการณ์ที่จะทำ
ตัวอย่างต่อไปนี้แสดงวิธีใช้ฟังก์ชันนี้ในทางปฏิบัติ
ตัวอย่าง: การใช้ Predict() กับ Logistic Regression Model ใน R
สำหรับตัวอย่างนี้ เราจะใช้ชุดข้อมูล R ในตัวที่เรียกว่า mtcars :
#view first six rows of mtcars dataset
head(mtcars)
mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1
เราจะปรับโมเดลการถดถอยโลจิสติกต่อไปนี้ให้เหมาะสม ซึ่งเราใช้ตัวแปร disp และ hp เพื่อทำนายตัวแปรตอบสนอง am (ประเภทเกียร์ของรถ: 0 = อัตโนมัติ, 1 = แมนนวล):
#fit logistic regression model model <- glm(am ~ disp + hp, data=mtcars, family=binomial) #view model summary summary(model) Call: glm(formula = am ~ disp + hp, family = binomial, data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -1.9665 -0.3090 -0.0017 0.3934 1.3682 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.40342 1.36757 1.026 0.3048 available -0.09518 0.04800 -1.983 0.0474 * hp 0.12170 0.06777 1.796 0.0725 . --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 43,230 on 31 degrees of freedom Residual deviance: 16,713 on 29 degrees of freedom AIC: 22,713 Number of Fisher Scoring iterations: 8
จากนั้นเราสามารถสร้างกรอบข้อมูลใหม่ที่มีข้อมูลเกี่ยวกับรถยนต์แปดคันที่โมเดลไม่เคยเห็นมาก่อน และใช้ฟังก์ชัน การคาดการณ์ () เพื่อคาดการณ์ความน่าจะเป็นที่รถคันใหม่จะมีเกียร์อัตโนมัติ (am=0) หรือเกียร์ธรรมดา ( เวลา =1):
#define new data frame
newdata = data. frame (disp=c(200, 180, 160, 140, 120, 120, 100, 160),
hp=c(100, 90, 108, 90, 80, 90, 80, 90),
am=c(0, 0, 0, 1, 0, 1, 1, 1))
#view data frame
newdata
#use model to predict value of am for all new cars
newdata$am_prob <- predict(model, newdata, type=" response ")
#view updated data frame
newdata
disp hp am am_prob
1 200 100 0 0.004225640
2 180 90 0 0.008361069
3 160 108 0 0.335916069
4 140 90 1 0.275162866
5 120 80 0 0.429961894
6 120 90 1 0.718090728
7 100 80 1 0.835013994
8 160 90 1 0.053546152
ต่อไปนี้เป็นวิธีการตีความผลลัพธ์:
- ความน่าจะเป็นที่รถ 1 มีเกียร์ธรรมดาคือ 0.004
- ความน่าจะเป็นที่รถ 2 มีเกียร์ธรรมดาคือ 0.008
- ความน่าจะเป็นที่รถ 3 มีเกียร์ธรรมดาคือ 0.336
และอื่นๆ
นอกจากนี้เรายังสามารถใช้ฟังก์ชัน table() เพื่อสร้างเมทริกซ์ความสับสนที่แสดงค่า am จริงเทียบกับค่าที่คาดการณ์โดยโมเดล:
#create vector that contains 0 or 1 depending on predicted value of am
am_pred = rep(0, dim(newdata)[1])
am_pred[newdata$am_prob > .5] = 1
#create confusion matrix
table(am_pred, newdata$am)
am_pred 0 1
0 4 2
1 0 2
สุดท้ายนี้ เราสามารถใช้ฟังก์ชัน Mean() เพื่อคำนวณเปอร์เซ็นต์ของการสังเกตในฐานข้อมูลใหม่ที่แบบจำลองทำนายค่าของ am ได้อย่างถูกต้อง :
#calculate percentage of observations the model correctly predicted response value for
mean(am_pred == newdata$am)
[1] 0.75
เราจะเห็นว่าแบบจำลองทำนายค่า am ของรถยนต์ได้ถูกต้องถึง 75% ในฐานข้อมูลใหม่
แหล่งข้อมูลเพิ่มเติม
บทช่วยสอนต่อไปนี้จะอธิบายวิธีดำเนินการงานทั่วไปอื่นๆ ใน R:
วิธีดำเนินการถดถอยเชิงเส้นอย่างง่ายใน R
วิธีดำเนินการถดถอยเชิงเส้นพหุคูณใน R
วิธีดำเนินการถดถอยพหุนามใน R
วิธีสร้างช่วงเวลาการทำนายใน R