วิธีการคำนวณข้อผิดพลาดมาตรฐานคงเหลือใน r
เมื่อใดก็ตามที่เราใส่โมเดลการถดถอยเชิงเส้นใน R โมเดลจะใช้รูปแบบต่อไปนี้:
Y = β 0 + β 1 X + … + β i
โดยที่ ϵ เป็นคำที่ผิดพลาดโดยไม่ขึ้นกับ X
ไม่ว่า X จะสามารถทำนายค่า Y ได้อย่างไร ก็จะมีข้อผิดพลาดแบบสุ่มในโมเดลเสมอ วิธีหนึ่งในการวัดการกระจายตัวของข้อผิดพลาดแบบสุ่มนี้คือการใช้ ข้อผิดพลาดมาตรฐานตกค้าง ซึ่งเป็นวิธีการวัดค่าเบี่ยงเบนมาตรฐานของค่าเบี่ยงเบนมาตรฐาน ϵ
ข้อผิดพลาดมาตรฐานคงเหลือของแบบจำลองการถดถอยมีการคำนวณดังนี้:
ข้อผิดพลาดมาตรฐานคงเหลือ = √ SS คงเหลือ / df คงเหลือ
ทอง:
- Residuals SS : ผลรวมที่เหลือของกำลังสอง
- คงเหลือ df : องศาอิสระที่เหลือ คำนวณเป็น n – k – 1 โดยที่ n = จำนวนการสังเกตทั้งหมด และ k = จำนวนพารามิเตอร์แบบจำลองทั้งหมด
มีสามวิธีที่เราสามารถใช้เพื่อคำนวณความคลาดเคลื่อนมาตรฐานที่เหลือของแบบจำลองการถดถอยใน R
วิธีที่ 1: วิเคราะห์สรุปแบบจำลอง
วิธีแรกในการรับข้อผิดพลาดมาตรฐานที่เหลือคือเพียงปรับโมเดลการถดถอยเชิงเส้นให้พอดี จากนั้นใช้คำสั่ง summary() เพื่อรับผลลัพธ์ของโมเดล จากนั้นเพียงมองหา “ข้อผิดพลาดมาตรฐานที่เหลือ” ที่ด้านล่างของเอาต์พุต:
#load built-in mtcars dataset data(mtcars) #fit regression model model <- lm(mpg~disp+hp, data=mtcars) #view model summary summary(model) Call: lm(formula = mpg ~ disp + hp, data = mtcars) Residuals: Min 1Q Median 3Q Max -4.7945 -2.3036 -0.8246 1.8582 6.9363 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 30.735904 1.331566 23.083 < 2nd-16 *** available -0.030346 0.007405 -4.098 0.000306 *** hp -0.024840 0.013385 -1.856 0.073679 . --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 3.127 on 29 degrees of freedom Multiple R-squared: 0.7482, Adjusted R-squared: 0.7309 F-statistic: 43.09 on 2 and 29 DF, p-value: 2.062e-09
เราจะเห็นว่าข้อผิดพลาดมาตรฐานคงเหลือคือ 3.127 .
วิธีที่ 2: ใช้สูตรอย่างง่าย
อีกวิธีหนึ่งในการรับข้อผิดพลาดมาตรฐานที่เหลือ (RSE) คือการปรับแบบจำลองการถดถอยเชิงเส้นให้เหมาะสม จากนั้นใช้สูตรต่อไปนี้เพื่อคำนวณ RSE:
sqrt( deviance (model)/df. residual (model))
ต่อไปนี้คือวิธีการใช้สูตรนี้ใน R:
#load built-in mtcars dataset data(mtcars) #fit regression model model <- lm(mpg~disp+hp, data=mtcars) #calculate residual standard error sqrt( deviance (model)/df. residual (model)) [1] 3.126601
เราจะเห็นว่าข้อผิดพลาดมาตรฐานคงเหลือคือ 3.126601
วิธีที่ 3: ใช้สูตรทีละขั้นตอน
อีกวิธีหนึ่งในการรับข้อผิดพลาดมาตรฐานที่เหลือคือปรับโมเดลการถดถอยเชิงเส้นให้เหมาะสม จากนั้นใช้วิธีการทีละขั้นตอนเพื่อคำนวณแต่ละองค์ประกอบของสูตร RSE:
#load built-in mtcars dataset data(mtcars) #fit regression model model <- lm(mpg~disp+hp, data=mtcars) #calculate the number of model parameters - 1 k=length(model$ coefficients )-1 #calculate sum of squared residuals SSE=sum(model$ residuals **2) #calculate total observations in dataset n=length(model$ residuals ) #calculate residual standard error sqrt(SSE/(n-(1+k))) [1] 3.126601
เราจะเห็นว่าข้อผิดพลาดมาตรฐานคงเหลือคือ 3.126601
วิธีการตีความข้อผิดพลาดมาตรฐานที่เหลือ
ตามที่กล่าวไว้ข้างต้น ความคลาดเคลื่อนมาตรฐานส่วนที่เหลือ (RSE) เป็นวิธีหนึ่งในการวัดค่าเบี่ยงเบนมาตรฐานของส่วนที่เหลือในแบบจำลองการถดถอย
ยิ่งค่า CSR ต่ำ โมเดลก็ยิ่งสามารถใส่ข้อมูลได้ดีขึ้นเท่านั้น (แต่ต้องระวัง overfitting ) นี่อาจเป็นเมตริกที่มีประโยชน์เพื่อใช้ในการเปรียบเทียบโมเดลตั้งแต่ 2 โมเดลขึ้นไป เพื่อพิจารณาว่าโมเดลใดที่เหมาะกับข้อมูลมากที่สุด
แหล่งข้อมูลเพิ่มเติม
วิธีการตีความข้อผิดพลาดมาตรฐานที่เหลือ
วิธีดำเนินการถดถอยเชิงเส้นพหุคูณใน R
วิธีตรวจสอบประสิทธิภาพของโมเดลใน R
วิธีการคำนวณค่าเบี่ยงเบนมาตรฐานใน R